下拉刷新
项目详情
navbar_avatar分享
repo_avatar
HelloGitHub 评分
0 人评分
PDF 文档智能化解析的库
开源Apache-2.0
认领
收藏
分享
9.4k
星数
中文
Python
主语言
活跃
4
贡献者
76
Issues
组织
0.1.58
最新版本
614
Forks
Apache-2.0
协议
更多
olmocr image
该项目是基于视觉语言模型(VLMs)解析和线性化复杂的 PDF 文档,即将非结构化的内容(如多列文本、表格、嵌入式图片、混杂的字体样式和布局)转换为连续、结构化的文本表示。它支持分布式多节点解析数百万份 PDF 文档的全流程,为大语言模型(LLMs)构建高质量的数据集。
标签:
AI
PDF
Python

评论

评分:
暂无精选评论