项目详情
由
分享


HelloGitHub 评分
0 人评分
开源•Apache-2.0
认领
讨论
收藏
分享
9.4k
星数
否
中文
Python
主语言
是
活跃
4
贡献者
76
Issues
是
组织
0.1.58
最新版本
614
Forks
Apache-2.0
协议
更多

该项目是基于视觉语言模型(VLMs)解析和线性化复杂的 PDF 文档,即将非结构化的内容(如多列文本、表格、嵌入式图片、混杂的字体样式和布局)转换为连续、结构化的文本表示。它支持分布式多节点解析数百万份 PDF 文档的全流程,为大语言模型(LLMs)构建高质量的数据集。
评论
评分:
暂无精选评论