MinerU是一款将PDF转化为机器可读格式的工具(如markdown、json),可以很方便地抽取为任意格式。 MinerU诞生于书生-浦语的预训练过程中,将会集中精力解决科技文献中的符号转化问题,希望在大模型时代为科技发展做出贡献。
主要功能
- 删除页眉、页脚、脚注、页码等元素,保持语义连贯
- 对多栏输出符合人类阅读顺序的文本
- 保留原文档的结构,包括标题、段落、列表等
- 提取图像、图片标题、表格、表格标题
- 自动识别文档中的公式并将公式转换成latex
- 自动识别文档中的表格并将表格转换成latex
- 乱码PDF自动检测并启用OCR
- 支持CPU和GPU环境
- 支持windows/linux/mac平台

MinerU - 一站式开源数据提取工具
数据统计
数据评估
关于MinerU特别声明
本站1001导航提供的MinerU都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由1001导航实际控制,在2024-08-16 22:41收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,1001导航不承担任何责任。
相关导航
暂无评论...