热门

PDF-Extract-Kit

1年前发布 15 00

PDF-Extract-Kit是一个专门用于提取PDF文件中高质量内容的工具包。它通过多个组件实现对PDF文档的深度解析，包括版面检测、公式检测、公式识别和光学字符识别（OCR）。该工具包使用先进的模型如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR，以适应各种类型的PDF文档，并在版面和公式检测方面具有高精度...

收录时间：

2025-06-02

打开网站手机查看

办公助手 # OCR # PDF提取 # 公式识别 # 版面检测

PDF-Extract-Kit

PDF-Extract-Kit

PDF-Extract-Kit是一个专门用于提取PDF文件中高质量内容的工具包。它通过多个组件实现对PDF文档的深度解析，包括版面检测、公式检测、公式识别和光学字符识别（OCR）。该工具包使用先进的模型如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR，以适应各种类型的PDF文档，并在版面和公式检测方面具有高精度。它还特别针对扫描模糊或带有水印的文档进行了优化，以确保在复杂情况下也能提供准确的提取结果。

数据统计

相关导航

swift-ocr-llm-powered-pdf-to-markdown

这是一个开源的OCR API，利用OpenAI强大的语言模型和优化的性能技术（如并行处理和批处理）来实现从复杂PDF文档中提取高质量文本。非常适合寻求高效文档数字化和数据提取解决方案的企业。

pdf-extract-api

pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建，并使用Celery进行异步任务处理，Redis用于缓存OCR结果。该API无需云或外部依赖，所有处理都在本地开发或服务器环境中完成，确保数据安全。它支持PDF到Markdown的高精度转换，包括表格数据、数字或数学公式，并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外，该API还支持LLM改进OCR结果，去除PDF中的个人身份信息（PII），以及分布式队列处理和缓存。

Extractous

Extractous是一个用Rust编写的非结构化数据提取工具，提供多语言绑定。它专注于从各种文件类型（如PDF、Word、HTML等）中提取内容和元数据，并且性能优异，内存占用低。Extractous通过原生代码执行实现快速处理速度和低内存使用，支持多种文件格式，并集成了Apache Tika和tesseract-ocr技术，使其能够处理广泛的文件类型并进行OCR识别。该工具的开源性质和Apache 2.0许可使其可以免费用于商业用途，适合需要处理大量文档数据的企业和开发者。

RapidLayoutRecover

RapidLayoutRecover是一个专门针对文档类图像的版面还原工具，它能够整合版面分析、文字识别、表格识别和公式识别的结果，还原文档的原始版面布局信息。该工具对于文档数字化、档案管理以及学术研究等领域具有重要价值，能够显著提高文档处理的效率和准确性。

暂无评论

您必须登录才能参与评论！

none

暂无评论...