热门

pdf-extract-api

12个月前发布 22 00

pdf-extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建，并使用Celery进行异步任务处理，Redis用于缓存OCR结果。该API无需云或外部依赖，所有处理都在本地开发或服务器环境中完成，确保数据安全。它支持PDF到Mar...

收录时间：

2025-05-30

打开网站手机查看

办公助手 # anonymization # API # extract # JSON # LLM # OCR # ocr-python # pdf # pii

pdf-extract-api

pdf-extract-api

pdf–extract-api是一个使用现代OCR技术和Ollama支持的模型将任何文档或图片转换为结构化的JSON或Markdown文本的API。它使用FastAPI构建，并使用Celery进行异步任务处理，Redis用于缓存OCR结果。该API无需云或外部依赖，所有处理都在本地开发或服务器环境中完成，确保数据安全。它支持PDF到Markdown的高精度转换，包括表格数据、数字或数学公式，并且可以使用Ollama支持的模型进行PDF到JSON的转换。此外，该API还支持LLM改进OCR结果，去除PDF中的个人身份信息（PII），以及分布式队列处理和缓存。

数据统计

相关导航

Summary With AI

Summary With AI是一款基于人工智能的摘要工具，能够帮助用户快速、准确地对大型PDF文件进行摘要。其优势在于高质量的摘要输出、快速的处理速度以及对各类信息密集型PDF文件的处理能力。用户可根据需要选择不同的信用额度，无需长期订阅，灵活方便。定价灵活，根据需求购买相应的信用额度。

pdfy

PDFY.ai是一款最终的ChatPDF应用，允许您与任何PDF、网站、音频或视频进行聊天：提问、获取摘要，找到您所需的一切！它提供智能搜索、实时问题解答、内容摘要、标注和笔记、价格比较等功能。它能够帮助您更高效地处理大量文档，并轻松获取所需信息。

Export GPT – Export your chats with GPTs

这是一个可以将你与预训练模型GPT的聊天记录导出为可分享的PDF文件的插件。你可以使用它将聊天记录保存下来或与他人分享。

Map This

Map This是一个将PDF文档转换为思维导图的工具，旨在帮助学生、职业人士和任何希望有效组织思维的人简化学习并增强信息记忆。通过将密集的PDF文档转换为直观易用的思维导图，简化学习过程。

MarkItDown

MarkItDown是一个Python工具库，用于将各种文件如PDF、PPT、Word、Excel、图片等转换为Markdown格式，便于索引、文本分析等。它支持多种文件格式，并且可以与大型语言模型结合使用，以描述图像内容。MarkItDown的重要性在于它能够将非文本内容转换为文本，极大地方便了内容的管理和使用。该工具由微软维护，免费开源，适用于需要处理大量文档和文件的开发者和数据分析师。

BeyondPDF

BeyondPDF是一款致力于提高用户在PDF文件中搜索内容效率的智能应用程序。它通过先进的语义搜索技术，帮助用户快速找到所需信息，即便关键词不完全匹配。产品完全免费，无需互联网连接即可使用，确保了用户的隐私和数据安全。此外，BeyondPDF无需服务器支持，所有搜索操作均在本地完成，为用户提供了极速的搜索体验。

Chat With Media

Chat With Media是一款开源软件，使您能够轻松与PDF文件进行聊天。只需上传您的文件，立即开始提问。立即体验Chat With Media吧，只需要一分钟。

PDF-Extract-Kit

PDF-Extract-Kit是一个专门用于提取PDF文件中高质量内容的工具包。它通过多个组件实现对PDF文档的深度解析，包括版面检测、公式检测、公式识别和光学字符识别（OCR）。该工具包使用先进的模型如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR，以适应各种类型的PDF文档，并在版面和公式检测方面具有高精度。它还特别针对扫描模糊或带有水印的文档进行了优化，以确保在复杂情况下也能提供准确的提取结果。

暂无评论

您必须登录才能参与评论！

none

暂无评论...