Extractous

8个月前发布 20 00

Extractous是一个用Rust编写的非结构化数据提取工具,提供多语言绑定。它专注于从各种文件类型(如PDF、Word、HTML等)中提取内容和元数据,并且性能优异,内存占用低。Extractous通过原生代码执行实现快速处理速度和低内存使用,支持多种文件格式,并集成了Apache Tika和tesseract-ocr技术,使其能够处...

收录时间:
2025-06-02
ExtractousExtractous

Extractous是一个用Rust编写的非结构化数据提取工具,提供多语言绑定。它专注于从各种文件类型(如PDF、Word、HTML等)中提取内容和元数据,并且性能优异,内存占用低。Extractous通过原生代码执行实现快速处理速度和低内存使用,支持多种文件格式,并集成了Apache Tika和tesseract-ocr技术,使其能够处理广泛的文件类型并进行OCR识别。该工具的开源性质和Apache 2.0许可使其可以免费用于商业用途,适合需要处理大量文档数据的企业和开发者。

数据统计

相关导航

AnyToSpeech

AnyToSpeech

AnyToSpeech是一款简洁易用的文字转语音解决方案,支持将文本、PDF、文档、扫描件和图片转换为语音。用户可以免费使用500个字符,超出部分需登录使用。该产品还提供文档、网址、扫描件或图片转语音的功能,并支持生成AI语音、教育、YouTube视频内容创作、文章转音频、有声书、PDF文档朗读、新闻摘要、播客制作等多种应用场景。用户可根据需求选择不同的价格套餐,提供一次性购买和包月订阅两种付费方式,并且产品还提供免费试用、退款政策和随时取消订阅等服务。
PDF-Extract-Kit

PDF-Extract-Kit

PDF-Extract-Kit是一个专门用于提取PDF文件中高质量内容的工具包。它通过多个组件实现对PDF文档的深度解析,包括版面检测、公式检测、公式识别和光学字符识别(OCR)。该工具包使用先进的模型如LayoutLMv3、YOLOv8、UniMERNet和PaddleOCR,以适应各种类型的PDF文档,并在版面和公式检测方面具有高精度。它还特别针对扫描模糊或带有水印的文档进行了优化,以确保在复杂情况下也能提供准确的提取结果。

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...