
Camelot是一个开源 PDF 表格提取工具,专为从 PDF 文件中提取表格数据而设计。无论是流解析还是格子解析,Camelot 都能高效地将 PDF 表格转换为 CSV、Excel、JSON 和 HTML 格式,方便数据分析和处理。其简单易用的接口和强大的功能,使其成为数据科学家和分析师的理想选择。
Camelot: 开源 PDF 表格提取工具,轻松转换数据
Camelot的主要功能特点
- 易用性:提供简单直观的 API 和命令行接口,即使没有深入了解 PDF 解析技术的用户也能快速上手。
- 灵活性:支持两种不同的表格检测方法:
- 流解析(Stream):适用于没有明确边界线的表格,通过检测文本的相对位置来识别表格。
- 格子解析(Lattice):适用于有明确边界线的表格,通过检测表格的线条来识别表格。
- 高性能:利用 C++ 编写的底层库 Tabula-py 进行加速,保证了高效率的表格识别。
- 多格式输出:支持将提取的数据导出为 CSV、Excel、JSON 和 HTML 等多种格式,方便用户在不同场景下使用。
- 自定义参数:允许用户调整参数,以优化对复杂或异常布局表格的识别效果。
功能应用
使用 Camelot,你可以:
- 快速高效地从 PDF 文档中批量提取表格数据。
- 针对特定 PDF 布局调整参数以提高准确性。
- 将提取的数据导出到常用的文件格式,便于进一步的数据分析和处理在数据分析项目中自动化数据录入过程,节省人力成本。
- 结合其他 Python 数据科学库(如 pandas 和 NumPy),进行数据清洗和深度分析。
camelot 快速上手
1、新建 camelot 项目
2、安装 Ghostscript,它用于解析 PDF 文件。macOS 用户可以使用 brew 来安装 Ghostscript。
brew install ghostscript
3、使用 pip 安装 camelot
pip install “camelot-py[base]”
4、新建 main.py 文件并输入以下内容
import camelot
tables = camelot.read_pdf(‘foo.pdf’)
tables.export(‘foo.csv’, f=’csv’, compress=False)
5、运行 main.py 程序
python3 main.py
对于 macOS 或 Linux 系统的用户来说,在运行 main.py 程序时,如果出现以下错误:
/ghostscript/_gsprint.py”, line 267, in <module>
raise RuntimeError(“Please make sure that Ghostscript is installed”)
可以在运行程序前,先配置 DYLD_LIBRARY_PATH 环境变量:
export DYLD_LIBRARY_PATH=/opt/homebrew/Cellar/ghostscript/10.03.1/lib/
成功运行 main.py 程序之后,在 camelot 项目根目录下生成对应的 csv 文件。
excalibur 快速上手
为了方便用户使用 camelot,camelot 团队提供了一个 Web 工具 —— excalibur。
1、使用 pip 安装 excalibur
pip install excalibur-py
2、初始化数据库
excalibur initdb
3、启动 excalibur 服务器
excalibur webserver
当服务器成功启动后,在浏览器中打开 http://127.0.0.1:5000/files 地址,就会看到以下操作界面:
excalibur 首页
之后,点击 Upload PDF 按钮选择本地 PDF 文件,就可以开始抽取表格了。此外 excalibur 还提供的检测表格的功能,使用效果如下图所示:
检测 PDF 表格
数据统计
相关导航

爱拍压缩大师是一款专业的文件压缩软件,支持视频、音频、图片、PDF和文档等多种格式的快速批量压缩。压缩清晰度接近原文件,且极致体积,同时包含高级功能可供设置,通过先进的算法和无损压缩技术,确保文件在保持高质量的同时大幅减少体积。

FreePdfConvert
FreePdfConvert是一个免费的在线PDF处理工具,它可以将PDF文字转为Word、Excel、PPT等多种格式,还能进行PDF合并、分割、压缩、旋转、密码破解等操作。该工具的优点在于其界面简单,操作方便,支持批量处理,且无需额外下载或安装软件,跨平台使用。

爱拍压缩大师
爱拍压缩大师是一款专业的文件压缩软件,支持视频、音频、图片、PDF和文档等多种格式的快速批量压缩。压缩清晰度接近原文件,且极致体积,同时包含高级功能可供设置,通过先进的算法和无损压缩技术,确保文件在保持高质量的同时大幅减少体积。

PDF Guru
PDF Guru 是一款全能的 PDF 文件处理软件,它提供了包括 PDF 合并、拆分、旋转、水印、加密和解密、OCR识别等在内的多种常用功能。这款软件完全开源,个人用户可以免费使用,并且支持在 Windows、Mac 和 Linux 设备上运行。PDF Guru 的界面设计简洁,操作简便,适合各种用户群体,无论是个人还是企业用户,都能够从中获益,提升工作效率。

嗨格式压缩大师
嗨格式压缩大师是一款专业的文件压缩软件,支持视频、图片、PDF、Word和PPT等多种格式的高效压缩。通过批量压缩和多种压缩模式,用户可以自定义设置各类压缩参数,以适应不同的压缩需求。

依奇在线超级转换工具
依奇在线超级转换工具是一个功能丰富的在线工具网站,可以帮助您处理各种文件转换需求。提供在线OCR文字识别转换、在线PDF转换、在线Office转换(例如Word转图片、PPT转图片)、以及在线苹果HEIC转换JPG,PDF去水印等多种实用工具。快来使用WDKU,让您的文件转换变得更加直接高效!

PDFgear
PDFgear是一款免费的全能PDF软件,提供多种实用功能,帮助用户高效处理PDF文件。主要功能包括PDF阅读、编辑、标注、格式转换、压缩、合并、拆分、表单填写、数字签名和OCR图文识别。支持多语言版本,适用于Windows、macOS和iOS系统。无论是个人用户还是企业用户,PDFgear都能满足您的PDF处理需求。

PDFtoBrainrot
PDF To Brainrot是一款将传统的PDF文档转化为短视频内容的工具,尤其适用于TikTok等平台。用户只需上传PDF文件,AI便会自动提取关键内容,生成简洁的摘要,并通过语音朗读呈现。无论是枯燥的教科书、学术论文还是创意写作作品,PDF To Brainrot都能将其转变为轻松有趣的“brainrot”视频,使学习过程更具娱乐性和吸引力。
暂无评论...