【实践记录】PDF相关
故事开始于昨天早上,接收到一条短信,告诉我有一个小项目可以接,接着我联系了一天,都没有确定是要做什么,没有明确的需求,大概知道了会和 PDF 相关信息的检索有关,随后我就开始自己先琢磨一下了,今天又快过完了,还是没得需求,十月底要弄出来,真的想说,“赚钱不容易呀”。
pdfboxNet 库
PDFBox 是 Java 实现的 PDF 文档协作类库,提供 PDF 文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具,pdfboxNet 也就是 pdfbox 的.Net 实现了。
主要特性包括:从 PDF 提取文本、合并 PDF 文档、PDF 文档加密与解密、与 Lucene 搜索引擎的集成、填充 PDF/XFDF 表单数据、从文本文件创建 PDF 文档、从 PDF 页面创建图片、打印 PDF 文档等等。
大概参考了一下这篇文章,C#读取PDF ——PDFBox 使用,其中不需要和文章中说的一样取下载库文件,在 VS 集成开发环境中,使用 NnGet 直接搜索安装就好了。
文章有点古老了,技术我也不知道是不是被淘汰了,其实我只是想验证我的想法,打开 PDF 提取相关信息,这里就以及验证了可以提取信息,虽然后来通过进一步的交流发现,那边又整理好的 EXCEL 表格,可能是检索 EXCEL 吧,还是步完全清楚需求,罢了罢了,继续玩一玩 PDF 相关的东西吧。
PDF winform 控件
一想,玩一下 PDF 相关的 Winform 控件吧,随后就开始找了。
Adobe 提供的 ActiveX 控件
Adobe 提供的 ActiveX 控件,这里没有具体尝试,需要在安装 adobe acrobat。
相关链接
【C# 基础】— 解决 “winForm 引用 Adobe PDF Reader 控件不显示 pdf 文件” 问题 CSDN 问题:C# winform Acrobat Reader 显示 pdf 如何获取当前页数,提到了 Free Spire.PDFViewer、devexpress pdf 的控件
DevExpress 的 PDF 控件
听说比较好用,有点跃跃欲试的感觉,但是一个 license 需要 18k+,果断放弃了,不过网上有破解版,之后有时间再尝试一下。
相关链接
基于 DevExpress 实现对 PDF、Word、Excel 文档的预览及操作处理
devexpress 使用安装、破解注册和汉化包进行汉化的步骤
没有尝试的收费的 PDF 控件
Free Spire.PDFViewer for .NET 收费,但是也有免费版,免费版有功能上的限制,比如只能显示 10 页。
开源的 PDF 控件
PDF Viewer Control Without Acrobat Reader Installed 很老的开源项目了,09 年的。
The PDFView4NET toolkit 免费的,并且持续更新,有时间再尝试一下。相关链接
PdfiumViewer
一个免费的.NET 的 PDF 控件库。PdfiumViewer GitHub 库 PdfiumBuild GitHub 库
PdfiumBuild 库的下载,对应在 NuGet 下载 PdfiumViewer.Native.x86_64.v8-xfa 库和 PdfiumViewer.Native.x86.v8-xfa 库就好了,而 PdfiumViewer 库在 NuGet 对应的搜索下载就好了。
其中我下载了 PdfiumViewer Github 上的源码,跑了 PdfiumViewer 的 Demo 项目,除了页面老了点,其他是极好的。
写在最后
PDF 相关的库就大概接触了一下上面这些了,不多说了,PDF 相关的东西,以后有用得到再翻一翻看一看吧。