dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 | 学步园

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

dotnet环境下从PDF文档中抽取Text文本的一些方法汇总

2012年11月17日 ⁄ 综合 ⁄ 共 830字 ⁄ 字号小中大 ⁄ 评论关闭

1.PDFBox的IKVM版本：据我所知，目前只有PDFBox的IKVM版本能比较好地从PDF中提取文本，PDFBOX更多信息请访问http://www.pdbox.org，
关于其应用实例，可以参考CodeProject上的：http://www.codeproject.com/csharp/pdf2text.asp;
2.使用Acrobat的SDK（这个价格可不便宜）；
3.XPDF：如果条件允许可以考虑使用XPDF的PDFToText，
XPDF是用C语言编写的PDF解析库，并提供多个工具，开放源代码(如果你熟悉C和dotnet，也许你可以在dotnet环境下编译为你所用），但是基于GUN协议，如果商业应用，需要money；
更多信息访问：http://www.foolabs.com/xpdf
3.Ghostscript：另外一个可以考虑的是Ghostscript，官方网址是：www.cs.wisc.edu/~ghost/，抽取Text的方法，google下ps2txt;
4.其它一些相关资源：
http://www.mj10777.de/NETFramework/Desktop/SharpZipLib/PdfToTxt/index.htm
Extract Text from PDF File：http://www.codeproject.com/Purgatory/DotNetPDF.asp?df=100&forumid=104443
Code to extract plain text from a PDF file：http://www.codeproject.com/cpp/ExtractPDFText.asp?df=100&forumid=47947

顺便说下，很多朋友询问iTextSharp中抽取文本的方法，这里说下，就目前而言，iTextSharp还不支持这个功能，也无法抽取图片，当然我通过摸索也只能抽取最简单格式的图片（jpeg），其它的还在研究怎么处理。

返回

【上篇】在Android模拟器和Ubuntu上测试Linux驱动使用Android NDK和Java测试Linux驱动
【下篇】Android Camera 明细

作者: wholesome

该日志由 wholesome 于11年前发表在综合分类下，最后更新于 2012年11月17日.
转载请注明: dotnet环境下从PDF文档中抽取Text文本的一些方法汇总 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

Copyright © 2013-2018 学步园保留所有权利.
软文销售 QQ客服：2265327166

点击这里给我发消息

（其他合作也可洽谈）