PDF文件不能搜索或者拷贝文字的分析

现在的位置: 首页 > 综合 > 正文

PDF文件不能搜索或者拷贝文字的分析

2012年05月19日 ⁄ 综合 ⁄ 共 691字 ⁄ 字号小中大 ⁄ 评论关闭

常用的pdf产生方案无外乎几种，虚拟打印机，office adobe插件，adobe sdk，itextsharp等pdf组装软件等。

通常一些商业软件的报表转pdf基本不可能用到插件、sdk或者itextsharp，最常用的可能就是虚拟打印机了。虚拟打印机驱动是支持Postscript输出的，adobe和惠普登厂商都有提供下载。可以利用GhostScript把ps文件转成pdf。一般情况下是没有问题的，文字拷贝和搜索都正常（加密或锁定情况除外）。

可是例外情况让我赶上了，不得不花了很多时间研究。最早以为GhostScript的使用出了问题，怎么改问题依旧；后来又下了很多字体包也没有效果。最终想可能是ps文件出了些问题。一般不能拷贝或者搜索的都是“新宋体”的嵌入文字，好，找到这个字库，是以ttc而不是ttf结尾的，说明这个字库中包含了多个字体；再搜索ps文件，字体名称是以ansi进行编码用十六进制字符串表示的，中文是以unicode编码的十六进制字符串，通过中文索引找到文字前的序号，这个序号就是字库中该文字编码对应的序号；多看几个字，发现这些序号都是对的，可是后面跟的十六进制中文不对了（与序号的对应可以根据ttfdump.exe工具产生对应表来找）。

好吧，那就根据这个序号在对应表中找到对应的十六进制编码，替换掉错的；再用GhostScript工具重新转换。

OK，生成的pdf中的中文可以复制和检索了。

总结：可能是ps打印驱动的bug，也有可能是“新宋体”字库的bug让打印驱动发生错误。据说“宋体/新宋体”字库很是臭名昭著。

如果有其他pdf不能复制或者搜索，请大家联系我。

【上篇】哲理故事：世间什么才是最珍贵的
【下篇】List动态加载Rdblist

作者: gaine

该日志由 gaine 于12年前发表在综合分类下，最后更新于 2012年05月19日.
转载请注明: PDF文件不能搜索或者拷贝文字的分析 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

PDF文件不能搜索或者拷贝文字的分析

作者: gaine

书签

最新文章New

本站推荐

返回首页