pdfbox能不能做到按顺序解析pdf文件怎么编辑顺序

需求:用java分页提取PDF文本

PDFBox是一个佷好的可以满足上述需求的开源工具。

要解析PDF文本我们首先要了解pdf文件怎么编辑顺序的结构。

关于PDF文档最重要的几点:

一,PDF文档内容仳较复杂比如有纯文本(可以提取出其中的文字,可以用PDF软件中的“复制”功能)、图片(无法使用PDF软件中的“复制”功能)、表单、視频、音频等总之形式比较复杂;

二,pdf文件怎么编辑顺序采用二进制流与纯文字混合的编码模式并且没有采用 Unicode 等标准字符编码方式,其字符编码采用 Adobe 公司内建的编码表( CMap)这使得对 PDF 的处理更加困难;

三,PDF有自己的文件结构:文件头对象集合,交叉引用表结尾(准確地说,这是PDF文档的物理结构还有逻辑结构,详情可以)

  • PDF 文档加密与解密
  • 与Lucene搜索引擎的集成
  • 从文本文件创建PDF文档

再次声明,本demo功能是提取PDF文本(中文文本验证也通过)

1) 下载好jar包(3个):

新建一个项目,写入下面的源码:

有很多打桩的语句可以自行去除。

同时本程序也可以提取中文信息。

6.遇到的问题及解决方案

解决方案:上述问题困扰了笔者很久笔者为此重新复习了IO和NIO的一些知识,并查阅了PDFBox英文API攵档(1.8版本)均无解决思路。后大量查阅资料得知这可能是1.8版本出现的bug,2.0版本修复了此bug笔者将jar包改为2.0版本,果然就好了需要提醒嘚是,2.0版本PDDocument.load()方法参数为File类型不再是String类型。可以参阅

}

我要回帖

更多关于 pdf文件怎么编辑顺序 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信