PDFファイルの検索なんかに使えそう。 OCRではなく、PDF作成時にインデックス化されたテキスト情報を取得する。 pdfboxを使っているので、Javaでも同じような処理で実装可能。
今回はページ数と全テキストの取得のみだけど、 pdfboxの機能で色々な情報を取り出せそう。
pdf_text_search.groovy
@Grab(group='org.apache.pdfbox', module='pdfbox', version='1.8.8') def pdfPath = '<PDFファイルのパス>' import org.apache.pdfbox.pdfparser.PDFParser import org.apache.pdfbox.pdmodel.PDDocument import org.apache.pdfbox.util.PDFTextStripper import org.apache.pdfbox.util.TextPosition def pp = new PDFParser(new FileInputStream(pdfPath)) pp.parse() def doc = pp.getPDDocument() def pageCount = doc.getNumberOfPages() println pageCount def stripper = new PDFTextStripper() def text = stripper.getText(doc) println text
![PDF+Acrobat ビジネス文書活用[ビジテク] 業務効率化を実現する文書テクニック PDF+Acrobat ビジネス文書活用[ビジテク] 業務効率化を実現する文書テクニック](http://ecx.images-amazon.com/images/I/51UiKvmN6PL._SL160_.jpg)
PDF+Acrobat ビジネス文書活用[ビジテク] 業務効率化を実現する文書テクニック
- 作者: 山口真弘
- 出版社/メーカー: 翔泳社
- 発売日: 2014/04/17
- メディア: Kindle版
- この商品を含むブログを見る