高速にPDFファイルからテキストを抽出する
- August 13th, 2008
- Posted in Linux
- Write comment
高速にPDFファイルからテキストを抽出する
抽出するには、xpdfに含まれている「pdftotext」を使用する。
xpdfがインストールされていない場合は、aptを使いインストール。
$ apt-cache search xpdf
$ apt-get install xpdf
インストールが終わったら、pdftotextがあるか確かめる。
$ which pdftotext
無事に終われば、以下のようなコマンドでテキスト部分を抽出
することが出来る。
$ pdftotext -enc Shift-JIS -raw a.pdf a.txt
Popularity: 4% [?]
No comments yet.