高速にPDFファイルからテキストを抽出する

高速にPDFファイルからテキストを抽出する

抽出するには、xpdfに含まれている「pdftotext」を使用する。

xpdfがインストールされていない場合は、aptを使いインストール。

$ apt-cache search xpdf
$ apt-get install xpdf

インストールが終わったら、pdftotextがあるか確かめる。

$ which pdftotext

無事に終われば、以下のようなコマンドでテキスト部分を抽出
することが出来る。

$ pdftotext -enc Shift-JIS -raw a.pdf a.txt



Popularity: 4% [?]

DiggGoogle BookmarksGoogle ReaderFacebookDeliciousFriendFeedEvernoteTwitterShare
  1. No comments yet.

  1. No trackbacks yet.