2018年6月11日月曜日

Python3でPDFからテキストを取り出す

Python3.6
PDFファイルからテキストを抜き出します。けっこう面倒です。

ここを参考にしましたが、Python2だったのでPython3用に変更しています。
https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d


■インストール
pdfminer.sixをインストールします。importするときはpdfminerでOK
conda install -c conda-forge pdfminer.six
■コード
pdfminerを使って、pyスクリプトと同じディレクトリにあるTEST.pdf を、from_pdf.txtに出力します。

buf = False とします。テーブルなどはPDFで見えている順にならないこともあります。そのときは自力で整形します。

--
インタラクティブに整形するのであれば、

text = convert_pdf_to_txt("TEST.pdf", "from_pdf.txt", True)
text = re.split('\n{1,}', text)

すると、text が改行を消したリストになっているので確認しながら整形して取り出すこともできます。

PyPDF2は日本語では使えなかった

オライリーの『退屈なことはPythonにやらせよう』で紹介されているPyPDF2ではエンコーディングがutf-8のみしか対応していないので、日本語フォントが読めませんでした。

0 件のコメント:

コメントを投稿