PDFファイルからテキストを抜き出します。けっこう面倒です。
ここを参考にしましたが、Python2だったのでPython3用に変更しています。
https://qiita.com/korkewriya/items/72de38fc506ab37b4f2d
■インストール
pdfminer.sixをインストールします。importするときはpdfminerでOK
conda install -c conda-forge pdfminer.six
■コードpdfminerを使って、pyスクリプトと同じディレクトリにあるTEST.pdf を、from_pdf.txtに出力します。
buf = False とします。テーブルなどはPDFで見えている順にならないこともあります。そのときは自力で整形します。
--
インタラクティブに整形するのであれば、
text = convert_pdf_to_txt("TEST.pdf", "from_pdf.txt", True)
text = re.split('\n{1,}', text)
すると、text が改行を消したリストになっているので確認しながら整形して取り出すこともできます。
0 件のコメント:
コメントを投稿