tabulaのconvert_into関数でPDFファイルをExcelに変換

近頃は資料の表がPDFで届くことも増えています。PDFは容易に書き換えされないといったリットもありますが、何かの資料に使う場合はExcelなどの形式に変換しなければいけません。今回はPythonを使ってPDFからExcelに変換する⽅法を紹介します。

サンプルPDFファイルは下のボタンからダウンロードすることができます

このパッケージを利⽤するには、PythonのほかにJavaというプログラミング⾔語の実⾏環境も必要です。

https://www.java.com/ja/download/

PDFから表を抜き出すためにtabulaパッケージを使っています。

このパッケージ は 標 準ではインストールされないので、 AnacondaNavigatorを使うか、以下のコマンドでインストールしてください。

conda install tabula-py

to_ex.py

import pandas as pd

import tabula

import os

tabula.convert_into("旅行スケジュール.pdf","作業ファイル.csv",output_format="csv",pages='all')

df=pd.read_csv("作業ファイル.csv",encoding="shift-jis")

with pd.ExcelWriter("旅行スケジュール.xlsx") as writer:

    df.to_excel(writer,index=False)

os.remove(“作業ファイル.csv")

tabulaのconvert_into関数を使うと、PDFファイル内の表をCSVやTSV、JSON な ど の 形 式 で 書 き 出 せ ま す 。 CSVで書き出したい場合 は「output_format=”csv”」と指定します。また、PDFのページを指定したい場合は「pages=”1-2,3″」のように指定します。

convert_into関数を実⾏すると、カレントディレクトリ内にCSVファイルが作成されます。それをread_csv関数で読み込み、to_excelメソッドでExcelファイルを保存します。

最新情報をチェックしよう!
>プログラミング 独学

プログラミング 独学

本当にプログラミングを学びたい人のためになるブログにしたいと思っていますので、些細なことでも気が付いたのであればご報告いただけると幸いです。

CTR IMG