今回から、PythonとPythonのライブラリ「Pandas」を用いてExcelデータの効率的な処理方法について説明していく。まずは、請求データの抽出と絞り込みに焦点を当て、請求データを「会社名」と「対象月」をもとに選別する。
さらに、ExcelファイルをPandasで読み込む際のデータ型の重要性やスクリプトの汎用性を高めるための改良方法も示す。Pythonを使ったExcel作業の効率化に興味のある場合は押さえておきたい内容だ。
連載「PythonでExcel作業の効率化を図ろう」のこれまでの回はこちらを参照。
Pandasを使い、2つの条件で請求データを絞り込む
今回は、請求書の請求データを取り出す部分を実装する。請求書テンプレートでは次のスクリーンショットのように「項目名(説明)」、「単価」、「数」にハメ込むデータを抜き出す処理だ。
請求データをどのように管理しているかは業務によるが、ここでは次のスクリーンショットのように、「会社名」「対象月」「項目名」「単価」「数」というデータで複数の企業に対する請求データを単一のMicrosoft Excelシートに保存して管理していることを想定する。
上記のデータの場合、「会社名」と「対象月」がわかれば、作成する請求書の請求金額のデータが取り出せることになる。ここではPandasを使ってデータを取り出す方法を取り上げる。
一つ注意しておきたいのは、上記のデータは対象月のデータの最初に「'」を追加して明示的に文字列としてデータを保存している点だ。この値はそのまま扱うと数値として判断されてしまうため、明示的に文字列として保存されるようにしている。