The PyData Development Teamは現地時間3日、Pythonでのデータ解析を容易にするライブラリ「pandas」最新版Version 2.0をリリースしたことを公式サイトで発表した。Python 3.8以降に対応する。ソースコードはGitHubに設置してある。
最新版ではpipインストール時にextras_require セクションを指定することで用途に応じたオプションの依存関係を追加できる。
pip install "pandas[excel]"
のようにセクションを指定するとExcelファイルを読み取りのためのオプションの依存関係を含むpandasがインストールされる。2.0のインストールガイドには、Performance、Visualization、Computation、HTML、Access data in the cloud、Clipboardなど項目ごとに複数のオプションが掲載されている。
pandas.Index()で生成される要素にnumpy numeric dtypeによるデータ型(int8/int16/int32/int64/uint8/uint16/uint32/uint64/float32/float64)が指定できるようになる。
In [1]: pd.Index([1, 2, 3], dtype=np.int8)
Out[1]: Index([1, 2, 3], dtype='int8')
In [2]: pd.Index([1, 2, 3], dtype=np.uint16)
Out[2]: Index([1, 2, 3], dtype='uint16')
In [3]: pd.Index([1, 2, 3], dtype=np.float32)
Out[3]: Index([1.0, 2.0, 3.0], dtype='float32')
同機能により、日時を扱うDatetimeIndexなどpandasの機能のいくつかがint32のデータ型に変更されており、非推奨であったInt64Index()、UInt64Index()、Float64Index()が廃止されている。ほか、複数オブジェクトのデータ更新を抑制、遅延させる最適化機能Copy-on-Write(CoW)が多くのメソッドに追加されており、次期メジャーバージョンとなる3.0では、デフォルトで有効になる予定。その他詳細はリリースノートに掲載されている。