「Advanced Data Analysis」は、ChatGPTのチャットを介したデータ分析機能です。Excelなどの外部データを読み込み、日本語で指示をするだけで、データ解析、グラフ作成、ファイル編集、計算など行えます。今回はこのAdvanced Data Analysisについて解説します。
→連載「ChatGPT入門 - 初めてのAIチャット活用」の過去回はこちらを参照。
Advanced Data Analysisの概要とメリット
2023年7月6日にリリースされた当初、Advanced Data Analysisは「Code Interpreter」という名称でした。その後、8月28日に発表されたChatGPT Enterpriseのリリースの中でAdvanced Data Analysisと呼ばれるようになりました。本稿執筆時点(2023年11月23日)では、ChatGPTの基本機能に統合されています。なお、利用できるのは有償の「ChatGPT Plus」や「ChatGPT Enterprise」のユーザーです。
Advanced Data Analysisを利用することのメリットについては、ChatGPT Enterpriseのリリースの中で、以下のように言及されています(筆者による意訳)。
市場データを分析する金融リサーチャー、調査結果を分析するマーケティング担当者、ETLスクリプトをデバッグするデータサイエンティストなど、技術的なチームもそうでないチームも、数秒で情報を分析できるようになる
つまり、これまで専門的な知識を持つデータサイエンティストなどにしかできなかったデータ分析が、身近なものとして専門的な知識なしで簡単にできるようになるのです。
なお、OSSとして公開されている「Open Interpreter」という別ツールもあります。Advanced Data AnalysisがChatGPT経由で利用するのに対し、Open InterpreterはローカルPCにインストールして利用します。コアとなるモデルはAPI経由でOpenAIのGPT-4やAnthropicのClaudeなどを用いたり、ローカルでCode-Llamaを使ったりすることもできます。気になる方は、ぜひそちらも調べてみてください。
主な3つの特徴
Advanced Data Analysisの主な特徴としては、以下の3点を押さえておくと良いでしょう。
- 自身で用意したデータを用いてデータ分析が可能
- 自然言語を用いた指示が可能
- 実行環境を準備する必要がない
自身で用意したデータを用いてデータ分析が可能
Advanced Data Analysisでは、自分自身でファイルをChatGPTにアップロードすることができます。アップロード可能なファイル形式には、Excelファイル(.xlsxおよび.xls)、CSV、JSON、およびHDF5などが含まれます。
これにより、データ解析やコードの実行、書き込み、テストが可能になります。さらに、ファイルのダウンロードも可能です。
自然言語を用いた指示が可能
ユーザーは自然言語による指示でデータ分析を行えます。以下の1~4の流れで処理は行われますが、ユーザーは1と4を意識するだけでよく、2や3を意識する必要がありません。
- ユーザーは自然言語で指示を与える
- データ分析に必要なPythonコードが生成される <- 意識しない
- Pythonコードが実行される <- 意識しない
- データ分析結果が返される
もちろん、コーディングが得意な方は、自身で作成したコードを与えたり、デバッグしたりすることもできます。
実行環境を準備する必要がない
前項と一部重複しますが、Advanced Data Analysisでは、データ分析に必要なPythonコードが生成され、サーバー上のPython実行環境でコードを処理できます。つまり、Python環境の構築が不要になります。
Pythonによる開発経験がある方ならば、Python環境の構築の面倒さや、バージョン間の依存性の管理の煩わしさは感じたことがあるかもしれません。Advanced Data Analysisでは、そういった環境の管理から解放されるのです。
Advanced Data Analysisを使ってみる
Advanced Data Analysisの特徴を理解したところで、実際に使ってみましょう。利用手順は以下の通りです※。
- Advanced Data Analysisの新規チャット画面を起動
- データのアップロード
- 自然言語を用いた指示
とても簡単に試すことができますので、ぜひお手元の環境で動かしてみてください。
※ 以前は必要とされていた、設定画面におけるAdvanced Data Analysisの有効化は2023年11月13日時点で不要となっています。
1. Advanced Data Analysisの新規チャット画面を起動
左ペインから[explore]をクリックします。
Data Analysisを選択します。
Advanced Data Analysisの新規チャット画面が表示されます。
2. データのアップロード
Kaggleの題材として有名なタイタニック号の生存者データ(train.csv)を使って分析してみましょう。
テキストエリア左端の添付ファイル(クリップ)のマークをクリックしてデータファイル(train.csv)をアップロードします。
3. 自然言語を用いた指示
では、自然言語を用いた指示で、データ分析をしてみましょう。
プロンプトに以下を入力し、送信ボタンをクリックします。
このファイルはタイタニックの生存者分布を示すデータです。
データの特徴を分析してください。
以下のように分析結果が返ってきます。裏ではPythonのコードが生成・実行されているのですが、全く意識することなくデータ分析ができることが分かります。
なお、生成されたPythonコードとコードの実行結果を見たい場合は、青字の[>..]部分をクリックすると確認できます。
具体的には以下の内容が確認可能です。コードの中身に興味のある方のみ閲覧すると良いでしょう。繰り返しになりますが、このようにPythonのコードの生成・実行結果を全く意識することなく、データを分析できるのです。
さまざまなユースケース
前述までの説明で、Advanced Data Analysisでは簡単にデータ分析できることがご理解いただけたと思います。続いては、Advanced Data Analysisで具体的にどんなことができるのか、次の3つのユースケースを基にご紹介しましょう。
- グラフおよび表の作成
- 文章の要約
- 資料作成