前回は、データ分析の技術が特定の専門家だけでなく、全ての人にとって重要と言われるようになった背景についてお伝えしました。主な理由としては、デジタル技術によってさまざまなデータを取得できるようになった一方で、特定の専門家だけでは取得したデータをうまく活用できないことがわかってきたことや、ツールやサービスの普及によってデータ分析のハードルが下がってきたことなどが挙げられます。
今回は、データ分析の技術を競う「Kaggle」というコミュニティについて紹介します。Kaggleは「カグル」と読み、Kaggleに参加している人のことを「Kaggler(カグラー)」と呼びます。最近では、企業がKaggleの有力者を抱えていることをアピールするなど、注目が集まっています。
そもそもKaggleとは?
もし、あなたがデータ分析に興味を持っているのであれば、Kaggleについて聞いたことがあるかもしれません。今ではKaggleも市民権を得始めており、Kaggleの称号を自身のプロフィールに記載する方も出てきました。
Kaggleは企業とデータサイエンティストをつなぐ世界的なプラットフォームです。さまざまな企業が課題とデータセットを提供し、世界中のKagglerがより精度の高いデータ分析モデルを求めて競い合います。
コンペで上位に入ると、企業から賞金が提供されてモデルを買い取られるだけでなく、Kaggle内の成績を表すメダルが付与され、さまざまな称号が与えられます。参加者は機械学習やデータサイエンスに関わる技術を持つ人材で、企業側はAmazon、Facebook、メルカリ、リクルートなど国内外の大手企業が課題を出しています。
運営元が2017年にGoogleに買収され、現在はGoogle傘下に入っていますが、引き続き世界中の名だたる企業とデータサイエンティスト達がプラットフォームとして活用しています。
Kaggleコンペティションの称号の仕組み
Kaggleコンペティションの称号の仕組みについて、もう少し詳しく紹介します。上述したように、Kaggle内で開催されているコンペティションに参加して上位の成績を収めると、メダルが付与されます。メダルには金・銀・銅の3種類があります。
称号は5種類あり、上から順にGrandmaster、Master、Expert、Contributor、Noviceです。称号の付与はメダルの種類や獲得数、単独で獲得しているか、チームで獲得しているかといった基準で決められます。Grandmasterになるためには5個の金メダル獲得と、単独での金メダル獲得が必要です。
Gramdmasterの称号を与えられているのは全体の1%以下で、世界でも200人超、日本では20人程度と言われています。かなり希少な人材であることがわかります。なお、ContributorとNoviceについてはメダルと関係なく、Kaggle内の活動によって与えられます。
ビジネスでKaggleが注目されている理由
近年は企業が社員のKaggleの取り組みを支援するなど、データサイエンティストを抱える企業側もKaggleに注目するようになりました。その理由は大きく分けて2つあります。
1つ目の理由は、Kaggleがデータサイエンティストの実力を図る客観的な指標になる点です。もちろん、論文執筆や具体的な製品開発の実績はデータサイエンティストを評価する有力な指標の一つです。論文執筆や製品開発の実績はそのデータサイエンティストの得意分野を推し量るのに非常に有効ですが、Kaggleはビジネス現場での活躍を推し量るために有効です。市場に存在する課題を企業が設定し、その最適解を競い合い、勝ち抜いたという実績は、採用面でも説得力のある材料となります。与えられた課題に対しアプローチを検証し、実際に高精度なモデルを作ることはそのまま入社後の姿に重なります。
ただし、必ずしも「Kaggle = ビジネスの全て」とはならないため、留意は必要です。ビジネスの現場では、まず適切なデータを取得したり、適切な課題を設定したりする部分に解決の糸口がある場面も多いです。Kaggleではデータセットと課題が与えられた状態からのスタートとなりますので、課題を解決する全体工程の後半以降の力が試されていると考えると良いでしょう。
2つ目の理由は、職場の魅力アップにつながるからです。Kaggleの称号を持つ優秀なデータサイエンティストが多く集まっていれば、その職場で一緒に働きたいと応募してくる求職者は増えるでしょう。また、データサイエンティストは常に自身のスキルアップに励んでいますので、業務時間内に一定の時間をKaggleに割いてもよいという制度は、それ自体が魅力的に映り企業の知名度向上にもつながります。
こうした取り組みの例として、DeNAの社内制度が有名です。Kaggleを推奨している企業は、社内の魅力と活性度のアップを図りつつ、採用面に置いてもメリットを見出すことができるのです。
Kaggleの有名な「タイタニック問題」
データ分析に取り組み始めたばかりの方は、Kaggleに参加するハードルを高く感じているかもしれません。しかし、Kaggleにはコンペティションの他にもデータセットの共有やディスカッションをする機能もありますし、他の参加者が構築したモデルや処理コードを共有できる機能もあるので、先輩データサイエンティストの処理コードを見ながら効率的に学べます。
また、コンペティションの中には、Knowledgeと呼ばれる、自身のランキングなどに影響しない練習問題が用意されています。有名な「タイタニック問題」もこの練習問題の一つです。タイタニック問題では、タイタニック号の乗客に関するデータが与えられ、それぞれの乗客が生存したか否かを推測してモデルの精度を試せます。データ分析の基本を身に付けるとともに、Kaggleの取り組み方に慣れることができるので、最初はここからトライするのが良いでしょう。
「タイタニック問題」の他にも複数の練習問題が用意されていますので、興味がある問題を見つけて取り組んでみましょう。
まとめ
Kaggleは世界中のデータサイエンティスト達が競い合うプラットフォームです。企業が実際の業務課題をコンペティション形式で提出し、精度の高いモデルは賞金を出して買い取ります。Kaggle参加者本人にとっても、Kaggleの称号は自身の実力を示す客観的な指標になるとともに、Kagglerを雇用している企業にとっても魅力や活性化のアップにつながります。