言語研究などのために電子化されたテキストデータである「コーパス」の集積を進めている国立国語研究所(国語研)は、現在構築中の「現代日本語書き言葉均衡コーパス」の一部、約1,000万語をインターネット上で試験公開した。無償でコーパスの検索サービスを利用できる。今後、1億語程度の規模にまで拡大したい意向だ。

国語研は、明治以降の日本語の電子資料をネット上で公開する「KOTONOHA計画」を進めているが、今回の書き言葉コーパスの公開はその一環。2006年度から構築を開始し、2011年の完成を目指しているもので、最終的には1億語超の現代日本語の書き言葉の収集を目指している。

KOTONOHA計画。今回公開されたのはこのうち、「現代日本語書き言葉均衡コーパス」

均衡コーパスは、少量のデータでも均等に日本語が理解できるように統計学的な観点で集積されたコーパスで、元となる日本語のデータすべてを集積しなくても日本語全体の傾向が把握できるとされる。コーパスは通常、日本語学や日本語教育、辞書編さん、自然言語処理、音声合成・認識などの分野で活用される。

コーパス自体は特に英語圏でよく利用されており、一般に公開されているものでは英国のコーパスが1億語程度で世界最大規模とされている。日本ではこれまで、各社の新聞記事や青空文庫、国会会議録、そしてインターネットそのものといったコーパスとして利用できたが、「バランスの取れた均衡コーパスはない」(国語研研究開発部門言語資源グループ長・前川喜久雄氏)というのが現状だった。

国語研の前川喜久雄氏

今回、国語研では政府が2001年から2005年まで発行した白書と、過去30年間に継続して発行され続けた白書の中から約500万語を抽出。また、ヤフーから提供を受けた「Yahoo!知恵袋」の質問と回答のデータ約500万語も加えた1,000万語のデータが公開された。

今回公開されるデータは2種類

今回のサービスでは、任意の言葉を検索すると、その言葉が含まれる前後15文字の文章とともに検索結果が表示され、その出典も明示される。これに近いことはGoogleやYahoo!などの一般的な検索エンジンでも可能だが、(PageRankなどのような)重み付けのない単純な全文検索であるが、検索エンジンのような順位付けなく、また不適切な結果がでることもないため、コーパスが必要な分野では有効に活用できる。

国語研では今後、国会会議録500万語程度、新聞記事100万語程度、文芸作品500万語程度の追加を予定しており、追加されたデータは順次公開する。最終的には、日本で発行された全出版物から無作為に3,500万語程度、東京都52自治体の図書館のうち、13自治体で所蔵されている出版物から3,000万語程度、そしてそれ以外のものからも言葉を集め、最低でも1億語を超える日本語を集め、公開していく考えだ。一般公開されるコーパスとしては世界最大規模になるそうだ。

均衡コーパスの集積対象

また、無償公開版では検索語の前後15文字まで、検索結果500件までしか検索できないが、500件の制限がなく、品詞などからも検索できる高度な検索インタフェースを提供する有料版(年間3,000円程度)、データ全体を公開するアカデミック版での提供も予定しているという。なお、研究目的でなくても、契約を締結した上でデータ全体をDVDなどで提供することも可能にするという。

コーパスの活用例。「風景」という言葉は「原風景」といった複合語で使われることが多いが、「光景」は3種類だけ。「~的という言葉があるのは、複合語としては未熟だから」(前川氏)だという。同様に、「問題が生じる」という使い方はあるが、「事件が生じる」とはほとんど使われない、という日本語の傾向が分かる。ただし、中には使う人もいる

コーパスの公開で最も問題となるのは著作権処理だという。著作権意識の高まりと個人情報保護法の浸透で、特に著者に連絡するのが難しく、また、電話での依頼に対して信用を得るのも難しいのだそうだ。コーパス自体は基本的に研究目的のため、特に米国などではフェアユースの概念が浸透していて著作権処理が比較的容易だというが、フェアユースの概念がない日本ではこの権利処理がプロジェクトの成否の鍵を握ると前川氏は指摘する。

なお、Yahoo!知恵袋は、開設当初から研究目的などでのデータ提供を利用規約に掲載、トップページにもその旨を掲示してユーザーに周知徹底を図っており、今回はデータの提供が可能となった。

ちなみにインターネット上の掲示板やブログなどで使われる日本語は話し言葉に近いが、画面で読む文字であることから、今回は書き言葉として集積対象とした。英語圏のコーパスではインターネットを対象としていないものもあるが、国語研ではインターネット上の書き言葉も考慮してコーパスを構築していきたい考えだ。

日本語コーパスの開発には、国語研の運営費交付金に加え、文部科学省科学研究費特定領域研究としての予算が割り当てられており、全体では2011年までに7~8億円の予算が計上されている。

均衡コーパスの試験サイト

検索結果。いわゆる「ら抜き言葉」の「見れる」は、Yahoo!知恵袋でしか使われず、白書からは1件も出てこない

このように検索分野を指定することも可能