2011年10月27日木曜日

5百万冊の本から学んだこと


Google LabsのNgram Viewerをいじってみたことはありますか? 何世紀にも渡って書かれてきた5百万という本のデータベースの中から言葉やアイデアを探せるやみつきになるツールです。エレズ・リーバーマン・エイデンとジャン・バプティスト・ミシェルがその仕組みと、5千億語のデータが教えてくれるちょっと驚くようなことを見せてくれます。

 



->5百万冊の本から学んだこと (14:09)


久しぶりに当たり引きました:)

Googleのプロジェクト”Ngram Viewer”では、過去の文献を電子化し、その中に特定のキーワードがいつ、何回でてくるのかを処理することができます。

たとえば、1980年から2000年の文献の中で”Japan”という単語が出てくる頻度をグラフ化してみます。




これをみると、1945年と1995年にピークがあり、世界的に日本が注目された年がわかります。

1945年といえば第2次世界大戦で日本のナガサキとヒロシマに原爆が落とされた年

そして1995年は阪神・淡路大震災や地下鉄サリン事件が起こった年でもあります。


このように、過去の文献の文字から統計処理を行なって様々な時代背景を探ることができます。


これを使えばむかしの流行りや歴史などを単語から簡単に解析できます。


新しいデータ解析、手段として使いやすく汎用性があり、素晴らしいものだと思います。



"Okinawa"でも検索してみました。



1945-1947年は沖縄戦そして1972年は沖縄の本土復帰の年です。

ほんとにおもしろい!!

これからデータ化される文献が増えてくればもっともっと精度も上がるしこれからがホント楽しみなプロジェクトです。

ぜひみなさんもいろいろ気になるワードで検索をしてみてください。

->Google Ngram Viewer

0 件のコメント:

コメントを投稿

Related Posts Plugin for WordPress, Blogger...