TEXT/YUBASCRIPT

Web開発とか生物学とかTwitterとかの話題を適当に書いてる

日本語ツイートの情報量は、世界で2番目に少ないらしい

昔、村上春樹の小説とその英訳をつぶやくBot「英訳で読む村上春樹 (@haruki_eng)」というのを作ったことがある。

こいつを作る際にとても悩ましかったのが、

彼女は無言だ。庭の隅の茂りすぎた灌木を眺めるような目で、相手の顔を見ている。
「アフターダーク」

このような日本語で38文字の文章が

She does not answer. She looks at him with eyes that could be looking at an overgrown bush in the corner of a garden.
"After Dark"
英語にすると117文字になってしまうのだ。 お陰で僕の気に入っているセンテンスの多くが、英語で見るとえらく長くて収録できない、という憂き目にあった。

ある研究によると、日本語で140文字の文章をGoogle翻訳で英訳した結果、平均260文字になったという。ということは英語のTwitterは、日本語75文字分の情報しか書き込めないことになる。75文字では大阪市長もやりきれないだろう。

日本でTwitterがヒットしている理由として、よくこのような「140文字の情報量の多さ」が挙げられる。日本語なら沢山書けるからみんな使いたがる、という訳だ。これは本当なのだろうか?

この問題に関して、最近興味深い研究結果が発表された。各言語のツイートに含まれる情報量を、情報エントロピーの概念を用いて解析するというものだ。そしてこの研究結果によると、日本語ツイートの情報量は、むしろ世界で2番目に小さいということだった。

G. Neubig and K.Duh, How Much is Said in a Tweet? A Multilingual, Information-theoretic Perspective, 2012 (PDF注意)

研究手順は以下のとおりである。まずランダムに1.2億個のツイートを取得し、それぞれの言語を判定する。5万個以上のツイートが得られた26言語について「情報量」を計算する、というものだ。

ここでいう「情報量」とは、メモリ上で何バイトという意味ではなく、より抽象的な「シャノンの情報エントロピー」という概念を用いている。

例を挙げよう。もしTwitterにこんなユーザーがいたとする。

・おはよう
・こんにちは
・おやすみ
・おはよう
・おやすみ
・おはよう
・こんにちは
この場合、この人は次に「おはよう」「こんにちは」「おやすみ」のどれかを言うと考えられる。 わざわざ次のツイートを確認する必要性が少ない。つまり「ツイートの情報量が少ない」と言える。 これに対し
・メロスは
・げきどした
・そのこえは
・わがとも
・りちょうし
・ではないか
このように毎回違う内容のツイートをする場合、次に何が来るかを知るためには、実際に次のツイートを見るしかない。つまり「ツイートの情報量が多い」といえる。

このような形で「情報量」を定式化したものを「シャノンの情報エントロピー」という。詳細についてはこの本がオススメ。

さて、各言語の「1文字あたりの情報量」を比較してみると、中国語、日本語、韓国語が群を抜いて多く、それにウルドゥー語(インド等)、スワヒリ語(アフリカ東岸部)、ポーランド語と続く。ラテン文字(いわゆるABC)を使う言語は全体的に1文字の情報量が少なく、特にイベリア半島の言語(スペイン語、ポルトガル語、ガリシア語)が少ないという結果になった。


各言語の1文字あたりの情報量。中国語(zh)・日本語(ja)・韓国語(ko)が群を抜いて多い。図は論文より引用、以下同様

しかし、本論文はここで意外なことを述べている。日本語は中国語に次いで1文字あたりの情報量が2番目に大きい言語である。それにも関わらず、1ツイートあたりの情報量は、26言語中で2番目に小さいのである。


各言語の1ツイートあたりの情報量。日本語(ja)はタイ語(th)に次いで二番目に小さい。マレー語(ms)やウルドゥー語(ul)が際立って多い。

ここで「1ツイートあたりの情報量」とは、単純に

「1ツイートの情報量」=「1文字の情報量」×「文字数」
という式で算出している。

つまり、1文字の情報量が多いにも関わらず、1ツイートの情報量が少ないという事は、文字数が極端に少ないということだ。

著者らはさらに、英語、日本語、インドネシア語について、ツイートの情報量の分布を示している。


英語、日本語、インドネシア語の、1ツイートあたりの情報量の分布。どの言語も最大情報量(140字)ギリギリまで書くツイートが多い一方で、日本語には100bits(20文字)付近に大きな塊があることが分かる。

これによると、140文字ギリギリまで書き込んだ場合、英語500bitに対し、日本語は700bitもの情報を書くことができる。これが「日本語は1ツイートに多くを書き込める」という所以だ。

その一方で日本語には、100bitという非常に情報の少ないツイートがやたら多く見られることが分かる。日本語は1文字約5bitであるから、これは約20文字に相当する。

このような文字数の少ないツイートがあるせいで、1文字あたりの情報が2番目に大きい言語であるにも関わらず、1ツイートあたりの情報量が2番目に少ないという結果になっているのだ。

つまり、日本人にとってTwitterとは、700bitの情報を詰め込んで真剣な議論をすることが出来る一方で、100bitのどうでもいい情報を書くこともできる「多様性」があるということだ。これこそがTwitterが日本ではやっている原因だと思う。