1)『アマゾンはロングテールにあらず』 これはここ2-3年の共同研究の結果です。ネット書店のAmazon.jpのことです。アマゾンってロングテールで有名なんじゃないの?いえいえ、アマゾンランキングを観察して確率論の極限定理と組み合わせるとそうでないことがわかるのです。
2010-11-03 10:38:202)アマゾンではそれぞれの本にアマゾン・ランキングという順位が付いています。この順位は1時間に一度更新されます。数学の専門書のようにめったに売れない本(数十万位程度)のランキングを観測し続けると、毎時数百位ずつ落ちていく(数字が増えていく)のがわかります。
2010-11-03 10:42:533)でも、ときに、突然大きくジャンプして数万位ぐらい(100分の1!)に跳ね上がることがあります。その後またゆっくり落ちていってたまにジャンプ!というのこぎりの歯のような変化を示します。本当だよ。トップの方にいる本以外はみんなこのパターン。
2010-11-03 10:44:044)もし、アマゾンランキングが一定期間の売上平均に基づいているのなら、こんな変化をするわけがない、ですよね?アマゾンランキングは最後に売れた順なのです。あまり売れない本がときたまランキングの上の方にジャンプするのは「売れた時」。 良く売れる本はいつも上の方にいることになります。
2010-11-03 10:51:495)これをモデル化します。それぞれの本がいつ売れるかはわからないので確率モデルです。良く売れる本、売れない本いろいろあります。全部で数百万冊あってそれぞれの本を追うわけにはいかないのですが、十分多くの本があると見えてくることがあります。
2010-11-03 11:13:506)さいころを十分多くの回数投げると平均値が3.5に着実に近づくのと同じ原理です (大数の法則)。
2010-11-03 11:14:247)あまり売れない本のアマゾンランキングが少しずつ下がっていく下がり方に 重要な情報が含まれているのです。だって、下がるのは他の本が売れているからだから。どのくらいの人気の本がどのくらい売れているかまでわかっちゃう。
2010-11-03 11:17:398)確率モデルで計算した本のランキングの落ち方はデータとよく合って、そこからアマゾンのロングテール構造が見えてきます。総売り上げの中でベルトセラーが大きい割合を占めるか(ベストセラー型)、ものすごくたくさんの売れない本が集まって大きな利益を生み出すか(ロングテール型)。
2010-11-03 11:20:5110)最後に売れた順ってなかなか信じてもらえないかもしれませんが、アマゾン側にとってもアルゴリズムが簡単で、売れる本は上の方にいるという実用的な方法なのです。(ただしランキング更新は1時間に1回なのでその間に複数売れるようなベストセラーだけは売上順になっているかもしれない。)
2010-11-03 11:23:0011)『アマゾンはロングテールにあらず』がでたのは実は2年ほど前。そのころはまだ今ほどアマゾンの本部門は縮小していなかった。その後、東北大の院生さんがランキング自動採取プログラムを作ってくれました。
2010-11-03 11:27:2012)最近出版決定された論文は、時間変化も取り入れた改良版。夜の方が本を買う人が多い。とりあえずここまで。ありがとうございました。(高校生向け解説のリハーサルでした。)
2010-11-03 11:29:34ちなみに、10万位程度の本は1日に1冊売れるかどうか、といった感じです。 @kotono8
2010-11-03 12:39:32今度アマゾンでランキングが1万位より下の(数字が大きい)本を注文するとき、是非、ランキングの変化を追ってみてください。注文した2時間後くらいにぐっと跳ね上がるのが観察されるはずです。
2010-11-03 12:41:16共同研究者の解説ページですが、原論文は最後の方にpdfがあります。 m(_ _)m http://ow.ly/33yZB @ebie99 @kazunorim @Mitchara @Ryosuke_Nishida @kotono8 @miyabi_uenon
2010-11-03 14:28:32