タグ

dataに関するpomaのブックマーク (3)

  • 【2ch】ニュー速クオリティ:◆編集者&ライター必見、役立つサイト集

    引用の図書室 http://www.geocities.co.jp/Milkyway-Kaigan/9185/ このホームページは、読んだの中から、気になった言葉を、 そのまま引用して作りました。感想などは、いっさい入って おりませんので、たとえば、屋でぱらぱらと立ち読みをす るように、言葉の断片を楽しんでいただければ、うれしいです。 興味をもった言葉の断片から、読んでみたいを探してみたり…、 また、いちど読んだの言葉の断片をみて、気になったところ の違いを感じたり…、と、気ままにのぞいてみてください。画 像等は最低限しか使っておりませんので、全体的に動作は軽快 だと思います。なお、引用した文の最後の[]内の数字は、その 言葉をひろったページです。

  • 犯罪の九割は失業率で説明がつく

    松尾匡のページ  08年1月14日 犯罪の九割は失業率で説明がつく (追記:1月16日, 再追記:1月17日) 続報あり。以下の分析結果には「誤差の系列相関」という問題がありました。続報ではその解決に取り組んでいます。 再追記:08年1月17日  下の方の昨日書いた追記で、管賀江留郎さんからいただいた批判のエントリーの中で言われていた、「警察がデータを操作したため相関する」という「説」について、管賀さんご自身の説であるように表現した一文がありました。私自身、気で言われていることかどうかは疑わしいと思っていましたが、ネタと断定することもできず、ああいう表現になりました。  このたび管賀さんとのやりとりの中で、これが管賀さんご自身信じておられない、いわゆる「釣り」のネタであることが明らかになりましたので、当該の表現を削除して訂正します。管賀さんはこれがひとつの積極的主張として一人歩

  • Google Japan Blog: 大規模日本語 n-gram データの公開

    突然ですが、穴埋めクイズです。下線部に入る単語はなんでしょう? グーグルで_____ おそらく、「検索」「調べる」「探す」といった単語を思いつくのではないでしょうか? 実際に、Webにあるドキュメントをくまなく調べ、「グーグルで」の後にくる単語を調べると、「検索」が1位であるとがわかります。 一般に、直前の(N-1)個の単語を見て、次の単語を予測するモデルをN-gram言語モデルといいます。さきほどは、「グーグル」 と 「で」の2単語から次を予想しているので、3-gram言語モデルの例となります。現時点の単語が、直前の(N-1)個のみに影響を受けるという仮説は、一見現実離れしているようですが、実際には非常に有効な場合も多く、かな漢字変換、OCRのエラー訂正、機械翻訳、音声認識などに広く用いられています。たとえば、音声認識の場合、ノイズ等で現時点の単語をシステムが聞き取れなくても、言語モデル

    Google Japan Blog: 大規模日本語 n-gram データの公開
  • 1