タグ

mathとSearchに関するwebmarksjpのブックマーク (2)

  • きまぐれ日記: キーワード抽出: tf-idf の意味づけ

    単語の重み付けの古典的な方法に tf-idf があります。文書中の各単語の tf-idf 値計算し、値でソートすると、その文書に特徴的な単語リストを得ることができます。 http://nais.to/~yto/clog/2005-10-12-1.html tf-idf は、単なるヒューリスティックスだと考えられていましたが、最近言語モデルに基づく情報検索手法がさかんに研究されるようになり、tf*idf の解釈が明らかになってきました。言語モデルに基づく手法は、ヒューリスティックスばりばりの手法と同性能にもかかわらず、文書のランキングに理論的で合理的な説明を与えることができます。 情報検索は、クエリ q に対し、もっとも適合する文書 d_opt を求めるタスクです。つまり、q が与えられたとき、文書 d が出現する確率 p(d|q) の最大化問題と解釈できます。 d_opt = argmax

  • ウェブのデータと検索の可能性

    検索の手順:何をコンピュータに任せられるか どこに情報があるか データベース検索 → DB推薦? 一括検索? 文書検索 → 文書からデータを取り出すには 何をどう検索するか 適切な検索語句 → シソーラスや検索候補 適切な検索式 → フリーキーワード v.s. 多項目検索 結果をどう利用するか 検索結果を見る → より分かりやすいプレゼンテーション 結果を評価・判断する → ページランク、適合度、信頼度評価 継続検索 → 検索式の自動補正、絞込み 次のアクション → 別のサービスへの自動接続、結果からの推論 文書の検索と情報の検索 情報を知るためには 情報が記述されている文書(書籍、ウェブページ)を検索して内容を読む 情報を(あらかじめ整備されたデータベースなどで)直接調べる 文書の中の情報が検索できたら? 人間に代わってコンピュータが文書内から情報を取り出してくれたら? 2006年5月の

  • 1