  • Latent Semantic Indexing - naoyaのはてなダイアリー

    情報検索におけるベクトル空間モデルでは、文書をベクトルとみなして線形空間でそれを扱います。この文書ベクトルは、文書に含まれる単語の出現頻度などを成分に取ります。結果、以下のような単語文書行列 (term document matrix) が得られます。 d1 d2 d3 d4 Apple 3 0 0 0 Linux 0 1 0 1 MacOSX 2 0 0 0 Perl 0 1 0 0 Ruby 0 1 0 3 この単語文書行列に対して内積による類似度などの計算を行って、情報要求に適合する文書を探すのがベクトル空間モデルによる検索モデルです。 見ての通り、単語文書行列の次元数は索引語の総数です。文書が増えれば増えるほど次元は増加する傾向にあります。例えば索引語が100万語あって検索対象の文書が 1,000万件あると、100万次元 * 1,000万という大きさの行列を扱うことになりますが、単

    teddy-g 2009/05/25
    Latent Semantic Indexing のはてなおや氏による簡単な説明と書こうと思ったが簡単ではないな
  • RAP - Rdf API for PHP V0.9.6 - Home

    RAP - RDF API for PHP V0.9.6 RAP is a software package for parsing, querying, manipulating, serializing and serving RDF models. Its features include: statement-centric methods for manipulating an RDF model as a set of RDF triples resource-centric methods for manipulating an RDF model as a set of resources ontology-centric methods for manipulating an RDF model through vocabulary sp

    teddy-g 2006/11/28
  • Web 2.0からセマンティック・ウェブへ

    “Web 2.0”の主張 Tim O'Reillyによれば プラットフォームとしてのウェブ(The Web As Platform) 集合知の利用(Harnessing Collective Intelligence) データが重要(Data is the Next Intel Inside) 商品としてのソフトからサービスとしてのソフトへ(End of the Software Release Cycle) ハッキングと連動が容易な軽量プログラミング(Lightweight Programming Models) PCに限定されない利用(Software Above the Level of a Single Device) Ajaxに代表されるリッチなUI(Rich User Experiences) (What Is Web 2.0 Design Patterns and Busin

    teddy-g 2006/11/23
    神崎御大の超わかりやすいWeb2.0とSemantic Webをつなぐ線のご説明
  • Blog Developer's Cookbook : RSS Auto Discovery

    RSS Auto Discovery あるサイトの RSS を自動で探し出すにはどのようにすればよいでしょう? "Syndicate This Site (XML)" のリンクを見て探す、でしょうか。デザインをカスタマイズしていたらどうでしょう? HTML の link タグを使用すると、RSS の URL を機械的に抽出することができます。今回はこの RSS Auto-Discovery と呼ばれる手法を実装してみます。 RSS の埋め込み 「あ、このサイト便利、RSS Aggregator ソフトに追加しよう!」と思ったとき、まず必要なのは、そのサイトの RSS です。これを調べるには通常、ページ内にある [RSS] や [XML] などのアイコン、また "Syndicate This Site (XML)" などのテキストを探します。 しかしデザインをカスタマイズした Weblog

    teddy-g 2006/07/22
    RSS Auto Discoveryの説明。メモしとく。
  • FOAF-a-matic -- Describe yourself in RDF

    FOAF-a-Matic [Croatian] [Danish] [Dutch] [English] [French] [German] [Greek] [Hungarian][Japanese] [Italian] [Korean] [Spanish] [Swedish] [Trad. Chinese] Written by Leigh Dodds. Introduction FOAF-a-matic is a simple Javascript application that allows you to create a FOAF ("Friend-of-A-Friend") description of yourself. You can read more about FOAF in Edd Dumbill's "XML Watch: Finding friends with X

    teddy-g 2006/05/29
  • Microformats in Context

    April 26, 2006 Uche Ogbuji There has been a lot of discussion in XML circles as to how far the extensibility revolution promised by XML can take (or has taken) us. Is XML really a tool for creating specialized languages so that information can be expressed in the most natural formats practical? Or is it just a way to reduce the burden on those who write code to consume web content (be strict in wh

    teddy-g 2006/05/09
  • Text Classification with CEEK.JP NEWS

    CEEK.JP NEWS の2009年1月から2011年12月の記事データを基に、テキストの分類を行います。対応しているカテゴリーは「社会」「政治」「国際」「経済」「電脳」「スポーツ」「エンターテイメント」「サイエンス」の8つです。 ナイーブベイズ(Naive Bayes)分類法を用いており、概ね80%の精度で分類できます。 コンフュージョン・マトリックス(学習:2005年7月 / 判定:2005年8月) http://labs.ceek.jp/classify/cm.pdf 表の縦(グラフ)は、推定分野。表の横は、正解分野。 参考資料: 情報意味論(第8回) ベイズ学習 (櫻井研究室 情報意味論の講義資料) Tackling the Poor Assumptions of Naive Bayes Text Classifiers

    teddy-g 2006/02/22
  • 情報検索 - Wikipedia

    この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(このテンプレートの使い方) 出典検索?: "情報検索" – ニュース · 書籍 · スカラー · CiNii · J-STAGE · NDL · dlib.jp · ジャパンサーチ · TWL (2024年3月) 情報検索(じょうほうけんさく、英語: information retrieval)とは、コンピュータを用いて大量のデータ群から目的に合致したものを取り出すこと。検索の対象となるデータには文書や画像、音声、映像(動画)、その他さまざまなメディアやその組み合わせとして記録されたデータなどが含まれる。インターネットの発達により検索はインターネットを介して行われることも多いが、ここでは情報を検索[1]するためのコンピュータ側における仕組みを記述している。 情報検索に対

    teddy-g 2006/02/02
  • Locations Microformat – Microformats

    Last Thursday evening, we (Kevin, Tantek and I) hosted a BOF at O’Reilly‘s Where 2.0 conference. Thanks to the O’Reilly guys for giving us the time and space to gather some people to talk about location tagging on the web. I’ve posted an only-slightly-edited copy of the IRC log, which we were using to transcribe the meeting. The discussion went really well and it was great to talk to some people t

    teddy-g 2005/07/21
