elasticsearchの紹介です! atnd.org/events/33718
elasticsearchの紹介です! atnd.org/events/33718
毎週月曜日のエンジニアリングブログの4回目です。今週も検索テクノロジーについて、過去に米国のブログにポストされたもの を日本語でお届けします。 前回の投稿で、私は Google 検索ランキングの背景にある理念を紹介しました。今回はサーチクオリティについてお話しする努力の一環として、Google 検索ランキングの背景にある技術についてもう少し詳しく説明したいと思います。私たちのランキングシステムのコアテクノロジーは、情報検索( Information Retrieval または IR )という学問分野に由来しています。IR コミュニティーは、すでに 50 年近くにわたって検索について研究しています。ページのランキングには、単語の登場頻度のような単語の統計的特徴が用いられています※1。私たちは IR という強固な基礎の上に、リンク、ページ構造、その他多くの革新的技術を用いて最高レベルのシステム
Peter Norvig / 青木靖 訳 先週、2人の友人(ディーンとビル)がそれぞれ別個にGoogleが極めて早く正確にスペル修正できるのには驚くばかりだと私に言った。たとえば speling のような語でGoogleを検索すると、0.1秒くらいで答えが返ってきて、もしかして: spelling じゃないかと言ってくる(YahooやMicrosoftのものにも同様の機能がある)。ディーンとビルが高い実績を持ったエンジニアであり数学者であることを思えば、スペル修正のような統計的言語処理についてもっと知っていて良さそうなものなのにと私は驚いた。しかし彼らは知らなかった。よく考えてみれば、 別に彼らが知っているべき理由はないのだった。 間違っていたのは彼らの知識ではなく、私の仮定の方だ。 このことについてちゃんとした説明を書いておけば、彼らばかりでなく多くの人に有益かもしれない。Googleの
楽天テクノロジーカンファレンスには行かれなかったのだが、大規模分散処理フレームワークの設計、実装が進行中 -- 楽天版MapReduce・HadoopはRubyを活用などを読むと、けっこうおもしろそうだったのだな、と分かる。 楽天技術研究所がどういう位置づけなのかは分からないが、こういう基盤技術の開発を支援しているというのは評価していいと思う。(車輪の再発明という気がしないでもないが) 個人的な興味としては楽天が大規模データに対してどういうことをしているかということなのだが、記事を見るといろいろ書いてある。 計算モデルがシンプルでも規模が巨大になるとまったく別の問題が生まれてくる。処理すべき情報量が爆発的に増加しているからだ。 例えば協調フィルタリングではユーザーを縦軸に、商品アイテムを横軸にした購買履歴マトリックスについて計算処理を行う必要があるが、あまりに量が多く、素直に実装すると「2
朝のジョギング生活を絶賛継続中ですが、あまり体重が減らなくてショボンヌなmikioです。さて今回は、Tokyo Dystopiaを使った検索機能「かんたん友人検索」の設計と実装についてお話しします。 全体の戦略 Tokyo Dystopia(TD)は単なる全文検索用のインデックス管理ツールです。多数の文字列の中から特定のパターンを含んだ文字列を特定する処理を高速化することはできますが、逆に言えばそれしかできないのです。住所を市区町村単位で限定して結果を絞り込むとか、ログイン時間が近い順に並び替えるとかの高機能は備えていません。Hyper Estraierにはそういったアプリケーション寄りの機能を持たせていましたが、逆にコードベースが肥大化して保守や最適化がしにくくなってしまいました。その反省を踏まえて、今回は、「全文検索による対象の絞り込み」だけはTDにやらせて、その他の機能は全て専用に書
朝7時30分に起きて駒沢公園をジョギングすること10日目のmikioです。だいぶ体が軽くなってきて、そろそろ体型にも変化が出てくるかなと期待する毎日です。さて、以前の記事で予告した通り、Tokyo Dystopiaを使ったmixi内の検索機能をインディーズ機能としてリリースしました。「かんたん友人検索」という名のとおり、mixiの登録ユーザを対象として友人や知人を簡単に検索する機能です。操作を簡潔にしながらも、マイミクシィのつながりなどを使って検索精度を高めているのが特徴です。 シンプルにした 見た目として最も大きな特徴は、従来の友人検索よりも入力フィールドの数を減らしたことです。従来では「姓」「名」「ニックネーム」「性別」「年齢(下限)」「年齢(上限)」「血液型」「現住所(都道府県)」「現住所(市区町村)」「出身地(都道府県)」「出身地(市区町村)」「趣味」「職業」「キーワード」「写真」
あのひとのことが知りたい。 あのひと検索スパイシーはひとのプロフィールとつながりを知ることが出来る人物検索サービスです。
先週の金曜(2008/3/7)、私が勤める会社 (ALBERT) がWBSで特集された。 (YouTubeで見つけたので、こっそり貼っておく) テーマは「感性検索」。あまり聴きなれない言葉だと思うが、感性で検索するとい言葉で大体の意味は察していただけるのではと思う。この感性検索と私が考えているその先の未来について、少し詳しく書いてみたい。 感性検索以前 感性検索について語りたいのは山々だが、まずはキーワード検索について改めて話しておく必要がある。 検索といえば多くの人はキーワード検索をまず思い浮かべると思う。検索エンジンは「検索」というキーワードを指定すれば、そのワードを含む(参照された)ページをリストで表示する。インターネットに多少なれた人なら、日常的に利用していると思う。 このキーワード検索には大きな問題がある。それは、キーワード検索を最初に利用するときに直面するであろう問題であり、検
自分のネットサーフィンが全て記録される『Googleウェブ履歴』が利用可能に 管理人 @ 10月 13日 05:48pm Google Toolbar, ウェブ履歴, 検索Tips ちょっと気づくのが遅いですが、いつの間にかGoogle Web Historyの日本語版『ウェブ履歴』がスタートしています。 http://www.google.co.jp/history Googleウェブ履歴は、サイトの閲覧履歴を保存・検索できるサービスです。 履歴に保存されたサイトは時系列で表示されます。 ウェブ、イメージ、ニュース、商品、スポンサーリンク、動画 、地図でカテゴリ分けして見たりできます。 また、履歴に残っているサイトの全文が検索対象になっているので、以前訪れたサイトを簡単に検索することができます。 確かに、自分の履歴が保存されていて、それを検索で引き出すことができるのはとても便利ですが、自
【新連載】レコメンデーションの虚実(1)~認知限界をどう乗り越えるのか:ソーシャルメディア セカンドステージ(1/2 ページ) ネット情報増大と認知限界 インターネットの情報は、今や洪水のようになっている。この洪水の中からどのように有用なコンテンツやデータをすくい上げるのかは、インターネットにおける最も重要なテーマだ。この問題を解決するアーキテクチャとしては検索エンジンが長く定番だったが、情報のオーバーロード(過負荷)が起きている中で、検索エンジンだけでは対応しきれなくなった。 つまりはネットの情報の総体が、人間の認知能力をはるかに超えてしまっているということだ。これを「認知限界」という。認知限界というのはもともと、1978年にノーベル経済学賞を受賞したアメリカの経営学者、ハーバート・アレクサンダー・サイモンが企業などの組織を説明するために使った言葉である。外の世界がどんどん複雑になってく
検索語をスペルチェックした結果、お探しと思われるキーワードを表示しています。 上に提示されたキーワードをクリックすると、そのキーワードで再検索ができます。 綴りに間違いはありませんか。確認して正確に入力しましょう。 和英検索の場合は、入力する文字を、ひらがな・カタカナ・漢字に変えてみてください。 例:「りんご」と「リンゴ」と「林檎」 カタカナ語の場合、長音記号(ー)を外したり、文字を変えたりしてみてください。 例:「プリンター」と「プリンタ」、「ハイウェイ」と「ハイウエー」 長い語句を入力した場合は、語数を減らして検索すると結果が見つかりやすくなります。人称代名詞を外すことは効果的です。
あなたのパソコンは、電源を入れてから実際に利用できるようになるまでどのくらいかかるだろうか。30秒?1分?コーヒーを淹れるために席をたって、戻ってきたぐらいがちょうどいい頃合い、という人もいるかもしれない。そして多くの人はこの状況を変だと思いながらも、コンピュータに自分を合わせているのではないだろうか。 こんな時代はもうすぐ終わる、と予言する人がいる。米国ベンチャーキャピタルDEFTA Partners会長の原丈人氏だ。原氏は慶応義塾大学卒業後、米国に渡り、ベンチャーキャピタリストとして情報通信技術分野で数多くのベンチャー企業の育成と経営に携わった。6月には平凡社より自身初の著書となる「21世紀の国富論」を出版した。 「21世紀の国富論」の中で原氏は、コンピュータ中心の時代はまもなく終わると指摘する。コンピュータはもともと計算することを目的に作られており、インターネットや通信など、コミュニ
検索市場は「ゲームオーバー」だという前提から話を始めよう。Googleは勝利した。Googleの優位性については、このRead/WriteWebへの投稿で十分に説明されている。Googleキラーがもし存在するとしても、それは次のような検索業界への新規参入者ではないだろう。 面白い新機能:新しいユーザーインターフェース、アラート、見せ方などのことだ。問題は、よい機能が1つあるだけでは、Googleのユーザーを乗り換えさせるのには十分ではないし、複数の検索エンジンを使うような時間や動機を持つ人などいない。この分野で、新興企業はどこに賭けたらいいだろうか?安く作って、GYM(Google-Yahoo-Microsoft)に研究開発案件として売ることだろう 自然言語処理:この分野には大きな資金が投入されている。これは間違ったことのように思える。人間にとって簡単な問題を解決するために、扱わなければな
ニコニコ動画は動画検索におけるGoogleになり得ると思う。GoogleがWebページ検索において革命的であったのは、重要なのはページそのもの内容ではなく、Webページに対するアノテーション、つまり、リンクであることに気が付いた点である。そして、ニコニコ動画のコメントは、Webページのリンクと同じ性質を持っている。 ニコニコ動画のコメントとWebページのリンクで類似している点は次の3点である。 アノテーションの内容は不定形のテキスト(リンクの場合はアンカーテキスト)である。その為、キーワード検索で利用出来る。 人気のあるコンテンツに対してはアノテーションの数が多い。その為、アノテーション数を人気度の指標に出来る。 アノテーションを作成する動機は自分の楽しみ・利益の為である。その為、アノテーションの数はほっておいても自然に増大する。 これらの3つの特徴をリンクが持つため、Web検索ではページ
ReviewLine.jp レビューライン.jp http://shinsho.reviewline.jp/ http://lightnovel.reviewline.jp/ http://novel.reviewline.jp/ http://manga.reviewline.jp/ これは何? Amazon.co.jpのレビューを通して本との出会いを楽しめるサイトです。 概要・仕様 最近1年ぶんのAmazon.co.jpのカスタマーレビューから、新着や評価の高いものを抽出・配信します。 ホットポイント 各レビューについている『 ?pt 』の数字は、そのレビューの人気度を表す『ホットポイント』です。『参考になった数』−『参考にならなかった数』で算出してます。 対象のレビュー 一年以内に投稿された、その商品についての新着5件以内のレビューが対象です。これは、サービスがレビューの多い人気商品
>> [Memo] What's Really New on the Web? 招待講演「大規模Webアーカイブの時空間分析とその実際」 @ www.textfile.org 経由で、 招待講演「大規模Webアーカイブの時空間分析とその実際」 @ Cafe Babe ふむ。 この中の、 しかし,Webページがいつ作られたのか…という情報を判定するのは,スナッ プショットにも欠落があるのだから難しい.Webサーバだって,まともに Last-Modifiedなんて付けてくれないもの.…と思っていたら,デモを見てびっ くりした…というのは,なんと豊田先生はアーカイブを解析して,Webページ の新しさを求める方法を実現していたのだった.つまり,制約のあるデータを 使っても自由に過去に遡れるWebタイムマシンを目の前に見せてくれたのだっ た. 招待講演「大規模Webアーカイブの時空間分析とその実際
国立福島工業高等専門学校の電気工学科4年生である大澤昇平氏は2月6日、FireFox用のブックマーク共有プラグイン「swimmie」を利用した検索エンジン「netPlant」を正式公開した。 swimmieは大澤氏が1月23日に発表したFireFox用のブックマーク共有プラグインだ。これは、不特定多数のユーザーとブックマークを共有できるというもの。netPlantではswimmieのユーザーからブックマークのデータを収集し、検索インデックスとして利用する。netPlantのサービスはInternet ExplorerなどFireFox以外のウェブブラウザからも利用できる。 「ブックマークという、ユーザーの趣向を純粋に反映した物で、Googleのページランクでは実現されていない、ユーザー視点による検索結果が得られると考えている」(大澤氏) netPlantでは、任意のキーワードを入力して検索
ユーザー行動から重要度を判定する次世代Web検索ツール gooメモリ・リトリーバβ スポンサード リンク ・gooメモリ・リトリーバβ - gooラボ http://labs.goo.ne.jp/mr/index.html とても興味深い実験ソフトをGooラボが公開している。 「「gooメモリ・リトリーバβ」は『あっ、あれなんだったかな? 思い出せない…』をお助けするツールです。このソフトは、あなたがWebページを閲覧する際に、(1)いつどのページを見たか、(2)どのようにページを利用したか、(3)どんな情報に注目したかなどを記録します。これらの情報をもとに、あなたの行動履歴を分析し、あなたの“記憶の糸”を見やすい画面にして提供します。 」 このソフトウェアはユーザのWeb閲覧履歴を自動で保存し、後でキーワード検索できるようにする。サムネイルでページの内容や見た順番を確認できる。ある期間に
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く