[B! db] satzzのブックマーク

WebアプリのDBスキーマレス化がRubyにぴったりな件 - Tous Les Jours 攻防記

という題で、RubyKansai#37で発表させていただきました内容は、WebアプリケーションのDBのスキーマレス化について。スキーマレスなDBアクセスのための、拙作DBインターフェースライブラリ「SimpleResource」の紹介も合わせて盛り込みました。SimpleResourceは、スキーマレスなデータを保存するためのKVS DBインターフェースライブラリで、Rubyで書かれています。レコード単位のロック機構、インデックス機能等を備えている他、ActiveRecordに近い使い勝手で利用することができます。ストレージには現在MySQLとTokyoTyrantにのみ対応しています。（FriendFeedの同様の試みもかなり参考になりました。詳細はまた後日にエントリで上げたいと思ってます） SimpleResourceは、GitHub上で開発を続けていくつもりです。 http://

satzz 2010/03/06

リンク

転置インデックスを実装しよう - mixi engineer blog

相対性理論のボーカルが頭から離れないmikioです。熱いわっふるの声に応えて今回はTokyo Cabinetのテーブルデータベースにおける検索機能の実装について語ってみたいと思います。とても長いのですが、最後まで読んだあかつきには、自分でも全文検索エンジンを作れると思っていただければ嬉しいです。デモモチベーションをあげていただくために、100行のソースコードで検索UIのデモを作ってみました。Java 6の日本語文書を対象としているので、「stringbuffer」とか「コンパイル」とか「倍精度浮動小数」とかそれっぽい用語で検索してみてください。インデックスがちゃんとできていれば、たった100行で某検索エンジン風味の検索機能をあなたのデータを対象にして動かすことができます。ソースコードはこちら（テンプレートはこちら）です。でも、今回はUIの話ではないのです。ものすごく地味に、全文検索

satzz 2009/07/04

db

リンク

もう1つの、DBのかたち、分散Key-Valueストアとは

もう1つの、DBのかたち、分散Key-Valueストアとは：分散Key-Valueストアの本命「Bigtable」（1）（1/3 ページ） RDBとは別の、クラウド時代のデータベースとして注目を浴びている「分散Key-Valueストア」。その本命ともいえる、Googleの数々のサービスの基盤技術「Bigtable」について徹底解説クラウド時代のデータベース「分散Key-Valueストア」グーグルがインターネットの世界をここまで席けんできた最大の理由は何でしょうか。実は、それは同社の優れた検索技術ではありません。グーグルが成し遂げた最も大きなブレークスルーの1つは、同社が生み出した巨大な分散データストア、「Bigtable」にあります。 Bigtableは、Google検索をはじめ、YouTubeやGoogle Map、Google Earth、Google Analytics、Goog

satzz 2009/07/04

db

リンク

UCI KDD Archive

Welcome to the UCI Knowledge Discovery in Databases Archive Librarian's note [July 25, 2009]: We no longer maintaining this web page as we have merged the KDD Archive with the UCI Machine Learning Archive. For any questions, please contact us at ml-repository '@' ics.uci.edu. This is an online repository of large data sets which encompasses a wide variety of data types, analysis tasks, and applica

satzz 2009/06/25

data
db

リンク

Berkeley DBとは - 意味・解説： IT用語辞典

satzz 2009/03/30

リンク

トークセッション『自律進化するデータベースはつくれるか』（長尾真 × 池上高志）を聞いてきました - かたつむりは電子図書館の夢をみるか（はてなブログ版）

昨日の話ですが、以前にうちのブログでも紹介した国立国会図書館の長尾館長のトークセッションイベントの第１回目に行って来ました。毎回長尾館長がゲストを迎えて対談するという形式を取るそうで、今回のお相手は複雑系研究者で東大教授の池上高志先生。長尾真氏　・　池上高志氏『自律進化するデータベースはつくれるか』国立国会図書館長を務める情報工学者の長尾真と複雑系研究者の池上高志による予測不能なトークセッション！「生命にとって知るとは／わかるとは」「AI（人工知能）とAL（人工生命）と」「自律進化するデータベースはつくれるか」など、生命を捉えることから、これからの知のアーカイブについて迫ります。ここ最近やたら細かいイベントレビュー（というか下手な議事録みたいなもの）をアップすることが多かった当ブログですが、今回は会場が超満員だったため今の自分のノートPCを広げる気になれず*1記録は全然と

satzz 2009/02/24

リンク

DBMによるテーブルデータベース - mixi engineer blog

正月早々インフルエンザにかかって寝込んだmikioです。電車に乗る時や繁華街などに出る時はマスク着用が必須ですね。さて今回は、Tokyo Cabinetで実装したテーブル方式のデータベースについて紹介します。意外にどうして強力な機能なので、このネタは連載することを予告します。テーブルデータベースとは簡単に言えば、リレーショナルデータベースのテーブルのように、複数の列からなるレコードを格納できるデータベースです。SQLや表結合などの複雑な機能はサポートしませんが、そのぶん高速に動作します。つまり、DBMの速度で動くリレーショナル風データベースです（厳密にはリレーショナルデータベースではありません）。 TCの基本となるハッシュデータベースは、単純なkey/value型のデータベースであり、つまりキーにも値にもスカラ（数値や文字列などの特に構造を持たない単一の値）しか格納することはできません

satzz 2009/02/18

リンク

無いから作った人たち

データベース技術の世界に新顔が次々と登場している。米Danga Interactiveの「memcached」、ミクシィの「Tokyo Cabinet」と「Tokyo Tyrant」、楽天の「ROMA」、グリーの「Flare」などだ。いずれも半導体メモリーを使って大規模データベースを高速処理する技術である。面白いのは、4社ともIT製品を開発するメーカーではないことだ。 4社は、Webを使ったサービス事業を手掛ける企業であり、本来であればメーカーが開発した製品や技術を使う立場である。ところが、こうした「ユーザー企業」が自ら基盤技術を開発し、それを利用している。 memcachedやTokyo Cabinet/Tyrant、ROMA、Flareの中では、memcachedが一番古い。Danga Interactiveが自社のブログ・サービス「LiveJournal」を改善するために2003年に

satzz 2009/02/17

リンク

IBM Developer

IBM Developer is your one-stop location for getting hands-on training and learning in-demand skills on relevant techno logies such as generative AI, data science, AI, and open source.

satzz 2009/02/08

リンク

TopHatenar＋HatenarMapsのシステム構成 - kaisehのブログ

Top HatenarとHatenarMapsのシステム構成が、バージョンアップの度に複雑化してきて、自分でも把握しづらくなってきたので、整理する意味で図を作ってみました。図に示したように、HatenarMapsは、S2RMIを使ってTop Hatenarと協調動作しています。はてなダイアリーとはてなブックマークに関するデータをクロールしているのは、Top Hatenarの側です。HatenarMapsの側では、Top HatenarのService層をS2RMI経由でコールして、集計済みのはてブ情報を取得し、クラスタリング処理の後にポリゴンを計算しています。その他、HatenarMaps上でコメントビームの表示等がリクエストされる度に、Top Hatenarをコールしています。よって、HatenarMaps側のDBには、基本的にポリゴンデータしか入っていません。以下、図中に出てくるフレームワー

satzz 2008/12/30

リンク

yohei-y:weblog: 半構造データ、あるいは Web 上のデータ

国島先生や斉藤先生が XML や半構造データについていろいろ書いてくださっており、それに反応する形ではてなブックマークや twitter 上での議論が日本語で進んでいて面白い。 http://kunishi.blogspot.com/2008/12/twitter.html http://leoclock.blogspot.com/2008/12/relational-style-xml-query-sigmod-j.html http://kunishi.blogspot.com/2008/12/xml-db.html ブックマークや twitter で細かいコメントを書いているだけでは申し訳ないような気がするので、久々にエントリを書こうとしたのだけれど、なんだかバックグラウンドが長くなってしまった。最先端の研究者のみなさんに失礼な物言いもありますが、XML guy としては XML の

satzz 2008/12/28

xml
db

リンク

インデックスの基礎知識

■ インデックスとはデータベースの世界で、インデックス(索引)とはテーブルに格納されているデータを高速に取り出す為の仕組みを意味します。インデックスを適切に使用することによってSQL文の応答時間が劇的に改善される可能性があります。インデックスにはB-Treeインデックスをはじめ、ビットマップインデックス、関数インデックスなどの種類がありますが、ここでは最も一般的に使われ、かつほとんどのDBMSでサポートされているB-Treeインデックスについて解説します。 ※ CREATE INDEX文でオプションを指定しない場合は通常B-Treeインデックスが作成されます。 ■ B-Treeインデックスのしくみ B-Tree(Balanced Tree)インデックスは次のようなツリー状の構造になっています。ツリーの先頭はヘッダブロックと呼ばれています。ヘッダブロックでは、キー値の範囲

satzz 2008/12/27

db
indexing

リンク

「はてな流大規模データ処理」を見てきた - もぎゃろぐ

KOF2008：関西オープンソース2008というイベントに来ています。はてなの伊藤さんの講演があったので、講演メモを公開。＃ボクがメモした内容であって、100%言ったとおりに書いてあるわけじゃないので、参考としてご覧ください。 (続き) アジェンダ大規模なデータ OSのキャッシュ MySQLの運用大規模データアプリケーションの開発データの例はてなブックマークのデータ量：五千万件くらいのデータ量このデータに対して何百万人がアクセスしてくる状況でどういう作りにするかレコード数 1073万エントリー 3134万エントリー 4143万タグデータサイズエントリー2.5GB 何の工夫もなく普通にアクセスすると...200秒待っても結果が帰ってこない大規模データの難しいところ開発サーバで開発者が作っている時は快適に動いていても、多数の人間がアク

satzz 2008/11/11

リンク

Tokyo Cabinet

Tokyo Cabinet is the successor of QDBM, a high performance database library similar to the DBM family. It also supports hash and B-tree databases and does not require any server process. The overall speed is improved compared to QDBM.