[B! hadoop] kicyonのブックマーク

日々進化するHadoop。これまでのおさらいと最近の動向（後編）

Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。（本記事は「日々進化するHadoop。これまでのおさらいと最近の動向（前編）」の続きです） Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。対外的には

kicyon 2012/09/19

hadoop

リンク

日々進化するHadoop。これまでのおさらいと最近の動向（前編）

大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。この記事ではそのセッションの内容をダイジェストで紹介しましょう。日々進化するHadoopの「いま」 NTTデータ基盤システム事業部濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

kicyon 2012/09/19

hadoop

リンク

livedoor Techブログ : 第2回 NHNテクノロジーカンファレンス開催ログ

株式会社データホテルの伊勢です。 2012年8月18日（土）に開催されました第2回 NHN テクノロジーカンファレンスの発表資料と動画を公開致します。ご登壇頂きました皆様、ご参加頂きました皆様、どうもありがとうございました。また、今回「H」な技術と言う事で、オライリー・ジャパン様より「HBase」の書籍をプレゼント頂きました。アレンジしていただいた翻訳者の玉川さん、オライリー・ジャパン様ありがとうございます。「H」本当たった皆様、おめでとうございました。それでは、以下第2回テクノロジーカンファレンスの開催ログとなります。 ※ 登壇者の皆様と。左から田籠氏、井上氏、中村氏、濱野氏、沈氏、伊勢です。「HTML5 Animation in Mobile Web Games」(沈相旻氏 NHN Korea、 Mobile Ajax チーム) 「日々進化するHadoopの『今

kicyon 2012/09/19

hadoop

リンク

「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると本当に上長に叱られますの

kicyon 2012/09/18

Hadoop
hive

リンク

Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ

前に書いたエントリの通りHoopが有望な感じだったんだけどどのくらいの性能が出るのか見てみないことには本番投入して性能出ませんでした乙、ということになりかねない。ので見てみた。なお検証に関係する環境としては以下の通り。ちなみに前はCDH3u1で試してたけど、今回はCDH3u2 (JDK6u29) on CentOS5。メモリが問題になることは全くないので全て省略。ベンチ用サーバ Intel Xeon 4Core HT 2.4GHz データ中継サーバ (deliver) Intel Xeon 4Core HT 2.4GHz Hadoop NameNode (+JobTracker) (namenode) Intel Xeon 1Core HT 3.16GHz Hadoop DataNode + TaskTracker x9 Intel Xeon 1Core HT 3.16GHz Ho

kicyon 2012/03/15

hadoop
hoop

リンク

fluent-plugin-hoop v0.1.0 released - たごもりすメモ

みんな大好き fluentd は素敵だと思うんだけどHDFSへの書き出しをするプラグインが無い！なんで！という全世界100万人のエンジニアの怨嗟の声が聞こえてきそうだったので、とりあえずどうにかするべく書いた fluent-plugin-hoop がだいたい動くようになったのでリリースした！ fluent-plugin-hoop | RubyGems.org | your community gem host tagomoris/fluent-plugin-hoop · GitHub → 公式リポジトリの仲間入りしました fluent/fluent-plugin-hoop · GitHub rubygems.org経由でリリースしてあるので gem install fluent-plugin-hoop で入ります。あとはなんだっけ、システム全体の環境に影響を与えたくなければ fluen

kicyon 2012/03/15

リンク

Hoop (HDFS over HTTP) を試してみた - たごもりすメモ

バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの

kicyon 2012/03/15

hadoop
hoop

リンク

QuestionVOTE!! | Hadoop Conference Japan 2011 Fall

Title Hadoop Conference Japan 2011 Fall Date 2011/09/26 10:00～18:30 Place ベルサール汐留 Organizer Hadoopユーザ会 Support 株式会社リクルート

kicyon 2012/03/15

hadoop

リンク

HadoopによるApacheのログ解析・実例：DECOLOG TECH BLOG annex：エンジニアライフ

こんにちは、ミツバチワークス stoneです。今日は、DECOLOGで行っているApacheのログ解析について、ご紹介してみようかと思います。現在、DECOLOGでは、リバースプロキシが8台あって、その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。これを、13台のHadoopのスレーブノードで解析を行っています。 ※別館注：本記事は2010年10月時点の内容です。この後CDNを導入し、解析対象ログは80GB、解析時間は1時間半程度に圧縮されました。Hadoopのノードも11台に減らしています全体の流れとしては、リバースプロキシからHDFSにログを転送解析用のサーバで、HDFSにログの転送が終わるのを監視ログの転送が終わったら、Hadoopを起動、解析 Hadoopの解析結果をデータベースに保存以下では、各ステップを個別に見ていくことにしますね。

kicyon 2012/03/15

hadoop

リンク

HadoopによるApacheのログ解析の実際

こんにちは、ミツバチワークス stoneです。今日は、DECOLOGで行われている、Apacheのログ解析について、ご紹介してみようかと思います。現在、DECOLOGでは、リバースプロキシが8台あって、その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。これを、13台のHadoopのスレーブノードで解析を行っています。全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、と思い込ん

kicyon 2012/03/15

hadoop

リンク

Hadoop (1) スタンドアロン

kicyon 2012/03/07

hadoop

リンク

MongoDB & Hadoop: Flexible Hourly Batch Processing Model

The document describes how to use Gawk to perform data aggregation from log files on Hadoop by having Gawk act as both the mapper and reducer to incrementally count user actions and output the results. Specific user actions are matched and counted using operations like incrby and hincrby and the results are grouped by user ID and output to be consumed by another system. Gawk is able to perform the

kicyon 2012/03/02

リンク

Hadoopの現在 - 急がば回れ、選ぶなら近道

もともとHadoopは注目の仕組みであったけどここに来てさらに大きな流れになろうとしてる。各種のイベントや記事にしても大型のものが多く一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 ＆ Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ

kicyon 2011/09/22

hadoop

リンク

Hadoop Conference Japan 2011 #hcj2011

Koichi Hamada @hamadakoichi 2/22 Hadoop Conference Japan 2011、『モバゲーの大規模データマイニング基盤におけるHadoop活用』について話します。USTありますので #TokyoWebmining のみなさんもぜひ。 http://bit.ly/i0tmmD #hcj2011 2011-02-21 11:47:01 エディ / edy_choco_edy @edy_choco_edy RT @hamadakoichi: 2/22 Hadoop Conference Japan 2011、『モバゲーの大規模データマイニング基盤におけるHadoop活用』について話します。USTありますので #TokyoWebmining のみなさんもぜひ。 http://bit.ly/i0tmmD #hcj2011 2011-02-21 11:48:

kicyon 2011/02/23

hadoop

リンク

NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

業界トップのエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成２１年度産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発（分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業）」という

kicyon 2010/09/29

hadoop

リンク

クックパッドのデータ処理、たった5万円 (2ページ目)：日経ビジネスオンライン

気になる記事をスクラップできます。保存した記事は、マイページでスマホ、タブレットからでもご確認頂けます。※会員限定無料会員登録詳細｜ログイン「たべみる」のサービスを利用すれば、たとえば、「鍋」というキーワードが、どのような食材（白菜やキャベツ、鱈、豚肉、鶏肉など）と組み合わされて検索されているのか、月別で見ると何月に検索されていることが多いのか、あるいは首都圏と近畿地方では検索傾向に違いが見られるか、といった地域別の分析が可能である。食品メーカーであれば、データを基にした新商品の開発に、流通小売業であれば、消費者の視点で魅力的な売り場を作るといった活用が可能だ。食品メーカーが活用、キーワード「ひき肉」を突き止めたこのサービスを利用したある食品メーカーのカレールーの商品企画部門では、「カレー」というキーワードと一緒に検索される食材名を月ごとに分析し、もっともよく検索されるのが

kicyon 2010/04/20

hadoop

リンク

Apache Hadoop のインストール

参考 Web ページ: http://hadoop.apache.org/core/ インストール前に，あらかじめ決めておく事項 Apache Hadoop インストールディレクトリを決めておくこと．この Web ページでは，次のように書きます． Apache Hadoop インストールディレクトリ: /usr/local JDK のインストールディレクトリを調べておくこと．この Web ページでは，次のように書きます． JDK インストールディレクトリ: /usr/java/jdk1.6.0_11 Apache Hadoop のインストール手順前準備 Linux イントールと設定の Web ページに従って，Cent OS のインストールが済んでいること． SSH サーバの Web ページの記述に従って，次の設定を終えていること．セキュリティ上，重要ユ

kicyon 2010/02/02

hadoop

リンク

Index of /mirror/apache/dist/hadoop/core/hadoop-0.20.1

kicyon 2010/02/02

hadoop

リンク

1台構成のHadoopを30分で試してみる(CentOS + Cloudera)

(参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの・CentOS5かCentOS6のLinux環境1台(ここではCentOS5.6とCentOS6.0を使いました。CentOSの他バージョンや、Fedora、Redhat等でも大丈夫だと思います) ・インターネット接続・Sun社Javaパッケージ(パッケージファイルをインターネットから取得) ・Cloudera社のCDH3のHadoopパッケージ(yumでインターネットからインストール) 作業手順 0. 準備 0-1. Sun社Javaパッケージの取得 http://java.sun.com/javase/downloads/にて、 Java SE 6の[Download]ボタンを押して出る「Java SE Downloads」のページから必要なもの