タグ

hadoopに関するkicyonのブックマーク (29)

  • 日々進化するHadoop。これまでのおさらいと最近の動向(後編)

    Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行われたセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 (記事は「日々進化するHadoop。これまでのおさらいと最近の動向(前編)」の続きです) Hadoopの1.0系と2.0系 Hadoopの開発はかなり活発に進んでいます。 Hadoopでいちばん分からないといわれるのがバージョンで、これは以前からHadoopに接している私たちでもよく分からないくらいです。 Hadoopのバージョンには大きく二系統あって、少し前まで0.20系と呼ばれていたもので、これが現行は1.0系と呼ばれています。もうひとつが0.21、0.22、0.23系と呼ばれていたもの、これがいま2.0系と呼ばれています。 対外的には

    日々進化するHadoop。これまでのおさらいと最近の動向(後編)
  • 日々進化するHadoop。これまでのおさらいと最近の動向(前編)

    大規模な分散処理フレームワークとしてHadoopが登場したことにより、ビッグデータのブームや、大規模なソーシャルゲームでのログ解析による改善、コマースサイトでの機械学習によるレコメンデーションなど、多くの変化が引き起こされてきました。 そしてそのHadoop自体も、日々進化し続けています。 Hadoopとはどういうソフトウェアであり、いまどのような状況になっているのか。NTTデータの濱野賢一朗氏が、先日行われた第2回 NHNテクノロジーカンファレンスで行ったセッション「日々進化するHadoopの『いま』」で分かりやすく解説しています。 この記事ではそのセッションの内容をダイジェストで紹介しましょう。 日々進化するHadoopの「いま」 NTTデータ 基盤システム事業部 濱野賢一朗氏。 NTTデータというところで仕事をしています。NTTデータ自体はもう5年くらいHadoopをやってまして、そ

    日々進化するHadoop。これまでのおさらいと最近の動向(前編)
  • livedoor Techブログ : 第2回 NHNテクノロジーカンファレンス 開催ログ

    株式会社データホテルの伊勢です。 2012年8月18日(土)に開催されました 第2回 NHN テクノロジーカンファレンス の発表資料と動画を公開致します。 ご登壇頂きました皆様、ご参加頂きました皆様、どうもありがとうございました。 また、今回「H」な技術と言う事で、オライリー・ジャパン様より「HBase」の書籍をプレゼント頂きました。アレンジしていただいた翻訳者の玉川さん、オライリー・ジャパン様ありがとうございます。 「H」当たった皆様、おめでとうございました。 それでは、以下 第2回テクノロジーカンファレンスの開催ログとなります。 ※ 登壇者の皆様と。左から 田籠氏、井上氏、中村氏、濱野氏、沈 氏、伊勢です。 「HTML5 Animation in Mobile Web Games」(沈 相旻 氏 NHN Korea、 Mobile Ajax チーム) 「日々進化するHadoopの『今

  • 「カジュアル」な規模のデータクラスター上でのデータ解析処理 « NAVER Engineers' Blog

    今年はさだまさしさんのデビュー40周年ということで、記念コンサート「さだまつり」も絶賛開催中の折も折、残暑も厳しい中皆様いかがお過ごしでしょうか。大平です。 さだまさし氏は経験の豊富な方ですので彼の歌や発言から学ぶことは大変多いのですが、個人的に非常に感銘を受けているのは「歌はコンサートで成長する」という言葉です。歌い手として、「歌」という作品を作って公開・販売するだけが仕事ではなく、実際にコンサートなどでお客さんに届け、お客さんの反応を参考にしたり日々の演奏活動の中で試行錯誤を繰り返して、内容をブラッシュアップし洗練させていく過程を指して先の言葉があるのだと思います。実際にさだまさし氏の曲はCDに収録されているものと実際にライブで演奏されるものとでアレンジが大きく異なり、かつ作品としても質が向上しているものが少なからず存在します。 …あまりさだまさしの話を続けると当に上長に叱られますの

  • Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ

    前に書いた エントリ の通りHoopが有望な感じだったんだけどどのくらいの性能が出るのか見てみないことには番投入して性能出ませんでした乙、ということになりかねない。ので見てみた。 なお検証に関係する環境としては以下の通り。ちなみに前はCDH3u1で試してたけど、今回はCDH3u2 (JDK6u29) on CentOS5。メモリが問題になることは全くないので全て省略。 ベンチ用サーバ Intel Xeon 4Core HT 2.4GHz データ中継サーバ (deliver) Intel Xeon 4Core HT 2.4GHz Hadoop NameNode (+JobTracker) (namenode) Intel Xeon 1Core HT 3.16GHz Hadoop DataNode + TaskTracker x9 Intel Xeon 1Core HT 3.16GHz Ho

    Hoopの性能を確認してみたらもうlibhdfsとかオワコンでHoop使えって結果になった - たごもりすメモ
  • fluent-plugin-hoop v0.1.0 released - たごもりすメモ

    みんな大好き fluentd は素敵だと思うんだけどHDFSへの書き出しをするプラグインが無い! なんで! という全世界100万人のエンジニアの怨嗟の声が聞こえてきそうだったので、とりあえずどうにかするべく書いた fluent-plugin-hoop がだいたい動くようになったのでリリースした! fluent-plugin-hoop | RubyGems.org | your community gem host tagomoris/fluent-plugin-hoop · GitHub → 公式リポジトリの仲間入りしました fluent/fluent-plugin-hoop · GitHub rubygems.org経由でリリースしてあるので gem install fluent-plugin-hoop で入ります。あとはなんだっけ、システム全体の環境に影響を与えたくなければ fluen

    fluent-plugin-hoop v0.1.0 released - たごもりすメモ
  • Hoop (HDFS over HTTP) を試してみた - たごもりすメモ

    バッチ処理にかける対象ファイルの抽出には中身を見る必要があって、headやtailでいいんだけどhadoop fsコマンドではそういうオペレーションができない*1ので FUSE hdfs でLinuxにHDFSをmountしてやっている。 が、これがまたビルドするのにひと苦労だったりmount元と先が密結合になっちゃったり遅かったりいつまでメンテされるもんかと思われたりするし外部コマンドを起動して結果を読んでゴニョゴニョしたりするのが面倒なのでどうにかしたいなーと思っていたら、Clouderaから Hoop なるプロダクトが少し前にリリースされた。 Hoop - Hoop, Hadoop HDFS over HTTP - Documentation Sets 0.1.0-SNAPSHOT HTTP REST APIを経由してHDFSの内容にアクセスできるし、オペレーションもできる。GETの

    Hoop (HDFS over HTTP) を試してみた - たごもりすメモ
  • QuestionVOTE!! | Hadoop Conference Japan 2011 Fall

    Title Hadoop Conference Japan 2011 Fall Date 2011/09/26 10:00~18:30 Place ベルサール汐留 Organizer Hadoopユーザ会 Support 株式会社リクルート

  • HadoopによるApacheのログ解析・実例:DECOLOG TECH BLOG annex:エンジニアライフ

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行っているApacheのログ解析について、ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 ※別館注:記事は2010年10月時点の内容です。この後CDNを導入し、解析対象ログは80GB、解析時間は1時間半程度に圧縮されました。Hadoopのノードも11台に減らしています 全体の流れとしては、 リバースプロキシからHDFSにログを転送 解析用のサーバで、HDFSにログの転送が終わるのを監視 ログの転送が終わったら、Hadoopを起動、解析 Hadoopの解析結果をデータベースに保存 以下では、各ステップを個別に見ていくことにしますね。

    HadoopによるApacheのログ解析・実例:DECOLOG TECH BLOG annex:エンジニアライフ
  • HadoopによるApacheのログ解析の実際

    こんにちは、ミツバチワークス stoneです。 今日は、DECOLOGで行われている、Apacheのログ解析について、 ご紹介してみようかと思います。 現在、DECOLOGでは、リバースプロキシが8台あって、 その8台の1日のApacheのログは、全部で、200Gバイト以上になっています。 これを、13台のHadoopのスレーブノードで解析を行っています。 全体の流れとしては、 1) リバースプロキシからHDFSにログを転送 2) 解析用のサーバーで、HDFSにログの転送が終わるのを監視 3) ログの転送が終わったら、Hadoopを起動、解析 4) Hadoopの解析結果をデータベースに保存 以下では、各々のステップを個別に見て行くことにしますね。 1. リバースプロキシからHDFSにログを転送 当初、Hadoopのプロセスが立ち上がっていないと、HDFSにはアクセスできない、 と思い込ん

  • Hadoop (1) スタンドアロン

  • MongoDB & Hadoop: Flexible Hourly Batch Processing Model

    The document describes how to use Gawk to perform data aggregation from log files on Hadoop by having Gawk act as both the mapper and reducer to incrementally count user actions and output the results. Specific user actions are matched and counted using operations like incrby and hincrby and the results are grouped by user ID and output to be consumed by another system. Gawk is able to perform the

    MongoDB & Hadoop: Flexible Hourly Batch Processing Model
  • Hadoopの現在 - 急がば回れ、選ぶなら近道

    もともとHadoopは注目の仕組みであったけど ここに来てさらに大きな流れになろうとしてる。 各種のイベントや記事にしても大型のものが多く 一種のHype状態になってきている。 Hadoop Japan Conference 2011 Fall Hadoop Conference Japan 2011 Fall Tickets, Mon, Sep 26, 2011 at 10:00 AM | Eventbrite 登録人数で1000人を超えている。 Cloud Computing World Tokyo 2011 & Next Generation Data Center2011 Apache Hadoop: A New Paradigm for Data Processing http://www.idg.co.jp/expo/ngdc/2011/index.html このイベントがあっ

    Hadoopの現在 - 急がば回れ、選ぶなら近道
  • Hadoop Conference Japan 2011 #hcj2011

    Koichi Hamada @hamadakoichi 2/22 Hadoop Conference Japan 2011、『モバゲーの大規模データマイニング基盤におけるHadoop活用』について話します。USTありますので #TokyoWebmining のみなさんもぜひ。 http://bit.ly/i0tmmD #hcj2011 2011-02-21 11:47:01 エディ / edy_choco_edy @edy_choco_edy RT @hamadakoichi: 2/22 Hadoop Conference Japan 2011、『モバゲーの大規模データマイニング基盤におけるHadoop活用』について話します。USTありますので #TokyoWebmining のみなさんもぜひ。 http://bit.ly/i0tmmD #hcj2011 2011-02-21 11:48:

    Hadoop Conference Japan 2011 #hcj2011
  • NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮

    業界トップ のエンタープライズ Hadoop 企業 Cloudera に入社しました http://www.cloudera.co.jp/ 今年の6月に、「平成21年度 産学連携ソフトウェア工学実践事業報告書」というドキュメント群が経産省から公表されました。 そのうちの一つに、NTTデータに委託されたHadoopに関する実証実験の報告書がありましたので、今更ながら読んでみることにしました。 Hadoop界隈の人はもうみんなとっくに読んでるのかもしれませんけど。 http://www.meti.go.jp/policy/mono_info_service/joho/downloadfiles/2010software_research/clou_dist_software.pdf 「高信頼クラウド実現用ソフトウェア開発(分散制御処理技術等に係るデータセンター高信頼化に向けた実証事業)」という

    NTTデータのHadoop報告書がすごかった - 科学と非科学の迷宮
  • クックパッドのデータ処理、たった5万円 (2ページ目):日経ビジネスオンライン

    気になる記事をスクラップできます。保存した記事は、マイページでスマホ、タブレットからでもご確認頂けます。※会員限定 無料会員登録 詳細 | ログイン 「たべみる」のサービスを利用すれば、たとえば、「鍋」というキーワードが、どのような材(白菜やキャベツ、鱈、豚肉、鶏肉など)と組み合わされて検索されているのか、月別で見ると何月に検索されていることが多いのか、あるいは首都圏と近畿地方では検索傾向に違いが見られるか、といった地域別の分析が可能である。 品メーカーであれば、データを基にした新商品の開発に、流通小売業であれば、消費者の視点で魅力的な売り場を作るといった活用が可能だ。 品メーカーが活用、キーワード「ひき肉」を突き止めた このサービスを利用したある品メーカーのカレールーの商品企画部門では、「カレー」というキーワードと一緒に検索される材名を月ごとに分析し、もっともよく検索されるのが

    クックパッドのデータ処理、たった5万円 (2ページ目):日経ビジネスオンライン
  • Apache Hadoop のインストール

    参考 Web ページ: http://hadoop.apache.org/core/ インストール前に,あらかじめ決めておく事項 Apache Hadoop インストールディレクトリを決めておくこと. この Web ページでは,次のように書きます. Apache Hadoop インストールディレクトリ: /usr/local JDK のインストールディレクトリを調べておくこと. この Web ページでは,次のように書きます. JDK インストールディレクトリ: /usr/java/jdk1.6.0_11 Apache Hadoop のインストール手順 前準備 Linux イントールと設定 の Web ページに従って,Cent OS のインストールが済んでいること. SSH サーバ の Web ページの記述に従って,次の設定を終えていること.セキュリティ上,重要 ユ

  • Index of /mirror/apache/dist/hadoop/core/hadoop-0.20.1

  • 1台構成のHadoopを30分で試してみる(CentOS + Cloudera)

    (参考) Cloudera社のHadoopパッケージの情報 http://archive.cloudera.com/docs/ 必要なもの ・CentOS5かCentOS6のLinux環境1台(ここではCentOS5.6とCentOS6.0を使いました。CentOSの他バージョンや、Fedora、Redhat等でも大丈夫だと思います) ・インターネット接続 ・Sun社Javaパッケージ(パッケージファイルをインターネットから取得) ・Cloudera社のCDH3のHadoopパッケージ(yumでインターネットからインストール) 作業手順 0. 準備 0-1. Sun社Javaパッケージの取得 http://java.sun.com/javase/downloads/にて、 Java SE 6の[Download]ボタンを押して出る「Java SE Downloads」のページから必要なもの

    1台構成のHadoopを30分で試してみる(CentOS + Cloudera)
  • itarchitect.jp

    This domain may be for sale!