大人の事情で古い CDH 5.1.2 を素の設定で使うと Reducer で OOME が出たり出なかったりする。 2016-02-12 00:58:44,134 WARN [main] org.apache.hadoop.mapred.YarnChild: Exception running child : org.apache.hadoop.mapreduce.task.reduce.Shuffle$ShuffleError: error in shuffle in fetcher#1 at org.apache.hadoop.mapreduce.task.reduce.Shuffle.run(Shuffle.java:134) at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:376) at org.apache.h
この日(2016-11-08)は以下のリンクのイベント( Cloudera World Tokyo 2016 )に参加してきましたので、そのことについて書こうと思います。 www.clouderaworldtokyo.com Cloudera World Tokyo 2016 の総括(というより個人的感想)。 まずは感想から。 そんなに技術技術ガッツンガッツンなセッションに当たらなかった(おそらくそういうセッションもあったのだとは思いますが)ので、本当に個人の感想的なものです。 まずは、月並みではございますが、 Hadoop生誕10周年おめでとうございます!ついにこのプロダクトも一区切りまできましたね。 今回の Cloudera World Tokyo 2016 はまさにHadoop生誕10周年を祝う場でとして大成功なイベントだったのではないでしょうか。黎明期の Hadoop から一貫して
Cloudera Manager Advent Calendar 2015の20日目です。 「Cloudera Manager を使うと便利だけど、裏で何をやっているのかよくわからない」という意見を聞くことがある。 安心してほしい。Cloudera Manager は、CDHに対するあらゆる操作をLinuxのコマンドレベルで表示することができる。 Cloudera Manager と CDH は疎結合になっていて、CDH自体への操作はほとんどがシェルスクリプトなどによるコマンド実行で行われている。 よって、それらの操作を外部から閲覧することは非常に容易であり、またその操作を手動で再現することも可能である(普通このようなことを行う必要はないが)。 環境 Cloudera Manager 5.5 本編 Cloudera Manager のホーム画面に 全ての最近のコマンド というタブがある。こ
Sparkのエンタープライズ対応が「成熟」――Clouderaが宣言:800ノード超のSparkクラスターを運用するユーザーも HadoopディストリビューターもあらためてSparkへの注力をアピール。既に800ノード超のSparkクラスターを運用するユーザーも存在するという。 Hadoopディストリビューションを提供する米Cloudera(クラウデラ)は2015年11月30日(米国時間)、Apache Sparkへの対応が「成熟した」とのリリースを発表した。2015年11月19日に発表した「Cloudera Enterprise 5.5」および「Cloudera's Distribution including Apache Hadoop 5.5」ではSpark SQLとSpark MLlibへの対応を発表していたが、今回、あらためてSpark対応の「本気度」とHadoopプラットフォー
本日、What’s Next for Impala: More Reliablity, Usability, and Performance at Even Greater Scale というブログが公開されていました。 このブログには2015〜2016にかけてのImpalaのロードマップが記されています。とはいえ、翻訳されるかどうかわからないので、個人的に興味がある部分を抜粋してみました。意訳ですし間違いがあるかもしれないので、詳細は原文を確認してください。 しかし、来年も楽しみな機能が目白押しですね。 Impalaは、金融サービス、小売り業、ヘルスケア、ゲーム会社、政府、広告、電話会社などの業種に渡って広く本番環境で利用されている いくつかの企業では大規模に利用されており、ある広告会社では1000を超えるエンドユーザのウェブのダッシュボードから秒間80クエリ以上を実行し、数秒で結果を得
アメリカ地質調査所が公開している地震の発生データを検索可能にし、結果を地図上にマッピングする方法を紹介する。 環境 CDH 5.4.2 Cloudera Manager を使ってクラスタを準備するか、クイックスタートVMを準備すること。VMの準備方法についてはこちらを参考。 データセット 最近発生した地震のデータセット。 アメリカ地質調査所 より取得する。 検索システムのアーキテクチャ データセットの取得と HBase へのロード HBaseにTSVデータを投入する(ImportTsv)の記事を参照。 Solr から HBase テーブルのインデックス作成 HBaseのデータからSolrの検索インデックスを作成するの記事を参照。 検索結果を地図上に表示する http://<hueサーバのノード>:8888/indexer にアクセスし、 earthquake-collection を選択し
Cloudera Enterprise 5.4 表記の通り、Cloudera Enterpriseの新しいバージョン(5.4)が公開されています。日本語のリリースはこちら。 リリースブログ(英語) Cloudera 5.4: Built for Production Success (英語) 今回のリリースは「品質、セキュリティ、パフォーマンス、使いやすさ」の改善にフォーカスしているとのことです。いつものように技術的に興味深い点をピックアップしてみます。 あくまでも個人的に興味があるものだけを抜き出しているので、詳細は5.4のリリースノートとImpala 2.2のリリースノートごらんください。 RHEL6.6/CentOS 6.6のサポート 多くの要望に応えて対応されました。多くの方に朗報じゃないかと思います。 Hadoop HDFS Hadoop 2.6へのリベース データノードのホット
Dear CDH, Cloudera Manager, Impala, and Cloudera Navigator users, We are pleased to announce the release of Cloudera Enterprise 5.3.3 (CDH 5.3.3, Cloudera Manager 5.3.3, and Cloudera Navigator 2.2.3). Cloudera Enterprise 5.3.3 This release fixes key bugs and includes the following. CDH Replacing DataNode Disks or Manually changing the Storage IDs of Volumes in a Cluster may result in Data Loss. Fi
Hadoop関連(全部俺) Advent Calendar 2014:7日目 先週の研修中に、「Hadoopをこれから試してみたいけど、どこから始めたらいいでしょうか?」という質問がありました。 構築の勉強をしたいのであれば、今ならパブリッククラウドや仮想化環境を使えるので、実際に構築してみるのが良いでしょう。パッケージを手作業でインストールしても良いですし、Cloudera Managerを使えば簡単です。 MapReduceやSparkのジョブの開発方法を学びたいのであれば、環境を用意した上で、先日紹介したO’Reillyなどの書籍を利用したり、あるいはセミナーや研修を受講するのが良いかもしれません。 MapRediuceやSparkを試すための簡単な方法のひとつは、「Hadoop入門:Hadoopを10分で理解する」 シリーズで紹介したCloudera Managerであり、Clou
仕事でOpenTSDBを使っていることもあり、HBase徹底入門を購入しました。 HBase徹底入門 Hadoopクラスタによる高速データベースの実現 作者: 株式会社サイバーエージェント鈴木俊裕,梅田永介,柿島大貴出版社/メーカー: 翔泳社発売日: 2015/01/28メディア: 大型本この商品を含むブログを見るまだざっとしか読んでいませんが、 HBaseの概要/アーキテクチャの解説 HBaseのインストールとアプリケーション開発 スキーマ設計のポイント Cloudera Managerによるクラスタ環境構築 Cloudera Managerによる運用監視 トラブルシューティング などなど、HBaseに限らず、CDH5ベースでHadoopクラスタを運用している人(もしくはこれから運用しようとしている人)にとっては必読の書です。 少なくとも俺得であることは間違いありません。 今までなんとな
Hadoopのディストリビューションベンダとして知られるClouderaは今日、Hadoopのクラスタに対してSQLでの問い合わせを実現するオープンソースソフトウェア「Cloudera Impala」のバージョン1.0を公開しました。製品版は「Cloudera Enterprise RTQ」として販売されます。 Release - Cloudera Ships Impala 1.0: Industry's First Production-Ready SQL-on-Hadoop Solution Clouderaは、Hadoopで構築された大規模な分散データベースに対してSQLで高速に問い合わせが可能になることにより、企業でのデータウェアハウス用途などHadoopでの新たな市場を開拓できるとしています。 MapReduceを使わず独自の分散クエリエンジン Impalaはバッチ処理をベースに
リリース、障害情報などのサービスのお知らせ
最新の人気エントリーの配信
処理を実行中です
j次のブックマーク
k前のブックマーク
lあとで読む
eコメント一覧を開く
oページを開く