タグ

hadoopに関するko-ya-maのブックマーク (15)

  • 分散型システム徹底入門 – Part 2. | POSTD

    Cassandra 先ほど触れたCassandraは分散型のNoSQLデータベースで、CAP定理のAとP(可用性と分断耐性)の特性を基準に最終的な一貫性が確保されています。ただ、このように言ってしまうと少し誤解を招くかもしれません。というのも、実際のところCassandraの設定は非常に柔軟性が高く、可用性を犠牲にして強い一貫性を提供することもできるからです。ですが、そうした使用ケースは一般的ではありません。 Cassandraでは、 コンシステントハッシュ法 を使って、渡そうとするデータをクラスタのどのノードが管理するのかを決めています。そしてその際は、データを複製するノード数を示す レプリケーションファクタ を設定します。 注釈: レプリケーションファクタ=3 挿入(キー、値) Cassandraのノード(コーディネータ) Cassandraのノード ハッシュ(キー)=2 ノード#2

    分散型システム徹底入門 – Part 2. | POSTD
  • Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining

    Tokyo Webmining #25 で発表したときの資料です。メインはデモの方ですRead less

    Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
  • Overview - Cloudera Support

    ko-ya-ma
    ko-ya-ma 2013/01/21
    Hadoop のバーチャルマシンイメージ。様々なバーチャルマシンに対応。ただし、64bit VMに限る
  • アクセス解析システムの裏側 (公開用)

    2. 目次 1. 自己紹介 2. ユーザーローカルとアクセス解析 3. アクセス解析の基礎 4. アクセス解析システムの裏側 - リアルタイム集計 - 小バッチ集計 - 大規模バッチ集計 スライド49枚 2 12年9月23日日曜日 3. 自己紹介 • 三上俊輔 • 株式会社ユーザーローカル • 今年3月に筑波大学院を卒業 • 大学では分散ファイルシステムの研究 • 学生の時はCookpadのデータマイニン グ部門で2ヶ月ほどインターン 3 12年9月23日日曜日 4. 過去の研究、発表 • 研究ブログ:http://shun0102.net/ • 発表:「分散ファイルシステムGfarm 上でのHadoop MapReduce」など - http://www.slideshare.net/shun0102/ 4 12年9月23日日曜日

    アクセス解析システムの裏側 (公開用)
    ko-ya-ma
    ko-ya-ma 2012/09/24
    大規模データをいかにさばくか
  • HadoopをWindows上の仮想マシンで手軽に試す方法

    Hadoopといえば大規模分散フレームワークであり、実行にはそれなりのサーバ群を揃えなければならない、と思われがち。 しかしHadoopでもっとも有名なディストリビューションを提供するClouderaは、PC上の仮想マシンで手軽にHadoopを実行できる仮想マシンイメージ「Cloudera's Hadoop Demo VM for CDH4」を無償公開しています。 VMware Player、KVM、VirtualBoxなど幅広い仮想マシンに対応。個人のPCを使って、例えばWindowsの上でも簡単にHadoopを試すことができます。 仮想マシンを使ったHadoopの実行手順を詳しく解説

    HadoopをWindows上の仮想マシンで手軽に試す方法
  • Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム:テキストマイニングで始める実践Hadoop活用(最終回)(1/3 ページ) Hadoopとは何かを解説し、実際にHadoopを使って大規模データを対象にしたテキストマイニングを行います。テキストマイニングを行うサンプルプログラムの作成を通じて、Hadoopの使い方や、どのように活用できるのかを解説します Passive-Aggressiveとロジスティック回帰で精度向上 前回の「実践! 「MapReduceでテキストマイニング」徹底解説」では、「青空文庫」の作品から学習を行い、テキストデータから著者の寿命を推定するMapReduceプログラムを作成しました。 今回は、前回のプログラムを少し変更するだけで、精度が上がる「Passive-Aggressive」というアルゴリズムを実装します。また、テキスト分類のアルゴリズムと

    Hadoopによるテキストマイニングの精度を上げる2つのアルゴリズム
  • 実践! 「MapReduceでテキストマイニング」徹底解説

    青空文庫」をテキストマイニング! 前回の「いまさら聞けないHadoopとテキストマイニング入門」では、Hadoopとテキストマイニングの概要や構成、MapReduceの仕組み、Hadoopの活用場面などを解説し、Hadoopの実行環境を構築しました。今回から、Hadoopを使い、テキストマイニングのMapReduceプログラムを作成していきます。 「青空文庫」というサイトをご存じでしょうか。青空文庫は、著作権が切れた日の文学作品を掲載しているWebサイトで、青空文庫の全データをDVDや、BitTorrentによる配信で入手できます。今回は、このデータを使ってテキストマイニングを行いましょう。 前回、テキスト分類で、著者の性別、年齢、地域、職業などの属性も推定できると書きましたが、青空文庫は、他のデータにはない、著者属性があります。青空文庫の作品は、著作権が切れて、作者がなくなっている場

    実践! 「MapReduceでテキストマイニング」徹底解説
    ko-ya-ma
    ko-ya-ma 2012/08/20
    数学的な理屈の説明とそれをどうMapReduceに落としこむかの解説。
  • いまさら聞けないHadoopとテキストマイニング入門

    ビッグデータ時代の救世主「Hadoop」とは 「Apache Hadoop」は今、最も注目を集めている技術の1つです。Hadoopとは、大量のデータを手軽に複数のマシンに分散して処理できるオープンソースのプラットフォームです。 Hadoopを活用している企業は年々増え続けていて、不可欠な技術になりつつあるといえるでしょう。 連載では、Hadoopとは何か、Hadoopがどう活用できるのかということを、「テキストマイニング」に焦点を当てて解説していきたいと思います。 重い処理を複数のマシンに分散させる 複数のマシンに処理を分散させるには、プロセス同士の通信、監視、障害時の対応などを考えなければならず、プログラマにとってハードルが高いものです。しかし、Hadoopはそういった面倒くさい処理を一手に引き受けてくれ、プログラマは、やりたい処理だけに集中できます。 例えば、Hadoopを使うと、1

    いまさら聞けないHadoopとテキストマイニング入門
    ko-ya-ma
    ko-ya-ma 2012/08/20
    Hadoop 基礎の基礎。
  • リクルート式Hadoopの使い方

    リクルート式Hadoopの使い方 - Presentation Transcript リクルート式Hadoopの使い方 株式会社リクルートMIT システム基盤推進室インフラソリューショングループ石川 信行 はじめに・・・ □名前 石川 信行 (   ground_beetle) □出身 福島県 いわき市 □経歴 ・2009年リクルート新卒入社 ・営業支援システムのコーダー(java)、DBAとして参加。 ・JavascriptのLibであるSenchaを用いたスマホサイト開発 ・現Hadoop推進担当 □趣味 ・外国産カブト虫飼育 ・スキューバダイビング ・海水魚飼育 リクルートの組織体制について 旅行C 営業 企画 自動車C 営業 企画 住宅C 営業 企画 MIT United 事業担当MIT  事業担当MIT  事業担当MIT  ・マーケティング・分析チーム  ・インフラ基盤チーム  

    ko-ya-ma
    ko-ya-ma 2012/08/20
    データ解析が高速化することにより、Try&Errorのサイクルを高速で回せるようになる、というのはナルホド。
  • 日々進化するHadoopの 「いま」

    1. 第2回 NHNテクノロジーカンファレンス (2012年8月18日) 日々進化するHadoopの 「いま」 株式会社NTTデータ / 日Hadoopユーザー会 濱野 賢一朗 Copyright © 2012 NTT DATA Corporation 2. 自己紹介  濱野 賢一朗 (はまの けんいちろう) @hamaken  株式会社NTTデータ 基盤システム事業部 シニアエキスパート • 『BizXaaS Hadoop構築・運用ソリューション』 『CDH Hadoopサポートサービス』 の中の人  日Hadoopユーザー会  翔泳社 『Hadoop徹底入門』 監修者  話題になった経産省のHadoop報告書のPM • 経済産業省 『分散制御処理技術等に係る データセンター高信頼化に向けた実証事業』 • http://www.meti.go.jp/policy/mono

    日々進化するHadoopの 「いま」
  • Amazon Elastic MapReduceでPHPも使えるか試してみた - Stellaqua - TOMの技術日記

    AmazonがEC2上でHadoopによるMapReduceを実行できるサービスを出してきたようですね。 →Amazon EMR - Amazon Web Services →http://kzk9.net/blog/2009/04/reviewing_amazon_elastic_map_reduce.html 前回の記事では、EC2上でHadoop用のインスタンスを自分で動作させて、ファイルの転送も事前にやって…と色々下準備が必要だったんですが、このサービスを使えばローカルの環境からいきなりコマンド一発でMapReduceを実行する事ができるようになりました。 そんなのを聞いたらやってみたくなるよね、という事で、PHPMapper/Reducerが使えるか試してみたかったので、早速使ってみる事にしました。 多段階のMapReduceは面倒なので、今回は以前の記事で使った単語カウントの

    Amazon Elastic MapReduceでPHPも使えるか試してみた - Stellaqua - TOMの技術日記
  • Amazon EMR(Hadoopなどのビッグデータフレームワークを簡単に実行)| AWS

    Amazon EMR Serverless は、データエンジニアやアナリストが、Apache Spark、Hive、Presto などのオープンソースのビッグデータフレームワークを使用して構築したアプリケーションを、調整、運用、最適化、セキュリティ確保、クラスター管理をすることなく、簡単かつコスト効率よく実行できる Amazon EMR の新オプションです。

    Amazon EMR(Hadoopなどのビッグデータフレームワークを簡単に実行)| AWS
    ko-ya-ma
    ko-ya-ma 2012/08/20
    手軽にMapReduce !
  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
    ko-ya-ma
    ko-ya-ma 2012/05/28
    ビッグデータでも機械学習をしよう!
  • Hadoopの異端さが面白い - wyukawa's diary

    Hadoopはほんとブームです。バブルだと言っていい気がします。各種セミナーはすぐに埋まりますし、実際に聞きに行くと会場は満員です。 この分野は日だとNTTデータが先頭をきったように見えます。 NTTデータ、Hadoopの商用ディストリビューション「CDH3」を販売開始 | 日経 xTECH(クロステック) またHadoop専業会社「ノーチラス・テクノロジー」というのもできました。 ウルシステムズとイーシー・ワンが経営統合、Hadoop専業会社を立ち上げ | 日経 xTECH(クロステック) しかし最近では富士通やIBMもHadoopソリューションを展開しておりレッドオーシャンな感じです。 富士通がビッグデータ分析・活用向けのPaaSサービス | 日経 xTECH(クロステック) 日IBM、表計算のように分析できるHadoopソフト新版「BigInsights」 | 日経 xTECH

    Hadoopの異端さが面白い - wyukawa's diary
  • TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る

    大規模データの分散処理を支えるJavaソフトウェアフレームワークであり、フリーソフトウェアとして配布されている「Apache Hadoop」。その作者ダグ・カティング(Doug Cutting)さんが「Cloud Computing World Tokyo 2011」&「Next Generation Data Center 2011」において「Apache Hadoop: A New Paradigm for Data Processing」という講演をしていたので聞きに行ってきました。 満員の客席。 皆様を前にして講演できることを大変光栄に思っております。「Apache Hadoop」について皆様に伝えていきますが、これはまさにデータ処理の新たなるパラダイムを提供するものではないかと私は思っております。 まずは簡単に自己紹介をさせていただきましょう。私は25年に渡ってシリコンバレーで仕

    TwitterやFacebookで使われている「Apache Hadoop」のメリットや歴史を作者自らが語る
    ko-ya-ma
    ko-ya-ma 2011/09/03
    濃い。非常に濃い記事。
  • 1