タグ

mapreduceに関するatomicmapのブックマーク (4)

  • MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家

    HadoopとMahoutにより、ビッグデータでも機械学習を行うことができます。Mahoutで実装されている手法は、全て分散処理できるアルゴリズムということになります。Mahoutで実装されているアルゴリズムは、ここに列挙されています。論文としても、2006年に「Map-Reduce for Machine Learning on Multicore」としていくつかのアルゴリズムが紹介されています。 そこで今回は、(何番煎じか分かりませんが自分の理解のためにも)この論文で紹介されているアルゴリズムと、どうやって分散処理するのかを簡単にメモしておきたいと思います。計算するべき統計量が、summation form(足し算で表現できる形)になっているかどうかが、重要なポイントです。なってない場合は、”うまく”MapReduceの形にバラす必要があります。 ※例によって、間違いがあった場合は随時

    MapReduceできる10個のアルゴリズム - データサイエンティスト上がりのDX参謀・起業家
  • Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表

    IBMがHadoopをベースにしたデータ分析ソフトウェア「InfoSphere BigInsights」を、先週ローマで開催された同社のイベント「IBM Information On Demand Europe 2010」で発表しました。 InfoSphere BigInsightsは、Apache Hadoopをベースにした分析エンジンの「BigInsights Core」と、その上で大規模データをWebブラウザを利用してスプレッドシートのようなユーザーインターフェイスで分析を行える「BigSheets」の2つから構成されます。 BigSheetsで表計算のようにデータ分析 BigInsights CoreのベースとなっているHadoopは、数百万件など大規模なデータを大量のサーバで分散処理するためのオープンソースのソフトウェアです。Yahoo!やFacebook、日ではCookpad

    Hadoopを表計算のように使える「InfoSphere BigInsights」、IBMが発表
  • グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作

    「数兆件のデータも対話的に、高速に分析できる」。グーグルは5月19日にこのような表現で新しいサービス「BigQuery」の登場を紹介するエントリを、ブログにポストしています。 グーグルが公開したBigQueryは、Hadoopやデータウェアハウスなどを用いて多くの企業が行おうとしている大規模データ(いわゆる「Big Data」)の分析を、グーグルのクラウドで可能にします。利用者はGoogle Storage経由で大規模データを転送し、SQLライクな命令によって抽出や分析を行います。 まるでグーグルが大規模データ処理のMapReduceをホスティングし、その機能をサービスとして提供するようなものがBigQueryといえます(ただし公開された「BigQuery」の説明には、内部でMapReduceを利用しているのかどうかの記述はないのため、MapReduce「的」なサービスと表現すべきかもしれ

    グーグルによるMapReduceサービス「BigQuery」が登場。SQLライクな命令で大規模データ操作
  • 本を読む IIJのMapReduce実装「ddd」

    IIJMapReduce実装である「ddd」(Distributed Database Daemon)の話を聞いてきました。立ち話なのでごくさわりの部分だけでしたが、以下にメモしておきます。素人なので、理解が間違っていたらごめんなさい。 インターネットバックボーンのルーターの莫大なログを集計してトラフィックを解析するために開発 (emasaka注:元から散らばっているログを一箇所に集めずに集計できるので、MapReduce系に向いた用途か) GoogleMapReduce論文を参考にフルスクラッチで実装 WinnyっぽいP2P技術も採用 Key-Value Storageによる分散ハッシュテーブル Amazon Dynamo? ノードを増やせばそれだけスケールするスケーラビリティ ノードが落ちてもほかのノードにもデータがある可用性 マスターがなくすべてのノードが完全に対等なP2P構成

  • 1