[B! apache-hive] nabinnoのブックマーク

nabinno id:nabinno

apache-hiveに関するnabinnoのブックマーク (34)

特徴 - Amazon EMR | AWS
Amazon EMR は、ビッグデータ環境とアプリケーションの構築および運用を簡略化します。EMR の関連機能には、手軽なプロビジョニング、マネージド型スケーリング、クラスターの再設定、共同開発用の EMR Studio などがあります。
nabinno 2024/04/23
amazon-emr

apache-hadoop

apache-spark

apache-hive
リンク
Apache Hive メタストアを Amazon EMR に移行してデプロイする | Amazon Web Services
Amazon Web Services ブログ Apache Hive メタストアを Amazon EMR に移行してデプロイする Amazon EMR の速さと柔軟性を、Apache Hive の有用性とユビキタス性と組み合わせることで、両方の長所が得られます。ただし、ビッグデータプロジェクトを始めるのは容易なことではありません。EMR に新しいデータをデプロイする場合でも、既存のプロジェクトを移行する場合でも、この記事では開始するための基本を説明します。 Apache Hive は、Apache Hadoop クラスターで動作するオープンソースのデータウェアハウスおよび分析パッケージです。Hive メタストアには、パーティション名やデータ型など、テーブルとその基礎となるデータの説明が含まれています。Hive は、EMR で実行できるアプリケーションの 1 つです。この記事が提示す
nabinno 2024/04/18
tanzir-musabbir

apache-hive

amazon-emr

data-migration

aws-glue-data-catalog

aws-glue
リンク
外部の MySQL データベースまたは Amazon Aurora の使用 - Amazon EMR
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。外部の MySQL データベースまたは Amazon Aurora の使用外部の MySQL データベースまたは Amazon Aurora を Hive メタストアとして使用するには、Hive のメタストアのデフォルトの設定値を上書きして、Amazon RDS MySQL インスタンスまたは Amazon Aurora P のいずれかで外部データベースの場所を指定しますostgreSQLinstance。
nabinno 2024/04/08
amazon-emr

amazon-aurora

apache-hive

hive-metastore
リンク
Apache Hive - Amazon EMR
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。 Apache Hive Hive はオープンソースのデータウェアハウス兼分析パッケージで、Hadoop クラスター上で動作します。Hive スクリプトは、プログラミングモデルを抽象化し、一般的なデータウェアハウスとのやり取りをサポートする Hive QL (クエリ言語) と呼ばれる SQLのような言語を使用します。Hive を使用すると、有向非巡回グラフ (DAGs) や Java などの下位レベルのコンピュータ言語の MapReduce プログラムに基づいて Tez ジョブを記述する複雑さを回避できます。 Hive は、シリアル化形式を含めることでSQLパラダイムを拡張します。また、データ自体は操作せずにデータと一致するテーブルスキーマを作成することで、クエリ処理
nabinno 2024/04/08
amazon-emr

apache-hive
リンク
【トラブル】【Hive】Hive / Partition に関するトラブルシューティング - プログラムの超個人的なメモ
■ はじめに https://dk521123.hatena blog.com/entry/2020/05/27/175610 などで、でてきたトラブルを纏める目次【１】エラー「Column repeated in partitioning columns」が発生する【２】エラー「Need to specify partition columns」が表示 ※ その他のHiveに関するトラブルシュートは、以下の関連記事を参照のこと。 Hive に関するトラブルシューティング https://dk521123.hatena blog.com/entry/2020/11/20/174039 【１】エラー「Column repeated in partitioning columns」が発生するエラー内容 FAILED:SemanticException [Error 10035]: Colu
nabinno 2023/08/08
apache-hive

partitioning

trouble
リンク
データのパーティション化 - Amazon Athena
データをパーティションすることで、各クエリによってスキャンされるデータの量を制限できるようになるため、パフォーマンスが向上し、コストが削減されます。任意のキーでデータをパーティションに分割することができます。一般的な方法では、時間に基づいてデータをパーティションします。これにより、通常、複数レベルのパーティション構成となります。たとえば、1 時間ごとに配信されるデータを年、月、日、時間でパーティションできます。別の例として、データが配信されるソースが多数に分かれているものの、それらのロードは 1 日 1 回だけ行われる場合には、データソースと日付によるパーティションを行います。 Athena では Apache Hive スタイルのパーティションを使用できます。このパーティションのデータパスには、等号で連結されたキーと値のペア (例えば country=us/... または year=20
nabinno 2021/04/06
amazon-athena

partition

apache-hive

database-tuning
リンク
Hadoop＋Hive検証環境を構築してみる
Hadoop＋Hive検証環境を構築してみる：Hive――RDB使いのためのHadoopガイド（前編）（1/3 ページ） Hadoop HiveはHadoop上でSQLライクなクエリ操作が可能なDWH向けのプロダクトです。SQLに近い操作が可能なため、HBaseよりもデータベースに慣れ親しんだみなさんには使い勝手がいいかもしれません。本稿ではこのHiveの使い方とレビューを行っていきます。
nabinno 2020/12/21
atmarkit

apache-hadoop

apache-hive

mapreduce

extract-transform-load

data-warehouse
リンク
Apache Hive 紹介
2014年1月23日のあしたのオープンソース研で使用したApache Hive説明資料です。Read less
nabinno 2020/12/21
slideshare

apache-hive

mapreduce

distributed-system

concurrent-computing
リンク
Amazon Athena のパフォーマンスチューニング Tips トップ 10 | Amazon Web Services
Amazon Web Services ブログ Amazon Athena のパフォーマンスチューニング Tips トップ 10 2024 年 2 月に更新された原文を日本語版として 9 月に反映しました：この記事は、コストベースの最適化とクエリ結果の再利用を含む Amazon Athena エンジンバージョン 3 の変更を反映するために確認および更新されました。 Amazon Athena は、オープンソースのフレームワークに基づいた対話型分析サービスで、標準の SQL を使って Amazon Simple Storage Service (Amazon S3) に格納されたオープンテーブルおよびファイル形式のデータを簡単に分析できます。Athena はサーバーレスなので、インフラストラクチャの管理は不要で、実行したクエリに対してのみ料金を支払います。Athena は使いやすく、Ama
nabinno 2020/05/01
amazon-athena

apache-hive

partition

database-tuning
リンク
[レポート] (ANT307) Athena deep dive #reinvent2019 | DevelopersIO
こんにちは！DA事業本部の石川です！本記事はAWS re:Invent 2019のセッション「(ANT307) Athena deep dive」のレポートです。Amazon Athenaの最新機能の紹介になります。セッション概要 Amazon Athena is an interactive query service that makes it easy to analyze data in Amazon S3 using standard SQL. Athena is serverless, so there is no infrastructure to manage, and you pay only for the queries that you run. Learn how customers are using Athena to query their data l
nabinno 2020/05/01
classmethod

amazon-athena

apache-hive
リンク
Black Beltオンラインセミナー「Amazon Athena」レポート | DevelopersIO
こんにちは、虎塚です。 2017年3月1日(水)のBlack Beltオンラインセミナーを受講したので、レポートします。今回のテーマは、Amazon Athenaです。講師は、アマゾンウェブサービスジャパン株式会社のソリューションアーキテクト、志村誠さんでした。 Amazon Athena概要 Amazon Athenaは、一言でいうと、S3上のデータに標準SQLでインタラクティブなクエリを投げて、データ分析ができるサービス。 2016年11月に開催されたre:Invent 2016で発表された。現時点では、バージニア北部、オレゴン、オハイオリージョンで利用できる。 Amazon Athena – Amazon S3上のデータに対話的にSQLクエリを | Amazon Web Services ブログ内部では、分散クエリエンジンのPrestoと、Hive Metastore互換のデータ
nabinno 2020/05/01
classmethod

amazon-athena

presto

apache-hive
リンク
Partitioning data in Athena - Amazon Athena
By partitioning your data, you can restrict the amount of data scanned by each query, thus improving performance and reducing cost. You can partition your data by any key. A common practice is to partition the data based on time, often leading to a multi-level partitioning scheme. For example, a customer who has data coming in every hour might decide to partition by year, month, date, and hour. An
nabinno 2020/05/01
amazon-athena

presto

apache-hive

partition

database
リンク
Amazon Athena のデータ型 - Amazon Athena
CREATE TABLE を実行するときは、列名と、各列に含めることができるデータ型を指定します。作成するテーブルは、AWS Glue Data Catalog に保存されます。他のクエリエンジンとの相互運用性を促進するため、Athena は CREATE TABLE などの DDL ステートメントに Apache Hive データ型名を使用します。SELECT、CTAS、および INSERT INTO などの DML クエリの場合、Athena は Trino データ型名を使用します。以下の表は、Athena でサポートされるデータ型を示しています。DDL 型と DML 型が名前、可用性、構文といった点で異なる場合は、個別の列に表示されます。
nabinno 2020/05/01
amazon-athena

database

type-system

type-theory

data-structure

apache-hive
リンク
GitHub - forward3d/rbhive: Ruby gem for querying Apache Hive
You signed in with another tab or window. Reload to refresh your session. You signed out in another tab or window. Reload to refresh your session. You switched accounts on another tab or window. Reload to refresh your session. Dismiss alert
nabinno 2020/02/20
github

rbhive

apache-hive

ruby
リンク
RegexSerDe (Hive 2.2.0 API)
nabinno 2019/12/28
apache-hive

apache-hadoop

hive

hive.serde2

hive.serde2.regexserde

regular-expression
リンク
LanguageManual DDL - Apache Hive - Apache Software Foundation
OverviewHiveQL DDL statements are documented here, including: CREATE DATABASE/SCHEMA, TABLE, VIEW, FUNCTION, INDEXDROP DATABASE/SCHEMA, TABLE, VIEW, INDEXTRUNCATE TABLEALTER DATABASE/SCHEMA, TABLE, VIEWMSCK REPAIR TABLE (or ALTER TABLE RECOVER PARTITIONS)SHOW DATABASES/SCHEMAS, TABLES, TBLPROPERTIES, VIEWS, PARTITIONS, FUNCTIONS, INDEX[ES], COLUMNS, CREATE TABLEDESCRIBE DATABASE/SCHEMA, table_name
nabinno 2019/12/28
apache-hive

reserved-word

hive.support.sql11

hive.support.sql11.reserved.keyw
リンク
Tutorial: Getting started with Amazon EMR - Amazon EMR
Walk through a workflow to quickly set up an Amazon EMR cluster and run a Spark application. Setting up your Amazon EMR cluster With Amazon EMR you can set up a cluster to process and analyze data with big data frameworks in just a few minutes. This tutorial shows you how to launch a sample cluster using Spark, and how to run a simple PySpark script stored in an Amazon S3 bucket. It covers essenti
nabinno 2019/12/28
amazon-emr

apache-hadoop

apache-hive

e-learning
リンク
MapJoin: a simple way to speed up your Hive queries - Gregory Trubetskoy
Map join is a little-known feature of Hive. It allows a table to be loaded into memory so that a (very fast) join could be performed entirely within a mapper without having to use a Map/Reduce step. If your queries frequently rely on small table joins (e.g. cities or countries, etc.) you might see a very substantial speed-up from using map joins. There are two ways to enable it. First is by using a
nabinno 2019/12/27
gregory-trubetskoy

apache-hive

mapjoin

hive.mapjoin.smalltable.filesize

hive.mapjoin
リンク
apache spark - DataFrame join optimization - Stack Overflow
Ask questions, find answers and collaborate at work with Stack Overflow for Teams. Explore Teams Collectives™ on Stack Overflow Find centralized, trusted content and collaborate around the techno logies you use most. Learn more about Collectives
nabinno 2019/12/27
stack-overflow

apache-spark

apache-hive

join

broadcast

broadcast-hash-join

map-join

mapjoin
リンク
What is the difference between Apache Hive and Apache Spark?
nabinno 2019/12/27
quora

apache-hive

apache-spark

distributed-computing

functional-comparison
リンク
1 2 次のページ

お知らせ

もっと読む

公式Twitter

@HatenaBookmark
リリース、障害情報などのサービスのお知らせ
@hatebu
最新の人気エントリーの配信

キーボードショートカット一覧

j次のブックマーク

k前のブックマーク

lあとで読む

eコメント一覧を開く

oページを開く

設定を変更しましたx