マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

OSS情報

2020.01.01

【OSS情報アーカイブ】Apache Drill

【OSS情報アーカイブ】Apache Drill

※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。

「Apache Drill」とは

基本情報

概要

Apache Drill(アパッチドリル)とは、ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。

基本説明

Apache Drillは、事前のスキーマ定義を必要とせずに、さまざまな種類のデータソースに対する分析機能を提供します。複数のデータストアから単一クエリ(SQL)でデータを集めることができます。

Googleが開発するクエリツール「Dremel」のオープンソース実装です。Linux/Windows/Mac上で動作します。

「クエリプラン自動再構成(オプティマイザ)機能」「実行時データ主導コンパイル/リコンパイル機能」「メモリ管理機能」なども備えています。

経緯

2012年:プロジェクト開始
2014年:バージョン1.0リリース

主な特徴

スキーマレス(Agility)

動的スキーマディスカバリをサポートしており、事前スキーマ定義は必要ありません。各種データモデルに対してフレキシブルに対応できます。

事前の準備作業が不要であるため、対象データストアから迅速にデータ集計できます。ビッグデータ活用の場面においても非常に有効です。

SQL(ANSIベース)サポート

慣れ親しんでいるSQLで、構造型データ(RDBMSなど)/非構造データ(Hadoopなど)/テキストファイル(JSON形式など)からデータをjoinできます。

対応データストア

構造化/非構造化関係なく、さまざまなデータストアに対応できます。

HBase、MongoDB、MapR-DB、Hive、HDFS、MapR-FS、Amazon S3、Azure Blob Storage、Google Cloud Storage、OpenStack Swift、NAS、JSONデータモデル、ローカルファイル(JSON形式/CSV形式)、ODBC/JDBC、Restful APIなど。

プラグイン機能を搭載しており、対応データストアを追加できます。

データ処理方法

Drillは、データソースを走査しフィルタすることを念頭に開発されています。データは走査した部分からパイプライン処理で次の処理に送られ、最短時間で最終結果が得られるように処理します。処理途中で障害が発生した場合には再実行になります。

その他ポイント

・分散クエリ対応

・分散されたサーバ上で「drillbit」というデーモンが動作

・「dillbit」の管理は「ZooKeeper」が行う

・他の実行エンジン(MapReduce/Sparkなど)には依存しない

同様製品(概要情報)

同様な機能を提供する製品として、次のようなものがあります。

オープンソース製品:「Apache Spark」「Apache Hadoop」など。

導入事例

SQLでビッグデータを処理できるクエリエンジンとして、大きな注目を集めています。

ライセンス情報

Apache Drillのライセンスは、「Apache License Version 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。

ダウンロード

ダウンロードページ

※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。

この記事のタグ一覧

おすすめの記事

【デジタル寺田の3分用語解説】「 ESG経営 」とは?🌱

デジタル寺田の3分用語解説

2024.10.21

【デジタル寺田の3分用語解説】「 ESG経営 」とは?🌱

「 ESG経営 」とは、環境・社会・ガバナンスに配慮し、持続可能な成長を目指す経営スタイルです。企業価値の向上だけでなく、ブランドイメージの強化、優秀な人材の確保、経営リスクの軽減など多くのメリットがあります。

【デジタル寺田の3分用語解説】「 マルチモーダルAI 」とは?🤖

デジタル寺田の3分用語解説

2024.10.21

【デジタル寺田の3分用語解説】「 マルチモーダルAI 」とは?🤖

「 マルチモーダルAI 」とは、テキストや画像、音声など様々なデータを統合して処理する技術です。AIの進化により、自動運転や医療、チャットボットなど多くの場面で活用されています。課題解決が今後の発展の鍵です。

【デジタル寺田の3分用語解説】「 3PL 」とは?🚚

デジタル寺田の3分用語解説

2024.10.21

【デジタル寺田の3分用語解説】「 3PL 」とは?🚚

「 3PL 」とは、自社の物流業務を外部の専門企業に委託し、コスト削減や生産性向上を図る手法です。特に人手不足や労働問題が深刻な現代では、3PL の導入が重要であり、物流業務の効率化や法令遵守にも役立ちます。専門知識を活用することで、企業は物流に関わる負担を軽減し、本業に集中できるようになります。