マジセミドライブ
ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。
OSS情報
2020.01.01
【OSS情報アーカイブ】Apache Drill


※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。
コンテンツ
「Apache Drill」とは
基本情報
概要
Apache Drill(アパッチドリル)とは、ビッグデータに対応するスキーマフリーSQLクエリエンジンです。構造化データ/非構造化データなどのさまざまなデータソースに対して、直接SQLクエリを実行して結果を得ることができます。
基本説明
Apache Drillは、事前のスキーマ定義を必要とせずに、さまざまな種類のデータソースに対する分析機能を提供します。複数のデータストアから単一クエリ(SQL)でデータを集めることができます。
Googleが開発するクエリツール「Dremel」のオープンソース実装です。Linux/Windows/Mac上で動作します。
「クエリプラン自動再構成(オプティマイザ)機能」「実行時データ主導コンパイル/リコンパイル機能」「メモリ管理機能」なども備えています。
経緯
2012年:プロジェクト開始
2014年:バージョン1.0リリース
主な特徴
スキーマレス(Agility)
動的スキーマディスカバリをサポートしており、事前スキーマ定義は必要ありません。各種データモデルに対してフレキシブルに対応できます。
事前の準備作業が不要であるため、対象データストアから迅速にデータ集計できます。ビッグデータ活用の場面においても非常に有効です。
SQL(ANSIベース)サポート
慣れ親しんでいるSQLで、構造型データ(RDBMSなど)/非構造データ(Hadoopなど)/テキストファイル(JSON形式など)からデータをjoinできます。
対応データストア
構造化/非構造化関係なく、さまざまなデータストアに対応できます。
HBase、MongoDB、MapR-DB、Hive、HDFS、MapR-FS、Amazon S3、Azure Blob Storage、Google Cloud Storage、OpenStack Swift、NAS、JSONデータモデル、ローカルファイル(JSON形式/CSV形式)、ODBC/JDBC、Restful APIなど。
プラグイン機能を搭載しており、対応データストアを追加できます。
データ処理方法
Drillは、データソースを走査しフィルタすることを念頭に開発されています。データは走査した部分からパイプライン処理で次の処理に送られ、最短時間で最終結果が得られるように処理します。処理途中で障害が発生した場合には再実行になります。
その他ポイント
・分散クエリ対応
・分散されたサーバ上で「drillbit」というデーモンが動作
・「dillbit」の管理は「ZooKeeper」が行う
・他の実行エンジン(MapReduce/Sparkなど)には依存しない
同様製品(概要情報)
同様な機能を提供する製品として、次のようなものがあります。
オープンソース製品:「Apache Spark」「Apache Hadoop」など。
導入事例
SQLでビッグデータを処理できるクエリエンジンとして、大きな注目を集めています。
ライセンス情報
Apache Drillのライセンスは、「Apache License Version 2.0」です。このライセンスに従うことを条件として、ソースコードの改変と公開が許可されています。
ダウンロード
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
この記事のタグ一覧
フリーワード検索
カテゴリー一覧
アクセスランキング
- 🏆ランク1位🏆
【無料で使える】「 OCR 」ツールまとめ - 🏆ランク2位🏆
【無料で使える】「 ドキュメント管理 」ツールまとめ - 🏆ランク3位🏆
【ツール紹介】無料オープンソース「 ビデオ監視 ツール 」まとめ3選 - 🏆ランク4位🏆
【OSS情報】AIネイティブ埋め込みデータベース「 Chroma 」 - 🏆ランク5位🏆
【無料で使える】「 バックアップ 」ツールまとめ - 🏆ランク6位🏆
【OSS情報アーカイブ】Odoo - 🏆ランク7位🏆
【OSS情報アーカイブ】NW.js - 🏆ランク8位🏆
【無料で使える】「 プロジェクト管理 」ツールまとめ - 🏆ランク9位🏆
【ChatGPTプラグイン探訪】「 WebPilot 」〜Web検索プラグイン〜 - 🏆ランク10位🏆
【無料で使える】「 暗号化 」ツールまとめ