TOP /  ビッグデータ/BI /  大規模データ・インテグレーション事例とETLツール比較

大規模データ・インテグレーション事例とETLツール比較 | ビッグデータ/BI

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該イベントの主催・共催・協賛・講演企業とも共有させていただき、 当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

メールアドレス


法人様向けの資料のため、フリーアドレスをご利用の場合は、会社名、お名前を入力してください。
会社名
お名前

大規模データ・インテグレーション事例とETLツール比較  (株式会社KSKアナリティクス 高木宏明)

本セッションでは、データ活用の課題とデータ・インテグレーションの重要性、ETLツールの概要と主要ETLツールの比較、大手製造業における超大規模データのデータ・インテグレーション事例、についてご紹介します。

講演資料を見るには、 プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

またご入力いただきました情報は、当該イベントの主催・共催・協賛・講演企業とも共有させていただき、 当社及び各社のサービス、製品、セミナー、イベントなどのご案内に使用させていただきます。

本資料を見るには次の画面でアンケートに回答していただく必要があります。

メールアドレス


法人様向けの資料のため、フリーアドレスをご利用の場合は、会社名、お名前を入力してください。
会社名
お名前

セミナー全体の評価と、参加者からのコメント

参加者によるこのセミナーの評価は、
3.9 でした!(5点満点中)
セミナー名 大規模データ・インテグレーション事例とETLツール比較
講演企業 株式会社KSKアナリティクス
開催日 2017年09月08日
企業に対してITを提供する企業(ベンダー、SIerなど) 40代 男性 の参加者
OSSでの比較、商用ベースでの比較(機能・費用など) Pentahoを選ぶべき理由(強み)をもっと知りたかったです。
匿名の参加者
コメントなし
匿名の参加者
少し理解できました。
その他のIT関連業 30代 男性 の参加者
製品系に特化した話ではあったが、もう少し上流の情報が欲しかった。
企業に対してITを提供する企業(ベンダー、SIerなど) 30代 男性 の参加者
コメントなし
企業に対してITを提供する企業(ベンダー、SIerなど) 20代 男性 の参加者
コメントなし
匿名の参加者
ETLについて、よく理解できたので良かった。 しくみ、適用分野など
その他のサービス業 30代 男性 の参加者
コメントなし
企業に対してITを提供する企業(ベンダー、SIerなど) 50代 男性 の参加者
コメントなし
企業に対してITを提供する企業(ベンダー、SIerなど) 40代 男性 の参加者
コメントなし
企業に対してITを提供する企業(ベンダー、SIerなど) 60代以上 男性 の参加者
テーマである「ETLツール比較」に対して、Pentahoの機能紹介が中心のないようで残念でした。 より客観的な比較解説を期待していました。
匿名の参加者
基本的なことから実態まで幅広くわかりやすかった。
企業に対してITを提供する企業(ベンダー、SIerなど) 40代 男性 の参加者
ETLツールと機械学習との関連性がよくわからなかったが、それ以外についてはとても理解が深まりました。
企業に対してITを提供する企業(ベンダー、SIerなど) 30代 女性 の参加者
ETLの比較、得意分野や選択基準が少し分かってよかった。
企業に対してITを提供する企業(ベンダー、SIerなど) 30代 男性 の参加者
コメントなし
消費者に対してITを提供する企業(Webサービス、ゲームなど) 30代 男性 の参加者
コメントなし
企業に対してITを提供する企業(ベンダー、SIerなど) 30代 男性 の参加者
Pentahoの良さがよくわかりました。 他のOSSのETL(Talend)との比較は私も知りたかったです。
匿名の参加者
PentahoをETL導入に対して押す部分が少ないか OSSツール

マジセミ セミナー
「大規模データ・インテグレーション事例とETLツール比較」
株式会社KSKアナリティクス
2017年9月8日
セールス&マーケティング本部 部長
データソリューションプランナー 高木宏明
Data Analysis for Everyone !
誰もが当たり前にデータを分析・活用できる社会
分析コンサルティング
BI・BAソフトウェア
分析基盤・大規模DB構築
2
3
“データ分析”ソフトウェアを多数取り扱い
• 自社分析プラットフォーム 2017年開発中 • Jedox (BI – 管理会計) 2012年~
• TensorFlow (Google AI) 2016年~ • RapidMiner (AI – 機械学習) 2011年~
• Pentaho (BI – BigData) 2007年~
• NYSOL (高速データ処理) 2014年~
• Cloudera (Hadoop) 2014年~
KSKアナリティクス
4
メンバー紹介
メンバー約30名、少数精鋭の多彩なタレント集団
東京・大阪に拠点あり、各国のオープンソースを日本語サポート
代表取締役
森本 好映
シニアデータアナリス

英ブラッドフォード大(MBA)、 北島 聡
中小企業診断士、Pentaho
RapidMiner認定アナリスト、
認定BIコンサルタント、
EMC認定データサイエン
RapidMinerアナリスト
ティスト(EMCDSA)、ス
クラムマスター(アジャイ
ル開発)、MBA、統計士
社内資格累計
・BI・BAソフト認定資格
8名
・DB・機械学習エンジニア 10名
(TensorFlow ・ Hadoop ・Spark etc)
シニアコンサルタント 外部分析アドバイザー
Pentaho認定BIコンサルタ 関西学院大学経営戦略研究科
ント、オープンソースを活 准教授
用したBI/BAシステムや
データ基盤の設計、構築の
経験豊富
久保田 道之
羽室 行信
OR学会事例研究賞(2005, 2008,
2015)、データ解析コンペティ
ション最優秀賞(2006, 2013)など
受賞多数。大規模データ分析基盤
NYSOLの開発リーダー。著書
『データマイニングとその応用』
・語学(TOEIC900over) 5名
・MBA
4名
5
ETLツールが出てきた背景
“データ分析を取り巻く環境変化”
Copyright © KSK Analytics Inc. All rights reserved
6
Copyright © KSK Analytics Inc. All rights reserved
分析テーマは全社横断
利益UPの
分析テーマ例
店舗販売増
売上増
Web販売増
既存事業
の利益増
調達コスト減
製造コスト減
全社
利益増
コスト減
人件費減
販管費減
資本コスト減
新規事業
・購買データのレポーティングビジネス
・顧客動向に基づく株式運用
・関連ビジネス、周辺店舗への送客支援
・顧客属性クラスタリング
・時間帯別・年代別クロス集計・併売分析
・Beaconによる店舗内動線分析
・商圏分析、周辺地域流出入
・DAU増・コンバージョン率増
・リテンション率増
・仕入れ窓口集約化
・季節変動予測、一括購買
・サプライチェーン最適化
・ボトルネック検出、アイドルタイム減
・設備異常検知、故障予測
・開発・製造リードタイム短縮化
・在庫最適化による長期在庫減
・人財ハイパフォーマー分析
・ターゲット絞り込みによる採用コスト減
・間接処理自動化による間接人員削減
・TV CM広告効果測定・ブランド価値測定
・非稼動設備・ソフトウェアの売却/解約
・CCCレート改善
・与信精度向上による貸倒金の削減
様々なデータが必要になる
レガシーデータ
NEWデータ
頻発する “データのカオス”問題
データの ・社内基幹システム
保管場所 ・工場生産システム
・クラウドサービス
・外部サイト etc
テーブル/ ・行/列の対応
集計・加工 ・JOIN処理
・ピボット集計
・条件フィルタリング
・複雑なif処理 etc
DB/ファイル
形式
表記ゆれ/
言語
・Oracle ・MySQL ・SAP
・Sybase ・MongoDB
・Access ・Excel ・CSV
・SAS ・XML ・JSON
・hadoop
etc
・(株) or 株式会社
・単位 ¥ or 円 / k,M,T
・日本語 or 英語or中国語
・製品名など略称
・エラーや欠損がある etc
カオスにどちらで立ち向かうのか?
スクラッチ
(手作業でコードを書く)
専門ツールを使う!
(ETLツール)
カオスにどちらで立ち向かうのか?
スクラッチ
デメリット
専門ツール
メリット
・ありとあらゆる仕様の”調査コスト”
・コード作成コスト(新規・変更時) ⇒ ベンダ発注?
・複雑な条件分岐における”処理ミス”
・大規模データ取扱・バッチ処理の”難易度が高い”
・”セキュリティ対応”ができない
・接続DBなどは”プルダウン“で選択
・圧倒的なプロセス定義の”速さ“と”ミス減“
(GUIで箱と線をつないで処理プロセスを定義)
・大規模データ対応・バッチ処理の設定も簡単
・ユーザ毎の細かい”セキュリティ設定”も可能
Pentahoデータ統合
(ETLツール)製品紹介
What’s ETL?
(抽出)
(加工・変換)
(書き込み)
「処理プロセス全体例」
Pentahoご紹介
❯世界で最も人気があるソフトウェア
2005年設立:オープンソースBIのパイオニア
500万ダウンロード(平均10万ダウンロード/月)
❯多くの実績
2,000社以上の商用ユーザー、15,000以上のデプロイメント、185か国
日本でも100社以上の商用導入
❯ビッグデータへの素早い取組み
2008年からHadoopに対応、Hive JDBCドライバーをASFに提供
従来のETLを超える高機能なビッグデータ統合機能
"ビッグデータ"ならPentaho
世界中で採用されているPentaho
Pentahoデータ統合・画面イメージ
デザイン・ビュー
カテゴリごとの処理一覧
キャンバス
プロパティ
各処理の詳細設定
データ処理定義の作成
ログ
動作詳細
Pentahoデータ統合の特徴_1
データ
加工機能
ドラッグ&
ドロップ
複雑な処理をGUIで定義可能
(SQLやRなどのコードを組むことも可能)
プロパティ
Pentahoデータ統合の特徴_2
様々なデータ
ソースに対応
主要なDB・ファイル形式以外にも多くの
非構造化データ、ビッグデータに標準対応
分析言語
と連携
R、Python、SQL、Sparkなど
各種プログラミング言語と連携可能
(コードと連携可能)
サポート機能
”アラート”、”モニタリング”、”タスク管
理”などのサポート機能
AD連携したユーザアクセス制御や暗号化
通信などセキュリティ機能あり
21
導入事例
Copyright © KSK Analytics Inc. All rights reserved
大手製造業様 故障予測・予防保全
稼働データ
DWH
故障予測モデル
各種センサーデータ
予測レポート
故障予測を行うためには形式がバラバラな
"センサーデータ"+"稼働ログデータ"を統合する必要ありPentahoを導入
大手小売業様 顧客情報360°ビュー
『Pentaho導入の狙い』
・必要なデータを統合して、お客様フ
ロント社員が顧客情報を一元化
・営業部門がもつ顧客情報とCCの
問合せ情報とを組み合わせて、
顧客満足度の向上、アップセル・
クロスセルによる売上向上
Webマーケティング 超大規模データ対応(Hadoop)
25
ETLツール比較
(BIツール比較)
Copyright © KSK Analytics Inc. All rights reserved
BIツールとは?
ビジネスインテリジェンス(英: Business Intelligence、BI)は、経営・会計・情報処理
などの用語で、企業などの組織のデータを、収集・蓄積・分析・報告することで、経営
上などの意思決定に役立てる手法や技術のこと(Wikipediaより抜粋)
ETL
(データ統合)
レポート・グラフ
・ダッシュボード
(データ可視化)
比較ポイント
❯多様なデータアクセス・データ形式に対応?
(各種データベース・クラウドサービス・hadoop etc)
❯大規模データを取り扱い可能?
❯多言語対応が必要か?
ETLツール比較
製品A
接続コネクタ
製品D
製品W
Pentaho
◎ ◯ ◯ ◎
△ ◯ △ ◎
大規模データに対応 ◯ ◯ △ ◎
◯ ◯ ◯ ◎
◎ ◯ ◯ ◎
多言語対応 ◯ ◯ △ ◎
プラグイン・独自開発
クラウド対応
データ変換・加工機能
新製品・新テクノロジーへの対応が早い
(対応例)並列分散処理Hadoop,Spark
Node
Node
Node
Node
Node
Node
Node
Node
Node
Node
HDFS Sqoop Pig Oozie YARN
MapReduce Hive Impala HBase
Flume Spark
Node
Node
(トレーニングコースも本年より開催)
30
Pentahoサポート・導入支援
インフォメーション
Copyright © KSK Analytics Inc. All rights reserved
Pentaho支援サービス
トレーニングサービス プロフェッショナルサービス コンシェルジュサービス
集合研修または講師派 Pentaho活用ため導入コンサ ご要望に沿ったオーダー
遣型でPentaho教育プ ルティングサービス メイドの支援を提供
ログラム
(新機能カスタマイズetc)
32
KSKアナリティクス 企業サイト
Pentaho日本語サイト
・主要なOSS分析ツール紹介 ・体験版ダウンロード
・セミナー・イベント情報 ・Pentahoブログ
www.ksk-anl.com
www.pentaho-partner.jp
製品に関するお問い合わせは、下記までお気軽にご連絡ください。
株式会社 KSKアナリティクス セールス&マーケティング本部
www.ksk-anl.com sales@ksk-anl.com
東京 03-6228-4932
大阪 06-6131-6656
Copyright © KSK Analytics Inc. All rights reserved
操作デモ
課題_1
目的:2005年Q2(四半期)の注文データを抽出する
『作業内容』
-社内DB(H2)に接続
-2005年第二四半期の発送済み注文データを抽出
-出力する項目は注文番号 / 製品コード/金額/顧客番号/注文日付を選択
-指定フォルダにファイル名「2005-qtr2.xlsx」で保存
処理の流れ
顧客名 国名 営業担当 顧客名 国名 営業担当 顧客名 国名 営業担当
NanoSoft Usa John NanoSoft Usa John Guggi France Tony
海山商事 Japan Yamada 海山商事 Japan Yamada Fauui Italy Rico
有限公司 China Fauui Italy Rico 海山商事 Japan Yamada
Fauui Italy Rico Guggi France Tony NanoSoft Usa John
Guggi France Tony
MySQLから顧客情報
を取得
営業担当が空白のデータ
を除外
国名で並び替えてExcel
で出力
36
課題_2
目的:複数の売上ファイルを条件付きで集計
『作業内容』
-複数フォルダから指定ファイルのみ集計
-製品のマスタ、コード、製品名を結び付け
-出力ファイル名に今日の日付を追加
-売れている商品順に並び替え
-CSVファイルで出力する
処理の流れ
商品マスタ
商品コード 商品名 単価
11111 缶コーヒー 100
22222 緑茶 200
33333 天然水 300
44444 烏龍茶 400
販売マスタ
販売コード 数量
11111 11111 10
22222 22222 20
33333 33333 30
11111 44444 40
単価 数量
缶コーヒー 商品コード 商品名 100 10
緑茶 200 20
天然水 300 30
缶コーヒー 100 40
2つのCSVファイルから「商品名」と「単価」
と「数量」を組み合わせる
処理の流れ
商品名 単価 数量 商品名 売上合計 商品名 売上合計
缶コーヒー 100 10 缶コーヒー 5000 天然水 9000
缶コーヒー 100 40 緑茶 4000 缶コーヒー 5000
緑茶 200 20 天然水 9000 緑茶 4000
天然水 300 30
商品名ごとに並び替え
売上合計の計算と売上金額
の高い順で並び替え
CSVファイル出力
補足_工場における稼働不良の可視化
工場の製造機械からログデータ取り込み、稼働不良が発生した件数を集計する。
稼働不良の可視化 BIツール画面イメージ
・不良発生数をグラフ化し、3週目の件数増大と4週目の改善効果がわかる。
補足_スマートフォンの利用ログ分析
・スマートフォンのログを集計し、アプリ利用や位置情報を分析する。
スマートフォン利用分析_BIツールイメージ1
・アプリ利用履歴を集計し、ユーザーとアプリ利用状況にまとめている。
スマートフォン利用分析_BIツールイメージ2
・スマートフォンのGPS情報を住所に変換し、国別の利用状況を可視化する。

他のカテゴリから探す

IT業界の改革にご協力いただけませんか?

本サイトは、株式会社オープンソース活用研究所がプロデュースする、中小IT企業による”本気”の情報提供セミナー「マジセミ」の結果レポートページです。「マジセミ」は、次を目的として活動しています。

我々はITエンジニアが、今よりももっと「誇り」と「喜び」をもって仕事をし、今よりももっと企業や社会に貢献できる、そんなIT業界を創りたいと考えています。

そのためには、技術をもった中小のIT企業がもっと元気になる必要がある。その為には、技術をもった中小のIT企業を、もっと皆様に知って頂く必要がある、と考えました。

株式会社オープンソース活用研究所
代表取締役所長 寺田雄一

本当かウソか、あなたが見極めてください。

もし、我々のこの活動にご賛同していただけるのであれば、ぜひ下のセミナーに参加してください。

「なんだ、結局ただの売り込みセミナーじゃないか」

もしそう感じたら、アンケートなり、あなたのFacebookなりに、そのままお書き頂き、拡散して頂いて構いません。

参加者からのお褒めの言葉、お叱りの言葉が、我々中小IT企業を成長させ、それが日本のIT業界を変えていくのだと、強く確信しています。

あなたの行動が、日本のIT業界を変えるのです。

日程を確認していただき、ご興味のあるセミナータイトルをクリックしてください。

「マジセミ」のFacebookページ

今後のセミナー情報などを提供させていただきたますので、「マジセミ」のFacebookページに「いいね!」をお願いします。

日本のIT業界を変えるためのアクション、ありがとうございました!