TOP /  ビッグデータ/BI /  【無料】オープンソースによるテキスト分析ハンズオンセミナー

【無料】オープンソースによるテキスト分析ハンズオンセミナー | ビッグデータ/BI

講演資料を見るには、プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

メールアドレス


法人様向けの資料のため、フリーアドレスをご利用の場合は、会社名、お名前を入力してください。
会社名
お名前

オープンソースによる テキスト分析ハンズオンセミナー 株式会社KSKアナリティクス データアナリスト足立 悠 本日のアジェンダ  はじめに  テキストマイニングとは  ハンズオン  次のステップへ向けてはじめに KSKアナリティクスとは 株式会社KSKアナリティクス(KSK Analytics, Inc.) 「データ」を価値ある「情報」へ。 “先進的なオープンソースで、お客様のビジネスの成功を支援します。” 事業概要 1.アナリティクス・ソフトウェア事業: オープンソースを中心としたデータ分析・活用ソフトウェアの販売、サポート等の提供 BI DWH プランニング データマイニング 分析基盤 2.アナリティクス・サービス事業: Hadoopやアナリティクスツールなど複数のオープンソースを組合せた分析サービスの提供 データサイエンス オープンソース アジャイル型 ビッグデータ分析基盤 データ分析サービス チーム育成支援 構築サービス 分析トレーニング サービス サービス KSK Analytics, Inc 世界標準のOSSを日本へ導入 日本発のOSSを世界へ展開 オープンソースBI/BAを専門とする 日本で『 唯一 』のベンダー 講師紹介 足立 悠 技術本部 プロフェッショナルサービスG データアナリスト テキストマイニングに関する案件を中心に手掛ける 大学院博士課程にてソーシャルネットワーク分析の研究に従事 略歴: 大手電機メーカー、事業会社を経てKSKアナリティクスへ入社。社内のデータ活用推 進者として、マーケティング戦略、業務改善に関するデータ分析業務に携わる。特に、 テキストマイニング、オープンデータの活用、GISによる可視化を得意とする。また、 最近は、IoT分野のデータ活用に取り組み始める。 経験プロジェクト: ・大手化粧品メーカー 大規模口コミデータのテキストマイニングによる製品開発支援 ・大手メーカー SNSデータ分析、GIS可視化による新規開拓支援 ・大手オフィス用品メーカー 顧客クレーム分析による生産管理改善支援 ・大手消費財メーカー 営業フェーズ、日報分析による営業活動効率化支援 KSK Analytics, Inc 本セミナーで目指すもの  本セミナーのねらい 実際の分析業務で役立つノウハウを知ってい ただく。 オープンソースを使えば、手軽に、簡単に分 析できることをご体験いただく。 ※トレーニング環境をプレゼント!無料で継続利用できます!!テキストマイニングとは どんな技術? 通常の文章からなるデータを単語や文節で区切り、 それらの出現の頻度や共出現の相関、出現傾向、時系列など を解析することで 有用な情報を取り出す、テキストデータの分析方法である。 (Wikipediaより) 考察 単語 頻度 今日は晴れです。 今日 1 は 1 晴れ 1 今日|は|晴れ|です|。 本日のハンズオン KSK Analytics, Inc 対象データ  通常の文章からなるデータ コールセンターのログ アンケートの自由記述 営業日報 ウェブサイトのクチコミ FacebookやTwitterなどSNSの投稿 掲示板 今日は晴れです。 ・・・など 形態素解析  単語や文節で区切り(=形態素解析) 文法ルールや辞書(品詞等の情報付き単語リスト) を情報源として用い、文を形態素(言語で意味を持 つ最小単位)の列に分割し、それぞれの品詞を判別 する作業を指す。 (Wikipediaより) 形態素解析ソフトを用いて実行。  JUMAN,Chasen,MeCab,・・・, 「 今日は晴れです。 」 を JUMANで実→ 分析  出現の頻度や共出現の相関...  テキストマイニングの主な手法  視覚化  重要語句の抽出と関連指標  特徴分析  グループ分け  自動分類 単語 頻度  時系列分析 今日 1 は 1 晴れ 1 KSK Analytics, Inc 何に使える?  マーケティング 製品の開発支援 潜在顧客の抽出  業務改善 顧客クレームの要因抽出 営業マネジメント最適化 ・・・などハンズオン 分析ストーリー あなたは、製品AとBに関するアンケートの コメント(自由記述)データを渡され、評 判の違いを分析して報告するように言われ ました。しかし、テキストデータの分析経 験がなく、何から手を付けてよいかわかり ません・・・ ハンズオン Part1 あなたはまず、 製品AとBそれぞれのコメントに含まれる 単語とその出現回数を調べることにしました。 どのツールを使うかな... R?もしくはSQL書く? 準備1 Windows or Mac 上の仮想マシンとして CentOSを動かします。 CentOS仮想マシン ( oss32.ova ) Windows or Macマシン 準備1 仮想マシンのインポート手順 [仮想アプライアンスのインポート] をクリック 設定を何も変更せず、 [インポート] をクリック フォルダアイコンをクリックし、 「oss32.ova」を選択 KSK Analytics, Inc 準備1 仮想マシンの起動 [起動(T)] をクリック 起動完了! パスワード:training でログイン ※rootのパスワードも同じ KSK Analytics, Inc 準備2 ossのホーム – TMTraining – text フォルダへ移動 準備2 2ファイルを開いて中身を確認 製品B (= b.csv) 製品A (= a.csv) 注意1) 1行1ユーザーのコメント 注意2) 横浜市/大阪市の市民の声(教育)を利用 準備3 準備3 パズルに似た新しい知的感覚 NYSOLはコマンドが主役。一つのコマンド の役割は、入力したCSVデータに対して、一 つの処理をし、CSVデータを出力するだけ。 このシンプルなコマンドをパズルのように組 み合わせるだけで広い分野でのデータ活用を 可能にします。 移植性の高いCSVデータ NYSOLはCSVデータの扱いに特化していま す。ExcelやDBからCSVデータを出力すれば、 簡単にNYSOLで扱うことができます。さら にNYSOLから出力されるCSVデータは、Rや RapidMiner、DBなど外部ソフトとの連携も 移植性が高く柔軟に機能します。 KSK Analytics, Inc 準備3 一台でも大規模データ NYSOLで扱えるデータはメモリ量ではなく HDDに依存します。一般的にHadoopなどで 分散処理が必要とされる数百GB〜数TB(数 千万件〜数億件程度)の大規模なデータでも 一台のサーバーで処理することも可能です。 驚きの高速処理 これまで商用版のデータベースで20時間以 上かかっていた7億件のデータ処理が、ノー トPCで1時間以内に終了したケースもありま す。NYSOLは主にC++言語で開発され、各 コマンドは一つの機能を高速に処理するよう 設計されています。 KSK Analytics, Inc 準備3 最先端アルゴリズム NYSOLは大学や研究機関などの学術界で生 み出された 最新・最高峰のデータ解析/ データマイニングのコマンドおよびアルゴリ ズムを採用しています。洗練されたアルゴリ ズムはビジネス現場でも広く活躍しています。 フリーソフトウェア NYSOLは大学などの研究成果を広く産業界 に還元する目的で設立されました。そのため、 NYSOLが提供するソフトウェアは無料でご 利用頂くことができます。また、ご希望の企 業様には、NYSOLのビジネスサポートも提 供しています。 KSK Analytics, Inc 準備3 安心のビジネスサポート ビジネスとしてデータを活用するには、ソフ トウェアのサポートや分析支援などが必要に なる場合があります。また社内に分析人材を 育成したいニーズも高まってきました。詳し くはKSKアナリティクスまで問い合わせ下さ い。 演習1 作業ディレクトリへ移動します。 ②cd TMTraining と入力し、実行します。 ①「端末」を起動し、 ※ ossのホーム – TMTraining ディレクトリ 「cmd.txt」ファイルに、 端末で使用するコマンドを記載しています。 以降、コピー&ペーストでご使用ください。 KSK Analytics, Inc 演習1 mjuman コマンドを実行します。 mjuman.rb I=text O=csv と入力し、実行します。 実行完了までしばらくお待ちください。その間に... 演習1  mjuman コマンドについて 形態素解析エンジンJUMANを、NYSOLで利用できるよ うにコマンド化したもの 複数ファイルをまとめて解析可能  mjuman コマンドの書式 mjuman.rb I=text O=csv I= : 解析対象ファイルの格納場所 O= : 解析結果ファイルの出力場所 演習1 結果ファイルを確認します。 TMTraining ディレクトリ直下、 csディレクトリを開くと、 2ファイル生成されています。 ファイルの中身を確認してみましょう。 ※ LibreOffice Calc (カンマ区切り)で開いて下さい。 KSK Analytics, Inc 演習1 各項目の意味 同一行における単語の番号 今回は、2つの項目が重要! 演習2 【 ゴールまでの4つのプロセス 】 NYSOLの4つの前処理コマンド(MCMD) を使用します。 (A) 行選択 mselstr (B) 列選択 mcut (C) カウント(集計) mcount (D) 並べ替え msortf 演習2 (A) ※ 端末で cd csv コマンドを実行し、csv ディレクトリへ移動して下さい。  mselstr コマンドを実行します。 mselstr f=class1 v=名詞,形容詞 i=a.csv o=a-msel.csv mselstr: f=で指定した項目の値が、v=で指定した文字列に 一致する行を選択 f= : 検索対象となる項目 v= : 検索文字列 i= : 対象ファイル o= : 結果ファイル KSK Analytics, Inc 演習2 (B) mcut コマンドを実行します。 mcut f=word i=a-msel.csv o=a-mcut.csv mcut : f=で指定した項目(列)を選択する f= : 抜き出す対象となる項目 KSK Analytics, Inc 演習2 (C) mcount コマンドを実行します。 mcount k=word a=cnt i=a-mcut.csv o=a-mcnt.csv mcount: k=で指定した項目を単位にカウントした結果を、 a=で指定した項目に格納する。 k= : カウントの単位となる項目 a= : 新たに追加する項目 KSK Analytics, Inc 演習2 (D) msortf コマンドを実行します。 msortf f=cnt%nr i=a-mcnt.csv o=cnt-a.csv msortf: f=で指定した項目基準にレコードを並べ替える。 f= : 並べ替えの基準となる項目。%nr は数値降順を意味。 KSK Analytics, Inc 演習3  演習1,2の作業をまとめて実行できます!  シェルスクリプトを実行します。 端末に、 cd .. と入力し、作業ディレクトリを1つ上の 階層へ戻して下さい。 続けて、 ./word-freq.sh と入力し実行します。 csv2 ディレクトリに生成されたファイルを確認して下 さい。 Part1 まとめ  単語の頻度分析は、テキストマイニングで最初に 通る道であり、1つのテキストの特徴を把握する ための効果的な手法です。  しかし今回は、特定の2つのテキストの特徴とそ の違いを知りたいので、単語頻度ではない、新た な指標が必要になります。 ハンズオン Part2 あなたは次に、 製品AとBに含まれる単語頻度を使って 単語に重み付けを行い、 両者の特徴と違いを調べることにしました。 準備1 単語の重み:TF-IDF 複数のテキスト中の、ある語句の相対的な重要度 を示す重み(指標)。 TF IDF  tf log N /df 1 あるテキストにおける、 ある単語がいくつのテキストに ある単語の出現頻度 →ある単語が、複数のテキストに出現する場合は値が小さ く、特定のテキストにのみ出現する場合は値が大きい。 出典:石田基広、金明哲、コーパスとテキストマイニング、共立出版、2013 準備2 http://www.rapidminer.jp http://www.slideshare.net/ossanalytics/rapidminer-29517687 準備2 無料で利用することが出来るため、 ビジネス・アカデミックを問わず強力に支援 準備2 豊富な分析アルゴリズ ムに加え、モデル評価 やデータ加工(ETL)な ど幅広い機能を保有 準備2 他のオープンソースも活用できるため、 さらに幅広いアルゴリズムで分析可能 パッケージ数6,000以上 最先端アルゴリズムも多い 追加モデル数、約100個 これらはRapidMinerでエクステンション(無料)を インストールして頂くことでご利用できます 準備2 エクステンション(無 料)は、リコメンデー ションや、時系列分析、 Webマイニングなど にも対応 準備2 分かりやすい操作画面(GUI) データ分析が初めての方・学生の方にも分 析の楽しさを伝えることができます 準備2 強力なビジュアライゼーション データから視覚的に関連性や 仮説を発見できます 準備2 高度な分析もノンプログラミングで簡単操作 プログラムと Data と 向き合う時間 < 向き合う時間 演習1 RapidMinerを起動してみましょう。 デスクトップ上のショートカット [ RapidMiner.sh ] から起動します。 続けて、こちらを選択します。 ※無料版(Starter)は利用できる最大メモリが1GB 演習1 画面の種類と説明 ウィザード:4つのビジネスケースを想定した デモ分析を体験できる 結果:デザイン画面で構築した分析プロセスの 実行結果を確認できる デザイン:分析プロセスを構築できる ホーム:RapidMiner起動時、最初に表示される画面 演習1 データを読み込んでみましょう。 ①検索ボックスに 「read」と入力し、 ③「設定ウィザードインポート」 をクリックします。 ②「Read CSV」をドラッグして、 デザイン画面へ配置します。 演習1 区切り文字を「カンマ」に設定し、次へ。 TMTTraining – csv ディレクトリの cnt-a.csv を選択し、次へ。 演習1 何も変更せず、終了。 何も変更せず、次へ。 ※ 製品Bについても同様の操作を行って下さい。 演習1 実行結果を確認してみましょう。 実行します。 それぞれ線をつないで、 演習1 データ一覧 データの統計情報 演習2 ① 検索ボックスに 「 join 」 と入力し、 ② デザイン画面へ、 ドラッグ&ドロップで 配置します。 KSK Analytics, Inc 演習2 ※ join type ・ inne: 内部結合 ・ left: 左結合 ④ outer に変更し、 ・ righ: 右結合 ・ oute: 外部結合 ⑤ 2ファイルの結合キー としてword を選択し、 ③ チェックを全て外し、 適用します。 KSK Analytics, Inc 演習3 ① 検索ボックスに 「 replace 」 と入力し、 ② デザイン画面へ、 ドラッグ&ドロップ で配置します。 KSK Analytics, Inc 演習3 ③ zero に設定し、 欠損値をゼロで埋めます。 演習3 ④ 検索ボックスに 「 rename 」 と入力し、 ⑤ デザイン画面へ、 ドラッグ&ドロップ で配置します。 KSK Analytics, Inc 演習3 ※ 製品Aの設定 ⑥ old name → cnt%nr new name → product_A へ変更し、 ※ 製品Bの設定 ⑥ old name → cnt%nr_from_ES2 new name → product_B へ変更し、適用します。 KSK Analytics, Inc 演習4 ① 検索ボックスに 「 generate tf 」 と入力し、 ② デザイン画面へ、 ドラッグ&ドロップ で配置します。 KSK Analytics, Inc次のステップへ向けて データサイエンスチームへの データ分析支援サービス このような課題を持たれている方にオススメです ・ データサイエンスチームの分析成果が生まれにくい ・ チームとして早期に分析スキルを得たい ・ データ分析で取り組む課題が明確になっていない ・ 分析ソフトは出来るだけコストをかけたくない ※「オフショア分析」はじめました。 (より低価格でご提供できます!) http://www.offshKSK Analytics, Inc スケジュールの一例 1ヶ月目 2ヶ月目 3ヶ月目 4ヶ月目 5ヶ月目 6ヶ月目 7〜月目 定例ミーティング 分析項目のリスト化 優先順位検討 分析トレーニング 反復型の分析 スケジュール項目は大きく「定例ミーティング」、「反復型の分析」、「トレーニング」の3 つに分けられます。 定例ミーティングは2週間に一回のミーティングで、分析結果を共有するものです。貴 社の分析者のみならず「ビジネス価値」を判断できる方の参加をお願いしております。定 例ミーティングでは、その次の2週間でどのようなことに取り組むのかを決めます。 また、プロジェクトの前半で分析トレーニング(RapidMiner、NYSOL)の受講をお奨めし ております。これらを受講頂くことで後のスキルトランスファーでの効果が発揮されるも のと考えております。 KSK Analytics, Inc RapidMinerトレーニング 対象者 ビジネスユーザー、データサイエンスチーム 形式 オープンコースあるいはお客さま指定日(2日間、あるいは4日間) こんな方に RapidMinerの使い方・機能について素早く理解したい オススメ RapidMinerを使用した予測モデルの作成や評価を行いたい RapidMinerを使用した高度な予測分析手法を学びたい RapidMinerで相関ルール作成やマーケットバスケット分析を行いたい RapidMinerで顧客のセグメンテーション、クラスター分析を行いたい 価格 ・ご参加費用(オープンコース): (税別)/1名当り(1パート) Regular(1日前まで)225,000円 Early Bird(21日前まで)200,000円 DUO(2コース連続受講)185,000円 定員 1名〜5名まで ※RapidMinerの無料版のご利用を検討されている方にもオススメのトレーニングです。 ※オープンコース http://www.rapid-i-partner.jp/service/training/training.html#rapidminer_basic KSK Analytics, Inc NYSOLトレーニング 商品名 NYSOLによるデータマイニング トレーニング (データ加工編:1日コース) 対象者 ビジネスユーザー、データサイエンスチーム 形式 お客さま指定日(1日間) こんな方に データ加工が必要なデータがたくさんある オススメ さまざまなデータ加工が必要 SQLスクリプトを得意としている人材が少ない データベースでは速度のパフォーマンスが出ない データベースでは大規模データを扱えない 価格 基本料金 15万円 + 受講者数 × 5万円 定員 1名〜5名程度 ※Windowsユーザーにもオススメです ※オンサイトコース ※NYSOLソフトウェアの商用サポートもご提供しております。 分析事例1 テキストマイニングによる製品開発支援 大手化粧品メーカー〜マーケティング部門 ビジネス課題 ある事業会社では消費者の声をアンケート調査で得ていたが、 調査費用が高いため継続できず製品開発に活かすことが難し かった。 アナリティクスによる問題解決 •ウェブから消費者の声を収集し分析することで、 費用が抑えられ継続的な運用が可能になった。 クラスター分析 •アンケートからは得られない潜在的な製品ニー クチコミ データ ズを抽出できた。 決定木分析 •分析結果から消費者のニーズを把握し、製品開 整形・加工 発の参考にできた(30〜34歳女性は深い赤系の 口紅が好評etc)。 形態素解析 ネットワーク 分析 KSK Analytics, Inc 分析事例2 未開拓エリアの潜在的顧客のGIS可視化 Case Studyメーカー〜マーケティング部門 ビジネス課題 新規海外展開のためマーケティング戦略を作成したいが 既存製品の利用地域が把握できておらず、どの地域で販 売可能性が高いか分からなかった。 アナリティクスによる問題解決 •SNSデータ分析から製品の利用地域と使い勝手 を把握できた。 SNSデータ •オープンデータの活用により地域を具体的に把 形態素解析 握でき、SNS分析と合わせてGIS可視化。 •地域別に影響力の高い言葉、流行の話題を把握 オープンデータ し、戦略作成の参考にできた(X地域のイノ 整形・加工 GIS可視化 ベーター・アーリーアダプターを発見できた ネットワーク分析 etc)。 KSK Analytics, Inc 分析事例3 膨大な顧客クレームから要因分析 大手オフィス用品メーカー〜顧客サポート部門 ビジネス課題 サポートセンターに寄せられる膨大なテキスト情報(要 望・苦情)の蓄積に力を入れているものの、顧客満足度 を向上するデータ活用ができていない。 アナリティクスによる問題解決 •要望・苦情をカテゴリ(製品/出荷/営業の 問題etc)に分類できた。 コールログ •製品の不具合パターンを把握できた(製品A は7〜9月、気温35℃以上でインク漏れが多 クロス集計 発しているetc) 形態素解析 •カテゴリ化、要約化でき、該当部署への伝達 整形・加工 原因を特定 がスムーズになり対応箇所・スピードが向上 した。 クラスター分析 KSK Analytics, Inc 分析事例4 日報と行動履歴による最適な営業マネジメント 大手消費財メーカー〜代理店営業部門 ビジネス課題 担当者の能力で営業成績に大きな差が生まれているが、そ れらを解消できる具体的な解決案を示せていない。また、 新入社員の研修プログラムを作成したい。 アナリティクスによる問題解決 •営業フェーズでの課題の洗い出しにより営業ア クションが具体的になり、経験の浅い営業担当 者でも一定の水準の提案が可能になった。 日報データ •目標達成社員の報告書は、未達成社員に比べ数 値情報が多い(例:達成→受注見込80%以上、 クラスター分析 形態素解析 行動履歴 未達成→ほぼ受注取れる見込)などが分かり、 データ 日報の書き方指導ができた。 決定木分析 •行動履歴を地図上にプロットし経路を可視化す 経路可視化 ることで、担当エリアの見直すことができた。 KSK Analytics, Inc 御社でお持ちの テキストデータ活用をご支援します。 お問い合わせはこちらまで 株式会社KSKアナリティクス セールス & マーケティング本部 www.ksk-ansales@ksk-anl.com KSK Analytics, Inc

IT業界の改革にご協力いただけませんか?

本サイトは、株式会社オープンソース活用研究所がプロデュースする、中小IT企業による”本気”の情報提供セミナー「マジセミ」の結果レポートページです。「マジセミ」は、次を目的として活動しています。

我々はITエンジニアが、今よりももっと「誇り」と「喜び」をもって仕事をし、今よりももっと企業や社会に貢献できる、そんなIT業界を創りたいと考えています。

そのためには、技術をもった中小のIT企業がもっと元気になる必要がある。その為には、技術をもった中小のIT企業を、もっと皆様に知って頂く必要がある、と考えました。

株式会社オープンソース活用研究所
代表取締役所長 寺田雄一

本当かウソか、あなたが見極めてください。

もし、我々のこの活動にご賛同していただけるのであれば、ぜひ下のセミナーに参加してください。

「なんだ、結局ただの売り込みセミナーじゃないか」

もしそう感じたら、アンケートなり、あなたのFacebookなりに、そのままお書き頂き、拡散して頂いて構いません。

参加者からのお褒めの言葉、お叱りの言葉が、我々中小IT企業を成長させ、それが日本のIT業界を変えていくのだと、強く確信しています。

あなたの行動が、日本のIT業界を変えるのです。

日程を確認していただき、ご興味のあるセミナータイトルをクリックしてください。

「マジセミ」のFacebookページ

今後のセミナー情報などを提供させていただきたますので、「マジセミ」のFacebookページに「いいね!」をお願いします。

日本のIT業界を変えるためのアクション、ありがとうございました!