TOP /  ビッグデータ/BI /  【無料】オープンソースによるテキスト分析ハンズオンセミナー

【無料】オープンソースによるテキスト分析ハンズオンセミナー | ビッグデータ/BI

講演資料を見るには、プライバシーポリシーに同意して、送付先メールアドレスをご入力しご請求ください。

メールアドレス


法人様向けの資料のため、フリーアドレスをご利用の場合は、会社名、お名前を入力してください。
会社名
お名前

オープンソースによる テキスト分析ハンズオンセミナー 株式会社KSKアナリティクス データアナリスト 足立 悠 本日のアジェンダ  はじめに  テキストマイニングとは  ハンズオン  次のステップへ向けて KSKアナリティクスとは 株式会社KSKアナリティクス(KSK Analytics, Inc.) 「データ」を価値ある「情報」へ。 “先進的なオープンソースで、お客様のビジネスの成功を支援します。” 事業概要 1.アナリティクス・ソフトウェア事業: オープンソースを中心としたデータ分析・活用ソフトウェアの販売、サポート等の提供。 BI DWH プランニング データマイニング 分析基盤 2.アナリティクス・サービス事業: Hadoopやアナリティクスツールなど複数のオープンソースを組み合わせた分析サービスの提供。 アジャイル型 データサイエンスチーム ビッグデータ分析基盤 オープンソース データ分析サービス 育成支援サービス 構築サービス 分析トレーニングサービス KSK Analytics, Inc 世界標準のOSSを日本へ導入、 日本発のOSSを世界へ展開 オープンソースBI/BAを専門とする 日本で『 唯一 』のベンダー 本セミナーで目指すもの  本セミナーのねらい 実際の分析業務で役立つノウハウを知っていた だく。 オープンソースを使えば、手軽に、簡単に分析で きることをご体験いただく。 ※トレーニング環境をプレゼント!無料で継続利用できます!!テキストマイニングとは どんな技術...? 通常の文章からなるデータを単語や文節で区切り、 それらの出現の頻度や共出現の相関、出現傾向、時系列な どを解析することで 有用な情報を取り出す、テキストデータの分析方法である。 (Wikipediaより) 考察 単語 頻度 今日は晴れです。 今日 1 は 1 晴れ 1 今日|は|晴れ|です|。 本日のハンズオン KSK Analytics, Inc 対象データ  通常の文章からなるデータ コールセンターのログ アンケートの自由記述 営業日報 ウェブサイトのクチコミ FacebookやTwitterなどSNSの投稿 今日は晴れです。 掲示板 ・・・など 形態素解析  単語や文節で区切り(=形態素解析) 文法ルールや辞書(品詞等の情報付き単語リスト)を情報 源として用い、文を形態素(言語で意味を持つ最小単位) の列に分割し、それぞれの品詞を判別する作業を指す。 (Wikipediaより) 形態素解析ソフトを用いて実行。  JUMAN,Chasen,MeCab,・・・, 「 今日は晴れです。 」 を JUMANで実行 → 分析  出現の頻度や共出現の相関...  テキストマイニングの主な手法  視覚化  重要語句の抽出と関連指標  特徴分析  グループ分け  自動分類 単語 頻度  時系列分析 今日 1 は 1 晴れ 1 KSK Analytics, Inc 何に利用できる...?  マーケティング 製品の開発支援 潜在顧客の抽出  業務改善 顧客クレームの要因抽出 営業マネジメント最適化 ・・・など 後ほど分析事例を紹介します。お楽しみに!ハンズオン 分析ストーリー あなたは、製品AとBに関するアンケートのコメ ント(自由記述)データを渡され、評判の違いを 分析して報告するように言われました。しかし、 テキストデータの分析経験がなく、何から手を 付けてよいかわかりません・・・ ハンズオン Part1 あなたはまず、 製品AとBそれぞれのコメントに含まれる単語と その出現回数を調べてみることにしました。 どのツールを使うかな... R?もしくはSQL書く? 準備1 仮想マシンのインポート手順 [仮想アプライアンスのインポート] をクリック 設定を何も変更せず、 [インポート] をクリック フォルダアイコンをクリックし、 「oss32.ova」を選択 KSK Analytics, Inc 準備1 仮想マシンの起動 [起動(T)] をクリック 起動完了! パスワード:training でログイン ※rootのパスワードも同じ KSK Analytics, Inc 準備2  ossのホーム – TMTraining – text ディレクトリへ移動 準備2  2ファイルを開いて中身を確認 製品B (= b.csv) 製品A (= a.csv) 注意1) 1行1ユーザーのコメント 注意2) 横浜市/大阪市の市民の声(教育)を利用 準備3 http://www.nysol.biz/#!products/c233u 準備3 パズルに似た新しい知的感覚 NYSOLはコマンドが主役。一つのコマンドの役 割は、入力したCSVデータに対して、一つの処理 をし、CSVデータを出力するだけ。このシンプル なコマンドをパズルのように組み合わせるだけで 広い分野でのデータ活用を可能にします。 移植性の高いCSVデータ NYSOLはCSVデータの扱いに特化しています。 ExcelやDBからCSVデータを出力すれば、簡単 にNYSOLで扱うことができます。さらにNYSOLか ら出力されるCSVデータは、RやRapidMiner、DB など外部ソフトとの連携も移植性が高く柔軟に機 能します。 KSK Analytics, Inc 準備3 一台でも大規模データ NYSOLで扱えるデータはメモリ量ではなくHDDに 依存します。一般的にHadoopなどで分散処理が 必要とされる数百GB〜数TB(数千万件〜数億 件程度)の大規模なデータでも一台のサーバー で処理することも可能です。 驚きの高速処理 これまで商用版のデータベースで20時間以上か かっていた7億件のデータ処理が、ノートPCで1 時間以内に終了したケースもあります。NYSOL は主にC++言語で開発され、各コマンドは一つの 機能を高速に処理するよう設計されています。 KSK Analytics, Inc 準備3 最先端アルゴリズム NYSOLは大学や研究機関などの学術界で生み 出された 最新・最高峰のデータ解析/データマ イニングのコマンドおよびアルゴリズムを採用し ています。洗練されたアルゴリズムはビジネス現 場でも広く活躍しています。 フリーソフトウェア NYSOLは大学などの研究成果を広く産業界に 還元する目的で設立されました。そのため、 NYSOLが提供するソフトウェアは無料でご利用 頂くことができます。また、ご希望の企業様には、 NYSOLのビジネスサポートも提供しています。 KSK Analytics, Inc 準備3 安心のビジネスサポート ビジネスとしてデータを活用するには、ソフトウェ アのサポートや分析支援などが必要になる場合 があります。また社内に分析人材を育成したい ニーズも高まってきました。詳しくはKSKアナリ ティクスまで問い合わせ下さい。ハンズオン Part1 ~演習1:形態素解析を行ってみよう!~ 演習1  作業ディレクトリへ移動します。 次に、 まず、「端末」を 起動し、 cd TMTraining と入力し、実行します。 KSK Analytics, Inc 演習1  mjuman コマンドを実行します。 mjuman.rb I=text O=csv と入力し、実行します。 実行完了までしばらくお待ちください。その間に... 演習1  mjuman コマンドについて  形態素解析エンジンJUMANを、NYSOLで利用できるように コマンド化したもの  複数ファイルをまとめて解析可能  mjuman コマンドの書式 mjuman.rb I=text O=csv  I= : 解析対象ファイルの格納場所  O= : 解析結果ファイルの出力場所 演習1  各項目の意味 同一行における単語の番号 今回は、2つの項目が重要!ハンズオン Part1 ~演習2:単語の出現頻度リストを作成しよう!~ 演習2 【 ゴールまでの4つのプロセス 】 NYSOLの4つの前処理コマンド(MCMD)を使用します。 (A) 行選択 mselstr (B) 列選択 mcut (C) カウント(集計) mcount (D) 並べ替え msortf 演習2 (A) ※ 端末で cd csv コマンドを実行し、csv ディレクトリへ移動して下さい。  mselstr コマンドを実行します。 mselstr f=class1 v=名詞,形容詞 i=a.csv o=a-msel.csv  mselstr : f=で指定した項目の値が、v=で指定した文字列に 一致する行を選択  f= : 検索対象となる項目  v= : 検索文字列  i= : 対象ファイル  o= : 結果ファイル KSK Analytics, Inc 演習2 (B)  mcut コマンドを実行します。 mcut f=word i=a-msel.csv o=a-mcut.csv  mcut : f=で指定した項目(列)を選択する  f= : 抜き出す対象となる項目 KSK Analytics, Inc 演習2 (C)  mcount コマンドを実行します。 mcount k=word a=cnt i=a-mcut.csv o=a-mcnt.csv  mcount : k=で指定した項目を単位にカウントした結果を、 a=で指定した項目に格納する。  k= : カウントの単位となる項目  a= : 新たに追加する項目 KSK Analytics, Inc 演習2 (D)  msortf コマンドを実行します。 msortf f=cnt%nr i=a-mcnt.csv o=cnt-a.csv  msortf : f=で指定した項目基準にレコードを並べ替える。  f= : 並べ替えの基準となる項目。%nr は数値降順を意味。 KSK Analytics, Inc 演習3:おまけ  演習1,2の作業をまとめて実行できます!  シェルスクリプトを実行します。 端末に、 cd .. と入力し、作業ディレクトリを1つ上の階層へ 戻して下さい。 続けて、 ./word-freq.sh と入力し実行します。 csv2 ディレクトリに生成されたファイルを確認して下さい。 Part1 まとめ  単語の頻度分析は、テキストマイニングで最初に通る 道であり、1つのテキストの特徴を把握するための効 果的な手法です。  しかし今回は、特定の2つのテキストの特徴とその違 いを知りたいので、単語頻度ではない、新たな指標が 必要になります。 ハンズオン Part2 あなたは次に、 製品AとBに含まれる単語頻度を使って 単語に重み付けを行い、 両者の特徴と違いを調べることにしました。 準備1  単語の重み:TF-IDF 複数のテキスト中の、ある語句の相対的な重要度を示 す重み(指標)。 TF IDF  tf log N /df 1 あるテキストにおける、 ある単語がいくつのテキストに ある単語の出現頻度 現れているかの相対的重み さく、特定のテキストにのみ出現する場合は値が大きい。 出典:石田基広、金明哲、コーパスとテキストマイニング、共立出版、2013 準備2 http://www.rapidminer.jp http://www.slideshare.net/ossanalytics/rapidminer-29517687 準備2 豊富な分析アルゴリズム に加え、モデル評価や データ加工(ETL)など幅 広い機能を保有 準備2 エクステンション(無料) は、リコメンデーションや、 時系列分析、Webマイニ ングなどにも対応 準備2 強力なビジュアライゼーション データから視覚的に関連性や 仮説を発見できます 分かりやすい操作画面(GUI) 準備2 高度な分析もノンプログラミングで簡単操作 プログラムと Data と 向き合う時間 < 向き合う時間ハンズオン Part2 ~演習1:RapidMinerの基本操作 ~ 演習1  RapidMinerを起動してみましょう。 デスクトップ上のショートカット [ RapidMiner.sh ] から起動します。 続けて、こちらを選択します。 ※無料版(Starter)は利用できる最大メモリが1GBです 演習1  画面の種類と説明 ウィザード:4つのビジネスケースを想定した デモ分析を体験できる 結果:デザイン画面で構築した分析プロセスの 実行結果を確認できる デザイン:分析プロセスを構築できる ホーム:RapidMiner起動時、最初に表示される画面 演習1  データを読み込んでみましょう。 Part1で作成した2つのcsvファイルを 1つずつドラッグ&ドロップで RapidMinerのデザイン画面へ置きます。 演習1 製品Aのcsv データの読込形式を設定します。 製品Bのcsv (まず、製品Aを例に進めます。) 演習1 区切り文字を「カンマ」に設定し、次へ。 製品Aのcsvファイル名が設定 されていることを確認し、次へ。 演習1 何も変更せず、終了。 何も変更せず、次へ。 ※ 製品Bについても同様の操作を行って下さい。 演習1  実行結果を確認してみましょう。 実行します。 それぞれ線をつないで、ハンズオン Part2 ~演習2:データの結合 ~ 演習2 ① 検索ボックスに 「 join 」 と入力し、 ② デザイン画面へ、 ドラッグ&ドロップで配置します。 KSK Analytics, Inc 演習2 ※ join type ・ inner: 内部結合 ・ left : 左結合 ・ right: 右結合 ④ outer に変更し、 ・ outer: 外部結合 ⑤ 2ファイルの結合キーとして word を選択し、適用します。 ③ チェックを全て外し、 KSK Analytics, Incハンズオン Part2 ~演習3:欠損値の処理と項目名の変更 ~ 演習3 ① 検索ボックスに 「 replace 」 と入力し、 ② デザイン画面へ、 ドラッグ&ドロップで配置します。 KSK Analytics, Inc 演習3 ③ zero に設定し、欠損値をゼロで埋めます。 演習3 ④ 検索ボックスに 「 rename 」 と入力し、 ⑤ デザイン画面へ、 ドラッグ&ドロップで配置します。 KSK Analytics, Inc 演習3 ※ 製品Aの設定 ⑥ old name → cnt%nr new name → product_A へ変更し、 ※ 製品Bの設定 ⑥ old name → cnt%nr_from_ES2 new name → product_B へ変更し、適用します。 KSK Analytics, Incハンズオン Part2 ~演習4:TF-IDF値の計算 ~ 演習4 ① 検索ボックスに 「 generate tf 」 と入力し、 ② デザイン画面へ、 ドラッグ&ドロップで配置します。 KSK Analytics, Inc Part2 まとめ  AとBに共通する単語、どちらかに出現する単語の TF-IDF値に注目しましょう。次のステップへ向けて データサイエンスチームへの データ分析支援サービス このような課題を持たれている方にオススメです ・ データサイエンスチームの分析成果が生まれにくい ・ チームとして早期に分析スキルを得たい ・ データ分析で取り組む課題が明確になっていない ・ 分析ソフトは出来るだけコストをかけたくない ※「オフショア分析」はじめました。 (より低価格でご提供できます!) http://www.offshorKSK Analytics, Inc スケジュールの一例 1ヶ月目 2ヶ月目 3ヶ月目 4ヶ月目 5ヶ月目 6ヶ月目 7〜月目 定例ミーティング 分析項目のリスト化 優先順位検討 分析トレーニング 反復型の分析 スケジュール項目は大きく「定例ミーティング」、「反復型の分析」、「トレーニング」の3 つに分けられます。 定例ミーティングは2週間に一回のミーティングで、分析結果を共有するものです。貴 社の分析者のみならず「ビジネス価値」を判断できる方の参加をお願いしております。定 例ミーティングでは、その次の2週間でどのようなことに取り組むのかを決めます。 また、プロジェクトの前半で分析トレーニング(RapidMiner、NYSOL)の受講をお奨めし ております。これらを受講頂くことで後のスキルトランスファーでの効果が発揮されるも のと考えております。 KSK Analytics, Inc RapidMinerトレーニング 対象者 ビジネスユーザー、データサイエンスチーム 形式 オープンコースあるいはお客さま指定日(2日間、あるいは4日間) こんな方に RapidMinerの使い方・機能について素早く理解したい オススメ RapidMinerを使用した予測モデルの作成や評価を行いたい RapidMinerを使用した高度な予測分析手法を学びたい RapidMinerで相関ルール作成やマーケットバスケット分析を行いたい RapidMinerで顧客のセグメンテーション、クラスター分析を行いたい 価格 ・ご参加費用(オープンコース): (税別)/1名当り(1パート) Regular(1日前まで)225,000円 Early Bird(21日前まで)200,000円 DUO(2コース連続受講)185,000円 定員 1名~5名まで ※オープンコース ※RapidMinerの無料版のご利用を検討されている方にもオススメのトレーニングです Basic パート1 2015年10月28日(水)-29日(木) Basic パート2 2015年11月11日(水)-12日(木) http://www.rapid-i-partner.jp/service/training/training.html#rapidminer_basic KSK Analytics, Inc NYSOLトレーニング 商品名 NYSOLによるデータマイニング トレーニング (データ加工編:1日コース) 対象者 ビジネスユーザー、データサイエンスチーム 形式 お客さま指定日(1日間) こんな方に データ加工が必要なデータがたくさんある オススメ さまざまなデータ加工が必要 SQLスクリプトを得意としている人材が少ない データベースでは速度のパフォーマンスが出ない データベースでは大規模データを扱えない 価格 基本料金 15万円 + 受講者数 × 5万円 定員 1名~5名程度 ※Windowsユーザーにもオススメです ※オンサイトコース ※NYSOLソフトウェアの商用サポートもご提供しております。 分析事例1 テキストマイニングによる製品開発支援 大手化粧品メーカー~マーケティング部門 ビジネス課題 ある事業会社では消費者の声をアンケート調査で得ていたが、 調査費用が高いため継続できず製品開発に活かすことが難し かった。 アナリティクスによる問題解決 •ウェブから消費者の声を収集し分析することで、 費用が抑えられ継続的な運用が可能になった。 クラスター分析 •アンケートからは得られない潜在的な製品ニー クチコミ データ ズを抽出できた。 決定木分析 •分析結果から消費者のニーズを把握し、製品開 整形・加工 発の参考にできた(30~34歳女性は深い赤系の 口紅が好評etc)。 形態素解析 ネットワーク 分析 KSK Analytics, Inc 分析事例2 未開拓エリアの潜在的顧客のGIS可視化 Case Studyカー~マーケティング部門 ビジネス課題 新規海外展開のためマーケティング戦略を作成したいが 既存製品の利用地域が把握できておらず、どの地域で販 売可能性が高いか分からなかった。 アナリティクスによる問題解決 •SNSデータ分析から製品の利用地域と使い勝手 を把握できた。 SNSデータ •オープンデータの活用により地域を具体的に把 形態素解析 握でき、SNS分析と合わせてGIS可視化。 •地域別に影響力の高い言葉、流行の話題を把握 オープンデータ し、戦略作成の参考にできた(X地域のイノ 整形・加工 GIS可視化 ベーター・アーリーアダプターを発見できた ネットワーク分析 etc)。 KSK Analytics, Inc 分析事例3 膨大な顧客クレームから要因分析 大手オフィス用品メーカー~顧客サポート部門 ビジネス課題 サポートセンターに寄せられる膨大なテキスト情報(要 望・苦情)の蓄積に力を入れているものの、顧客満足度 を向上するデータ活用ができていない。 アナリティクスによる問題解決 •要望・苦情をカテゴリ(製品/出荷/営業の 問題etc)に分類できた。 コールログ •製品の不具合パターンを把握できた(製品A は7~9月、気温35℃以上でインク漏れが多 クロス集計 発しているetc) 形態素解析 •カテゴリ化、要約化でき、該当部署への伝達 整形・加工 原因を特定 がスムーズになり対応箇所・スピードが向上 した。 クラスター分析 KSK Analytics, Inc 分析事例4 日報と行動履歴による最適な営業マネジメント 大手消費財メーカー~代理店営業部門 ビジネス課題 担当者の能力で営業成績に大きな差が生まれているが、そ れらを解消できる具体的な解決案を示せていない。また、 新入社員の研修プログラムを作成したい。 アナリティクスによる問題解決 •営業フェーズでの課題の洗い出しにより営業ア クションが具体的になり、経験の浅い営業担当 者でも一定の水準の提案が可能になった。 日報データ •目標達成社員の報告書は、未達成社員に比べ数 値情報が多い(例:達成→受注見込80%以上、 クラスター分析 形態素解析 行動履歴 未達成→ほぼ受注取れる見込)などが分かり、 データ 日報の書き方指導ができた。 決定木分析 •行動履歴を地図上にプロットし経路を可視化す 経路可視化 ることで、担当エリアの見直すことができた。 KSK Analytics, Inc 御社でお持ちの テキストデータ活用をご支援します。 お問い合わせはこちらまで セールス & マーケティング本部 www.ksk-anl.com sales@ksk-anl.com

IT業界の改革にご協力いただけませんか?

本サイトは、株式会社オープンソース活用研究所がプロデュースする、中小IT企業による”本気”の情報提供セミナー「マジセミ」の結果レポートページです。「マジセミ」は、次を目的として活動しています。

我々はITエンジニアが、今よりももっと「誇り」と「喜び」をもって仕事をし、今よりももっと企業や社会に貢献できる、そんなIT業界を創りたいと考えています。

そのためには、技術をもった中小のIT企業がもっと元気になる必要がある。その為には、技術をもった中小のIT企業を、もっと皆様に知って頂く必要がある、と考えました。

株式会社オープンソース活用研究所
代表取締役所長 寺田雄一

本当かウソか、あなたが見極めてください。

もし、我々のこの活動にご賛同していただけるのであれば、ぜひ下のセミナーに参加してください。

「なんだ、結局ただの売り込みセミナーじゃないか」

もしそう感じたら、アンケートなり、あなたのFacebookなりに、そのままお書き頂き、拡散して頂いて構いません。

参加者からのお褒めの言葉、お叱りの言葉が、我々中小IT企業を成長させ、それが日本のIT業界を変えていくのだと、強く確信しています。

あなたの行動が、日本のIT業界を変えるのです。

日程を確認していただき、ご興味のあるセミナータイトルをクリックしてください。

「マジセミ」のFacebookページ

今後のセミナー情報などを提供させていただきたますので、「マジセミ」のFacebookページに「いいね!」をお願いします。

日本のIT業界を変えるためのアクション、ありがとうございました!