マジセミドライブ
ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。
おすすめITセミナー資料
2022.09.12
【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選
無料オープンソース「 音声テキスト変換 ツール 」まとめ3選として、
以下の概要を紹介しています。
1⃣C++音声認識ツールキット「Kaldi」
2⃣オールインワン会話型AIツールキット「SpeechBrain」
3⃣音声認識機械学習ライブラリ「Flashlight」
※「既存AI議事録作成ツールの課題」に関するセミナー資料(22ページ)を無料で参照できます。
コンテンツ
無料オープンソース「 音声テキスト変換 ツール 」まとめ3選
1⃣C++音声認識ツールキット「Kaldi」
概要
「Kaldi」は、音声認識用のツールキットです。
C++で書かれており、「音声認識研究者による使用」を目的としています。
特徴
■有限状態変換器(FST)とのコードレベル統合
・OpenFstツールキットに対してコンパイル
■広範な線形代数のサポート
・マトリックスライブラリ :標準のBLASおよびLAPACKルーチンをラップ
■拡張可能な設計
・可能な限り最も一般的な形式でアルゴリズムを提供
・デコーダーがニューラルネットワークなどの適切なスコアのソースから動作できる
■広く利用可能なデータベースから動作する音声認識システムを構築
・「LDC」(Linguistic Data Consortium)などから提供されるデータベースを利用可能
開発方針
・「一般的なアルゴリズム」と「普遍的なレシピ」を重視
・証明可能で正しいアルゴリズム
・コードは分かりやすく
・再利用とリファクタリングが容易
・徹底的にテスト
オフィシャルサイト
2⃣オールインワン会話型AIツールキット「SpeechBrain」
概要
「SpeechBrain」は、PyTorchに基づくオープンソースの「オールインワン会話型AIツールキット」です。
音声(言語技術)の研究を高速化促進するためのさまざまな便利なツールを提供します。
さまざまな機能について、開発が進められています。
・音声認識
・話者認識
・音声強調
・音声分離
・言語識別
・マルチマイク信号処理 など
「SpeechBrain」の特徴
■事前トレーニング済みモデル
・推論が容易なインターフェースと結合
・すべての実験結果を「Googleドライブ共有フォルダ」で提供
・誰もが結果を再現できる
■カスタマイズ性
・必要に応じてプロセスの任意の部分をオーバーライド
・データのトレーニングと評価のループを管理
■YAMLベースのハイパーパラメータファイル
・トレーニングスクリプトが大幅に簡素化される
・学習率の指定
・カスタムモデルの指定
■マルチGPUトレーニング
・PyTorch Data-Parallel
・Distributed Data-Parallel
■I/Oパイプラインのカスタマイズ
・オンザフライダウンサンプリング
・BPEトークン化
・並べ替え
・しきい値の追加 など
「音声認識機能」の特徴
・事前トレーニング済モデル「wav2vec 2.0」のサポート
・音声ファイルの書き起こしのための事前トレーニング済みモデル
・他の既存のツールキットと同等のパフォーマンス
・簡単にカスタマイズできるニューラル言語モデル
・多くの利用可能なエンコーダー
・トランスデューサーエンドツーエンドASR
オフィシャルサイト
→github.com →speechbrain/speechbrain
3⃣音声認識機械学習ライブラリ「Flashlight」
概要
「Flashlight」は、音声認識が可能な高速柔軟な「機械学習用C++ライブラリ」です。
「Facebook AI Research」+「Torch、TensorFlow、Eigen、Deep Speechの作成者」によって開発されています。
機能
「Flashlight」は、単一リポジトリで、複数ドメインにわたる機能を提供します。
・自動音声認識 (旧:wav2letterプロジェクト)
・画像分類
・物体検出
・言語モデリング
特徴
■C++
・C++のネイティブサポート
・シンプルな拡張性
・効率性とスケーラビリティを重視
・小さなフットプリント :10MB未満
・最新のC++ジャストインタイムカーネルコンパイル :ArrayFireライブラリを使用
■強力な研究フレームワーク
・パフォーマンスを犠牲にすることなく高速に反復
・実験設定用途
・アルゴリズム開発用途
オフィシャルサイト
→github.com →flashlight/flashlight
関連セミナー紹介
セミナータイトル
既存のAI議事録作成ツールの課題
~ゆっくり・大きな声で喋らないと認識できない、情報漏えいのリスク~
開催日
2022/05/24(火)
セミナー資料
資料タイトル
既存のAI議事録作成ツールの課題
~ゆっくり・大きな声で喋らないと認識できない、情報漏えいのリスク~
資料ページ数
22ページ
資料イメージ
資料アジェンダ
■既存のAI議事録作成ツールの課題
■ロゼッタ企業ミッション
・会社沿革(AI自動翻訳と会議音声翻訳ツールの背景)
■WEB商談のメリット・デメリット
■議事録作成の課題
・議事録作成の負担が大きい
・文字起こしアプリ、ツール、外注(テープ起こし)
・なかなか自社に合ったツールが無い
■議事録作成の解決法
・リアルタイム文字起こし「オンヤク」
■デモンストレーション
・会議で重要なことを話すけど、セキュリティは大丈夫?
・Microsoft Azureを使うことでセキュアにご利用いただけます
■事例紹介
・①バイリンガル社員の補助
・②議事録係の補助ツール
・③聴覚障がいの方の補助ツール
■「会議」はやることがいっぱい!
・人間がやらなくてもよい仕事は自動化することが重要!
・「オンヤク」を活用すると
「セミナー資料ダウンロード」はこちらから(無料)
最後に
今後も毎日のように、多くのIT関連セミナーが開催されます。
ご自分のビジネスを強化できるセミナーを見つけて、ぜひ参加してみてください!
参考サイト
→assemblyai.com →「The Top Free Speech-to-Text APIs and Open Source Engines」
→hackernoon.com →「Top Transcription APIs and Open Source Libraries in 2022」
この記事のタグ一覧
フリーワード検索
カテゴリー一覧
アクセスランキング
- 🏆ランク1位🏆
【無料で使える】「 翻訳 」ツールまとめ - 🏆ランク2位🏆
【OSS情報アーカイブ】Orange - 🏆ランク3位🏆
【OSS情報アーカイブ】Apache Flink - 🏆ランク4位🏆
【AIツール実験室】楽曲作成ツール「 Suno AI 」〜AI生成ミュージックフェス〜 - 🏆ランク5位🏆
【OSS情報アーカイブ】GNU Wget - 🏆ランク6位🏆
【OSS情報アーカイブ】Redis - 🏆ランク7位🏆
【OSS情報アーカイブ】Node-RED - 🏆ランク8位🏆
【ChatGPTプラグイン探訪】「 Code Interpreter 」〜ファイル入出力+Pythonコード自動生成実行〜 - 🏆ランク9位🏆
【OSS情報アーカイブ】Apache ZooKeeper - 🏆ランク10位🏆
【OSS情報アーカイブ】Serverspec
おすすめの記事
ChatGPT探訪
2024.05.07
【ChatGPT探訪】「 無限議論 」〜最強スタンド考察〜🤔
マジセミSNSに投稿した 【担当者A】の「 無限議論 」〜最強スタンド考察〜💬 を記事化したものです。 ChatGPTに課金していないみなさんにも、 AI同士の議論をお楽しみいただけます👍 ※原稿テキストを放り込むだけで、 ジョジョ風イラストを作成してしまう生成AIがすごくないですか?