マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

おすすめITセミナー資料

2022.09.12

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

無料オープンソース「 音声テキスト変換 ツール 」まとめ3選として、
以下の概要を紹介しています。

1⃣C++音声認識ツールキット「Kaldi」
2⃣オールインワン会話型AIツールキット「SpeechBrain」
3⃣音声認識機械学習ライブラリ「Flashlight」

※「既存AI議事録作成ツールの課題」に関するセミナー資料(22ページ)を無料で参照できます。

無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

1⃣C++音声認識ツールキット「Kaldi」

概要

「Kaldi」は、音声認識用のツールキットです。

C++で書かれており、「音声認識研究者による使用」を目的としています。

特徴

■有限状態変換器(FST)とのコードレベル統合
・OpenFstツールキットに対してコンパイル

■広範な線形代数のサポート
・マトリックスライブラリ :標準のBLASおよびLAPACKルーチンをラップ

■拡張可能な設計
・可能な限り最も一般的な形式でアルゴリズムを提供
・デコーダーがニューラルネットワークなどの適切なスコアのソースから動作できる

■広く利用可能なデータベースから動作する音声認識システムを構築
・「LDC」(Linguistic Data Consortium)などから提供されるデータベースを利用可能

開発方針

・「一般的なアルゴリズム」と「普遍的なレシピ」を重視
・証明可能で正しいアルゴリズム
・コードは分かりやすく
・再利用とリファクタリングが容易
・徹底的にテスト

オフィシャルサイト

→github.com →kaldi-asr/kaldi

→kaldi-asr.org

2⃣オールインワン会話型AIツールキット「SpeechBrain」

概要

「SpeechBrain」は、PyTorchに基づくオープンソースの「オールインワン会話型AIツールキット」です。

音声(言語技術)の研究を高速化促進するためのさまざまな便利なツールを提供します。

さまざまな機能について、開発が進められています。
・音声認識
・話者認識
・音声強調
・音声分離
・言語識別
・マルチマイク信号処理 など

「SpeechBrain」の特徴

■事前トレーニング済みモデル
・推論が容易なインターフェースと結合
・すべての実験結果を「Googleドライブ共有フォルダ」で提供
・誰もが結果を再現できる

■カスタマイズ性
・必要に応じてプロセスの任意の部分をオーバーライド
・データのトレーニングと評価のループを管理

■YAMLベースのハイパーパラメータファイル
・トレーニングスクリプトが大幅に簡素化される
・学習率の指定
・カスタムモデルの指定

■マルチGPUトレーニング
・PyTorch Data-Parallel
・Distributed Data-Parallel

■I/Oパイプラインのカスタマイズ
・オンザフライダウンサンプリング
・BPEトークン化
・並べ替え
・しきい値の追加 など

「音声認識機能」の特徴

・事前トレーニング済モデル「wav2vec 2.0」のサポート
・音声ファイルの書き起こしのための事前トレーニング済みモデル
・他の既存のツールキットと同等のパフォーマンス
・簡単にカスタマイズできるニューラル言語モデル
・多くの利用可能なエンコーダー
・トランスデューサーエンドツーエンドASR

オフィシャルサイト

→github.com →speechbrain/speechbrain

→speechbrain.github.io

3⃣音声認識機械学習ライブラリ「Flashlight」

概要

「Flashlight」は、音声認識が可能な高速柔軟な「機械学習用C++ライブラリ」です。

「Facebook AI Research」+「Torch、TensorFlow、Eigen、Deep Speechの作成者」によって開発されています。

機能

「Flashlight」は、単一リポジトリで、複数ドメインにわたる機能を提供します。
・自動音声認識 (旧:wav2letterプロジェクト)
・画像分類
・物体検出
・言語モデリング

特徴

■C++
・C++のネイティブサポート
・シンプルな拡張性
・効率性とスケーラビリティを重視
・小さなフットプリント :10MB未満
・最新のC++ジャストインタイムカーネルコンパイル :ArrayFireライブラリを使用

■強力な研究フレームワーク
・パフォーマンスを犠牲にすることなく高速に反復
・実験設定用途
・アルゴリズム開発用途

オフィシャルサイト

→github.com →flashlight/flashlight

→fl.readthedocs.io

関連セミナー紹介

セミナータイトル

既存のAI議事録作成ツールの課題
~ゆっくり・大きな声で喋らないと認識できない、情報漏えいのリスク~

開催日

2022/05/24(火)

セミナー資料

資料タイトル

既存のAI議事録作成ツールの課題
~ゆっくり・大きな声で喋らないと認識できない、情報漏えいのリスク~

資料ページ数

22ページ

資料イメージ

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

資料アジェンダ

■既存のAI議事録作成ツールの課題

■ロゼッタ企業ミッション
・会社沿革(AI自動翻訳と会議音声翻訳ツールの背景)

■WEB商談のメリット・デメリット

■議事録作成の課題
・議事録作成の負担が大きい
・文字起こしアプリ、ツール、外注(テープ起こし)
・なかなか自社に合ったツールが無い

■議事録作成の解決法
・リアルタイム文字起こし「オンヤク」

■デモンストレーション
・会議で重要なことを話すけど、セキュリティは大丈夫?
・Microsoft Azureを使うことでセキュアにご利用いただけます

■事例紹介
・①バイリンガル社員の補助
・②議事録係の補助ツール
・③聴覚障がいの方の補助ツール

■「会議」はやることがいっぱい!
・人間がやらなくてもよい仕事は自動化することが重要!
・「オンヤク」を活用すると

「セミナー資料ダウンロード」はこちらから(無料)

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

最後に

今後も毎日のように、多くのIT関連セミナーが開催されます。
ご自分のビジネスを強化できるセミナーを見つけて、ぜひ参加してみてください!

→マジセミTOPページ


参考サイト
→assemblyai.com →「The Top Free Speech-to-Text APIs and Open Source Engines」
→hackernoon.com →「Top Transcription APIs and Open Source Libraries in 2022」

おすすめの記事

【デジタル寺田の3分用語解説】「 経済産業省:コンテンツ制作のための 生成AI 利活用ガイドブック 」とは?📘

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 経済産業省:コンテンツ制作のための 生成AI 利活用ガイドブック 」とは?📘

経済産業省による「 生成AI 利活用ガイドブック 」は、企業やクリエイター向けに、安心して「生成AI」を利用するための、「指針」「実例」「注意点」を明示しています。「業務効率化」や「新しいアイデア創出」の支援を目的としています。

【デジタル寺田の3分用語解説】「 2029年問題 」とは?📅

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 2029年問題 」とは?📅

「 2029年問題 」とは、高校でのデジタル教育改革により、新入社員と既存社員間でデジタルスキル格差が拡大する懸念を指します。企業は早急に対応が求められています。この格差は、企業競争力や業務効率にも、影響を及ぼす可能性があります。

【デジタル寺田の3分用語解説】「 VMWare 問題 」とは?🖥️

デジタル寺田の3分用語解説

2024.11.18

【デジタル寺田の3分用語解説】「 VMWare 問題 」とは?🖥️

「 VMWare 」の仮想化技術は、「ITインフラの効率化」に大きく貢献する技術ですが、Broadcomによる買収後のライセンス変更が大きな問題として注目されています。柔軟で慎重な契約見直しが今後の鍵となります。