マジセミドライブ

ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。

おすすめITセミナー資料

2022.09.12

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

無料オープンソース「 音声テキスト変換 ツール 」まとめ3選として、
以下の概要を紹介しています。

1⃣C++音声認識ツールキット「Kaldi」
2⃣オールインワン会話型AIツールキット「SpeechBrain」
3⃣音声認識機械学習ライブラリ「Flashlight」

※「既存AI議事録作成ツールの課題」に関するセミナー資料(22ページ)を無料で参照できます。

無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

1⃣C++音声認識ツールキット「Kaldi」

概要

「Kaldi」は、音声認識用のツールキットです。

C++で書かれており、「音声認識研究者による使用」を目的としています。

特徴

■有限状態変換器(FST)とのコードレベル統合
・OpenFstツールキットに対してコンパイル

■広範な線形代数のサポート
・マトリックスライブラリ :標準のBLASおよびLAPACKルーチンをラップ

■拡張可能な設計
・可能な限り最も一般的な形式でアルゴリズムを提供
・デコーダーがニューラルネットワークなどの適切なスコアのソースから動作できる

■広く利用可能なデータベースから動作する音声認識システムを構築
・「LDC」(Linguistic Data Consortium)などから提供されるデータベースを利用可能

開発方針

・「一般的なアルゴリズム」と「普遍的なレシピ」を重視
・証明可能で正しいアルゴリズム
・コードは分かりやすく
・再利用とリファクタリングが容易
・徹底的にテスト

オフィシャルサイト

→github.com →kaldi-asr/kaldi

→kaldi-asr.org

2⃣オールインワン会話型AIツールキット「SpeechBrain」

概要

「SpeechBrain」は、PyTorchに基づくオープンソースの「オールインワン会話型AIツールキット」です。

音声(言語技術)の研究を高速化促進するためのさまざまな便利なツールを提供します。

さまざまな機能について、開発が進められています。
・音声認識
・話者認識
・音声強調
・音声分離
・言語識別
・マルチマイク信号処理 など

「SpeechBrain」の特徴

■事前トレーニング済みモデル
・推論が容易なインターフェースと結合
・すべての実験結果を「Googleドライブ共有フォルダ」で提供
・誰もが結果を再現できる

■カスタマイズ性
・必要に応じてプロセスの任意の部分をオーバーライド
・データのトレーニングと評価のループを管理

■YAMLベースのハイパーパラメータファイル
・トレーニングスクリプトが大幅に簡素化される
・学習率の指定
・カスタムモデルの指定

■マルチGPUトレーニング
・PyTorch Data-Parallel
・Distributed Data-Parallel

■I/Oパイプラインのカスタマイズ
・オンザフライダウンサンプリング
・BPEトークン化
・並べ替え
・しきい値の追加 など

「音声認識機能」の特徴

・事前トレーニング済モデル「wav2vec 2.0」のサポート
・音声ファイルの書き起こしのための事前トレーニング済みモデル
・他の既存のツールキットと同等のパフォーマンス
・簡単にカスタマイズできるニューラル言語モデル
・多くの利用可能なエンコーダー
・トランスデューサーエンドツーエンドASR

オフィシャルサイト

→github.com →speechbrain/speechbrain

→speechbrain.github.io

3⃣音声認識機械学習ライブラリ「Flashlight」

概要

「Flashlight」は、音声認識が可能な高速柔軟な「機械学習用C++ライブラリ」です。

「Facebook AI Research」+「Torch、TensorFlow、Eigen、Deep Speechの作成者」によって開発されています。

機能

「Flashlight」は、単一リポジトリで、複数ドメインにわたる機能を提供します。
・自動音声認識 (旧:wav2letterプロジェクト)
・画像分類
・物体検出
・言語モデリング

特徴

■C++
・C++のネイティブサポート
・シンプルな拡張性
・効率性とスケーラビリティを重視
・小さなフットプリント :10MB未満
・最新のC++ジャストインタイムカーネルコンパイル :ArrayFireライブラリを使用

■強力な研究フレームワーク
・パフォーマンスを犠牲にすることなく高速に反復
・実験設定用途
・アルゴリズム開発用途

オフィシャルサイト

→github.com →flashlight/flashlight

→fl.readthedocs.io

関連セミナー紹介

セミナータイトル

既存のAI議事録作成ツールの課題
~ゆっくり・大きな声で喋らないと認識できない、情報漏えいのリスク~

開催日

2022/05/24(火)

セミナー資料

資料タイトル

既存のAI議事録作成ツールの課題
~ゆっくり・大きな声で喋らないと認識できない、情報漏えいのリスク~

資料ページ数

22ページ

資料イメージ

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

資料アジェンダ

■既存のAI議事録作成ツールの課題

■ロゼッタ企業ミッション
・会社沿革(AI自動翻訳と会議音声翻訳ツールの背景)

■WEB商談のメリット・デメリット

■議事録作成の課題
・議事録作成の負担が大きい
・文字起こしアプリ、ツール、外注(テープ起こし)
・なかなか自社に合ったツールが無い

■議事録作成の解決法
・リアルタイム文字起こし「オンヤク」

■デモンストレーション
・会議で重要なことを話すけど、セキュリティは大丈夫?
・Microsoft Azureを使うことでセキュアにご利用いただけます

■事例紹介
・①バイリンガル社員の補助
・②議事録係の補助ツール
・③聴覚障がいの方の補助ツール

■「会議」はやることがいっぱい!
・人間がやらなくてもよい仕事は自動化することが重要!
・「オンヤク」を活用すると

「セミナー資料ダウンロード」はこちらから(無料)

【ツール紹介】無料オープンソース「 音声テキスト変換 ツール 」まとめ3選

最後に

今後も毎日のように、多くのIT関連セミナーが開催されます。
ご自分のビジネスを強化できるセミナーを見つけて、ぜひ参加してみてください!

→マジセミTOPページ


参考サイト
→assemblyai.com →「The Top Free Speech-to-Text APIs and Open Source Engines」
→hackernoon.com →「Top Transcription APIs and Open Source Libraries in 2022」

おすすめの記事

【ChatGPT探訪】「 無限議論 」〜最強スタンド考察〜🤔

ChatGPT探訪

2024.05.07

【ChatGPT探訪】「 無限議論 」〜最強スタンド考察〜🤔

マジセミSNSに投稿した 【担当者A】の「 無限議論 」〜最強スタンド考察〜💬 を記事化したものです。 ChatGPTに課金していないみなさんにも、 AI同士の議論をお楽しみいただけます👍 ※原稿テキストを放り込むだけで、 ジョジョ風イラストを作成してしまう生成AIがすごくないですか?

【トレンド解説】米国における「 生成AI活用 」最新動向📈

トレンド解説

2024.05.07

【トレンド解説】米国における「 生成AI活用 」最新動向📈

「米国における 生成AI活用 最新動向」について解説しています。生成AIは日本企業にも多くの可能性をもたらし、「デスクワークの効率化」や「業務の自動化推進」に貢献しています。生成AIを理解し、活用することが、グローバルな競争力を高める鍵となります。

【トレンド解説】超入門「 スマートファクトリー 」🏭

トレンド解説

2024.04.15

【トレンド解説】超入門「 スマートファクトリー 」🏭

「 スマートファクトリー 」への理解を深めるための解説として、初心者向けにわかりやすくまとめた記事です。「新しい工場の概念」「デジタルツインの活用」「IoT技術による最適化」など、現代の製造業に必要な知識を効果的に学べます。 スマートファクトリー の導入によるメリットを具体的に解説しています。