マジセミドライブ
ウェビナー関連のニュースやITサービス&ツールの最新情報を随時配信します。
OSS情報
2020.01.01
【OSS情報アーカイブ】BERT


※当記事に記載されている情報は、古くなっている場合があります。オフィシャルサイトで最新情報をご確認ください。
コンテンツ
「BERT」とは
概要
BERT(バート)とは、自然言語処理(NLP)タスクの事前トレーニング手法です。事前トレーニングされたBERTモデルを1つの追加出力レイヤーで微調整することで、「質問応答」や「言語推論」などの幅広いタスクに対応する最先端のモデルを作成できます。Google Researchが中心となり開発が進められています。
基本説明
BERTは「Bidirectional Encoder Representations Transformers」の略称で、言語表現を事前にトレーニングする手法です。
自然言語処理(NLP)とは「言語翻訳」「センチメント分析」「セマンティック検索」「その他の数多くの言語タスク」などにまたがる人工知能(AI)のサブカテゴリです。
「汎用言語理解モデル」を大きなテキストコーパス(Wikipediaなど)で事前トレーニングし、そのモデルをNLPタスク(質問など)に使用します。
「ディープ双方向アプローチ」により、言語理解タスクにおいて、以前のトレーニング方法よりも高い精度に達しています。
オフィシャルサイト情報
■オフィシャルサイト
→arxiv.org →BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
■GitHub
→github.com →google-research/bert
■主要開発元
BERTは、Google Researchが中心となり開発が進められています。
■ライセンス情報
BERTのライセンスは「Apache License 2.0」です。
詳細について、こちらを参照ください。
→github.com →google-research/bert →LICENSE
■動作環境
リポジトリ内のすべてのコードは「CPU」「GPU」「CloudTPU」ですぐに使用できます。
ただし、GPUトレーニングは単一GPUのみサポートしています。
■ダウンロード
→github.com →google-research/bert
高性能
BERTは、高い精度の結果を作成でき、11の自然言語処理タスクで最先端の結果を得られます。
・GLUEスコア:80.5%—7.7%改善
・MultiNLI精度:86.7%—4.6%改善
・質問応答テストF1:93.2ポイント—1.5ポイント改善
・SQuADv2.0テストF1:83.1ポイント—5.1ポイント改善
ディープ双方向アプローチ
BERTは、ディープニューラルネットワークの最下部から開始し、対象箇所の左側と右側の両方のコンテキストを使用する「ディープ双方向アプローチ」を採用しています。
入力内の単語の15%をマスクし、シーケンス全体をディープ双方向変成器エンコーダーで実行してから、マスクされた単語のみを予測します。
次に、大きなコーパス(Wikipedia+BookCorpus)で、モデル(12層から24層の変成器)を長時間トレーニングします。
事前トレーニング
事前トレーニングには、「4〜16のクラウドTPUで4日間ほど」のコストがかかりますが、言語ごとに1回限りの手順です。
■トレーニング済モデル
事前トレーニングモデルがリリースされています。
ほとんどのNLP研究者は、独自モデルを最初から事前トレーニングする必要はありません。
微調整カスタマイズ
微調整プロセスは短時間で完了できます。
「単一クラウドTPUで1時間ほど」もしくは「GPUで数時間ほど」で終了します。
例えば、SQuAD(スタンフォード質問応答データセット)の場合、単一クラウドTPUにおいて約30分でトレーニングでき、91.0%のDevF1スコアを達成できます。
参考元サイト
- →arxiv.org →BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
- →github.com →google-research/bert
※定期的にメンテナンスを実施しておりますが、一部情報が古い場合がございます。ご了承ください。
この記事のタグ一覧
フリーワード検索
カテゴリー一覧
アクセスランキング
- 🏆ランク1位🏆
【無料で使える】「 OCR 」ツールまとめ - 🏆ランク2位🏆
【無料で使える】「 ドキュメント管理 」ツールまとめ - 🏆ランク3位🏆
【ツール紹介】無料オープンソース「 ビデオ監視 ツール 」まとめ3選 - 🏆ランク4位🏆
【OSS情報】AIネイティブ埋め込みデータベース「 Chroma 」 - 🏆ランク5位🏆
【OSS情報アーカイブ】NW.js - 🏆ランク6位🏆
【無料で使える】「 バックアップ 」ツールまとめ - 🏆ランク7位🏆
【OSS情報アーカイブ】Odoo - 🏆ランク8位🏆
【無料で使える】「 プロジェクト管理 」ツールまとめ - 🏆ランク9位🏆
【ChatGPTプラグイン探訪】「 WebPilot 」〜Web検索プラグイン〜 - 🏆ランク10位🏆
【無料で使える】「 暗号化 」ツールまとめ
おすすめの記事


ChatGPT探訪
2023.10.27
【ChatGPT探訪】ビルトイン画像生成AI「 DALL·E 3 」🖼️
ChatGPTに統合されている画像生成AI「 DALL·E 3 」について、 いろいろいじりつつ🔍 各種画像生成チェックを実施してみました🎨 商用利用OKの💼 「日常的に使える画像生成ツール」として活用できそう😊 という感じになりました。 Bing経由でも無料で使えるので🆓 試してみてください👍