00:00:00SpeechBrainは、オープンソースのPyTorchネイティブなツールキットで、これを使うと
00:00:05学習済みモデルを使って音声AI機能を構築・提供できます。ノイズ除去や話者認証、
00:00:10ASR(自動音声認識)などに対応。トレーニングも微調整も不要です。ここで音声認証を試してみましょう。
00:00:15もっとクリアな音声を期待しているかもしれませんが、はい、ここでは自然にそうなります。
00:00:19判定では「別人」と出ました。これは2つ目のクリップでボイストランスフォーマーを使っているからです。
00:00:23つまり、音声認証が機能しているということです。では、他に何ができるか見てみましょう。
00:00:28動画は随時公開していますので、ぜひチャンネル登録を。デモの前に、簡単に機能を説明します。
00:00:38SpeechBrainは、ASR、音質向上、音源分離、話者ID、TTSなど、音声処理の全スタックを網羅しています。
00:00:44開発者にとって重要な点として、GitHubスター数は9,000超、Hugging Faceとも密接に連携し、
00:00:511行でインストール可能、モデルのロードも数行で済みます。ドキュメントを読み込む時間を省き、
00:00:56素早くリリースしたい人向けに作られています。これが今回の実装に使用したベースのコードです。
00:01:02コードの多くは公式サイトのドキュメントに掲載されていたものです。UIの構築には
00:01:08Gradioを採用しました。Gradioは、こうした用途に非常に適したPythonの機械学習アプリ用ライブラリです。
00:01:14さて、ここからのデモは、見たことがない人には嘘のように見えるかもしれません。
00:01:20多くのデモは完璧な音声で誤魔化しますが、私は逆のことをします。今から大音量で
00:01:24BGMを流します。主に音楽ですね。いきます。音楽が流れる中で、普通に喋って
00:01:31録音しています。これが元の音声です。かなり酷いですよね。では、処理後の音声を見てください。
00:01:37普通に喋っています。声はそのままにノイズだけが消えました。後処理の小細工もありません。
00:01:44重要なのは、これが数秒で動く点です。通話アプリやポッドキャスト、エッジデバイスなど、
00:01:51マイクと音響環境が悪いあらゆる場面で使えます。コードは、モデルをロードして「enhanced batch」を呼ぶだけ。
00:01:57ただ、ドキュメントが少し不親切だったので、Macで動作させるためにコードを調整する必要がありました。
00:02:02次は、冒頭でも少し触れた話者認証です。
00:02:07「音声認証」と聞くと難しそうに思われがちですが、実はそんなことはありません。
00:02:13少なくともこれを使えばね。まず、自分の声を登録します。「はい、これが私の声です」。
00:02:20これが最初の録音。次に、2回目も同じように録音します。
00:02:26「はい、これが私の声です」。では検証…「同一の話者」と出ました。スコアも高く、一致が確認されました。
00:02:36出力にはスコアとランキングが表示されます。では、トランスフォーマーを使わずに別の話し方をしてみると
00:02:42どうなるでしょう。「朝食は何を食べた?」…よし、次はトーンを変えてみます。笑わないでくださいね。
00:02:48「朝食は何を食べた?」。類似度スコアは少し下がりましたが、それでも同一人物であると
00:02:56判定されました。これはVoxCelebで学習されたモデルです。もう一度トランスフォーマーを試しましょう。
00:03:01これが私の普通の声。ここでボイストランスフォーマーをオンにすると、これが私の普通の声。
00:03:08皆さんに2つ目のクリップを再生してみますね。こんな感じです。
00:03:17「これが私の普通の声」。…ええ、かなり違いますよね? 加工されているのがわかります。
00:03:22「全く一致しない」と出ました。出力結果も正解です。
00:03:27音声認証付きのマルチユーザーアプリなど、「誰が話しているか」の特定が必要な場合に最適です。
00:03:32最後のデモです。これはシステムの根幹となるべき機能ですが、
00:03:37リアルタイム文字起こし(ASR)のデモは、実際の音声で試すまでは凄そうに見えるものです。
00:03:43普通に喋ってみますが、実はこの機能、あまり上手く動きません。ドキュメントも
00:03:48役に立たなかったので、正直微妙です。普通の音声からテキストへの変換にしか感じられません。
00:03:53自動登録されるはずが、無数のエラーが発生して、それすらできませんでした。
00:03:58文字起こし自体はできますが、それは他のライブラリでも同じです。
00:04:04自動文字起こしに関しては、期待外れでした。上手く動かなかったんです。
00:04:08音声認証やノイズキャンセリングなど、素晴らしい機能も確かにありますが、
00:04:13まだ調整不足な部分もあります。以上がSpeechBrainのまとめです。
00:04:18全体として、高速でオープン、開発者向けに作られています。
00:04:22概要欄にリンクを貼っておくので、ぜひ皆さんもチェックしてみてください。それではまた次の動画で。