オープンソースのAI文字起こしWhisperを試してみる

Windows+Anaconda環境にオープンソースの音声認識AI「Whisper」をサクッとローカルのWindows PC にインストールして精度を試してみます。

インストール

以下の3行をAnaconda Promptから実行する。

conda install pytorch torchvision torchaudio cudatoolkit=11.6 -c pytorch -c conda-forge
conda install ffmpeg -c conda-forge
pip install git+https://github.com/openai/whisper.git

pytorchとかcudaとかffmpegとかインストールしたけど、stable diffusionとかで遊んでいる環境であれば3行目のpipインストールだけで動くはず。

WhisperとYouTubeの文字起こし対決

WhisperとYouTubeの文字起こしで文字認識率対決をしてみます。
適切な音声ファイルがなかったので、YouTubeに上がっている文字起こし練習用の動画をお借りしました。

業者に依頼したテープ起こしの音声
実際にテープ起こしをしていただいた音声です。

YouTube文字起こし

YouTubeの文字起こしは以下の所から表示できます。

0:01 遠隔医療の技術については例えばですね
0:05 手術の方が今実験的に大学なんかで行われているんですけれども
0:09 遠隔による診断で慢性疾患のようなものは地方では結構行われていると聞いたことが
0:14 あるんですが
0:16 ただですね一般にいいますとそうですねー
0:19 遠隔医療規定が変わってしまっていてなかなかできない現状がありまして
0:24 でも私はですね遠隔よりを進めること自体は基本的にはまぁ良いことではないかとそう
0:30 いうふうに思ってるんですねなるほど
0:32 そうですね私も基本的にはですね遠隔医療はもっ
0:36 自分に取り組んでいいんじゃないかと思ってるんですよね
0:39 医療での胎便原則というものですね気持ちとしてはわかるんですけれども日本には市が
0:45 ほとんどない11が結構たくさんありましてですね
0:49 can you do
0:52 僕は海をかえって危険にさらしているとは何か
0:56 ですよね気もするんですよおそらくですねすんな対面原則を言ってしまうとですねぇー
1:04 に料理まんしました
1:07 警戒されちゃいますし
1:09 医療卒ず痩せない現状に見てですね
1:13 国民の命を守るという観点から考えるとまぁやはり遠隔医療はきちんとやっていくべき
1:20 たと思うんですよね
1:22 例えばディ2g 良いとか
1:26 utp とか
1:28 dtm ナースプラクティショナーとするかとか
1:32 はあああか黒がまあ余裕あると思いますけれども
1:36 ただ看護系大学とか大学院あれだけ作ったんですから
1:42 まあプラッアースプラクティショナー養成してまーいい子の c gen 4
1:50 をある程度いうの医療こうするというのはいいんじゃないかと思ってる奴なるほどー
1:56 って
1:57 ています

Whisper文字起こし

音声ファイルの用意

YouTube動画をダウンロードし、ローカルに保存する必要があります。
手段は各自にお任せとするとして、私は「Free YouTube to MP3 Converter」を使用しました。

いつでも使えるユーチューブからMP3への無料コンバーター
ユーチューブのあらゆる動画とプレイリストを数秒でMP3に変換/ダウンロード。無料のユーチューブコンバーターで高品質320kbpsのMP3をお楽しみください。

AI音声認識Whisperの実行

ツールに音声ファイル名を与えると自動的に言語を判定して結果を出力してくれます。

whisper 業者に依頼したテープ起こしの音声.m4a
[00:00.000 --> 00:09.000] 遠隔医療の技術については、例えばですね、手術のほうは実験的に大学なんかで行っているんですけれども、
[00:09.000 --> 00:15.000] 遠隔による診断で慢性疾患のようなものは、地方では結構行われている人を聞いたことがあるんですが、
[00:15.000 --> 00:24.000] ただですね、一般に言いますと、遠隔医療は規制がかかってしまっていて、なかなかできない現状がありまして、
[00:24.000 --> 00:31.000] でも私はですね、遠隔医療を進めること自体は基本的には良いことではないかと、そういうふうに思ってるんですね。
[00:31.000 --> 00:39.000] なるほど、なるほど。そうですね、私も基本的にはですね、遠隔医療はもっとプジティブに取り組んでいじゃないかと思ってるんですよね。
[00:39.000 --> 00:44.000] 医療での対面原則というものですね、気持ちとしてはわかるんですけれども、
[00:44.000 --> 00:49.000] 日本には医師がほとんどない地域が結構たくさんありましてですね、
[00:49.000 --> 00:56.000] まあ、このような金額物と同じような対面原則は、区民を変えて危険にさらしているのではないか、
[00:56.000 --> 00:58.000] ですよね。そんな気もするんです。
[00:58.000 --> 01:09.000] おそらくですね、そんな対面原則を言ってしまうとですね、医療費がどんどんカップされてしまうんじゃないかと警戒されちゃいますし、
[01:09.000 --> 01:17.000] 医療費をそんなに増やせない現状においてですね、国民の命を守るという観点から考えると、
[01:17.000 --> 01:22.000] まあ、やはり遠隔医療はきちんとやっていくべきだと思うんですよね。
[01:22.000 --> 01:32.000] 例えば、D2DとかD2PとかD2M、ナースプラクティショナーはどうするかとか、
[01:32.000 --> 01:36.000] かくろもいろいろあると思うんですけれども、
[01:36.000 --> 01:43.000] ただ、看護系大学とか大学にはあれだけ作ったんですから、
[01:43.000 --> 01:50.000] まあナースプラクティショナーを要請して、医師の指示、遠隔医療の下でナースプラクティショナーが
[01:50.000 --> 01:55.000] ある程度の医療を行うというのはいいんじゃないかと思ってるんです。
[01:55.000 --> 02:13.000] なるほど。

最後に実際の音声を聞きながらの校正は必要ですが、紙をめくった音や、何かがぶつかった音と重なったとき以外はほとんど正確に文字認識できている事がわかると思います。

変換元のディレクトリにテキストファイルと、字幕用のsrtファイルとvttファイルができています。
動画編集ソフトに読み込ませることで簡単に字幕が付けられますね。

雑感

対話形式だと相手の相槌まで拾うと非常に読みにくく、理解しにくい文字起こしとなってしまいますので、どこまで文字として拾うか非常に悩みどころです。

サンプル音声が医療系技師の会話かつ雑音混じりということもあって、一般の人が聞いても聞き取りにくい音声ですがYouTubeとWhisperの文字認識精度はいかがだったでしょうか?

録音した会議の文字起こしに予算がつかないような所であれば、Whisperの音声認識が、十分実用に耐える精度だったと言えるのではないでしょうか。

生業として文字起こしの仕事を受けるのであれば、出力されたテキストを見ながら動画を再生して、誤変換だけ訂正して提出というワーカーはもはや生き残れませんね。

キーパンチに要していた時間を、文章として読みやすく整えるという国語のスキルが求められていくことでしょう。

コメント

タイトルとURLをコピーしました