オープンソースのAI文字起こしWhisperをWindowsにインストールして動かすまでの備忘録

Windows 11＋Anaconda環境にオープンソースの音声認識AI「Whisper」をサクッとローカルのWindows PC にインストールして精度を試してみます。

インストール
WhisperとYouTubeの文字起こし対決
YouTube文字起こし
Whisper文字起こし
1. 音声ファイルの用意
2. AI音声認識Whisperの実行
雑感

インストール

Whisper用の環境を作るのであれば

conda create -n whisper
conda activate whisper

最初に注意点を、グラフィックボードのドライバは最新にしておくこと。
cudaは11.6を使用すること。（色気を出して後発の11.7とか12.0を使おうとしてひどい目にあった。：経験談)
Anacondaも最新版だとエラーが出て動作させられなかったので、確実に動いたバージョンのリンクをここに貼っておきます。

以下の4行をAnaconda Promptから実行する。

conda update --all
conda install pytorch==1.12.1 torchvision==0.13.1 torchaudio==0.12.1 cudatoolkit=11.6 -c pytorch -c conda-forge -y
conda install ffmpeg -c conda-forge -y
pip install git+https://github.com/openai/whisper.git

pytorchとかcudaとかffmpegとかインストールしたけど、stable diffusionとかで遊んでいる環境であれば3行目のpipインストールだけで動くはず。

WhisperとYouTubeの文字起こし対決

WhisperとYouTubeの文字起こしで文字認識率対決をしてみます。
適切な音声ファイルがなかったので、YouTubeに上がっている文字起こし練習用の動画をお借りしました。

YouTube

作成した動画を友だち、家族、世界中の人たちと共有

YouTube文字起こし

YouTubeの文字起こしは以下の所から表示できます。

0:01 遠隔医療の技術については例えばですね
0:05 手術の方が今実験的に大学なんかで行われているんですけれども
0:09 遠隔による診断で慢性疾患のようなものは地方では結構行われていると聞いたことが
0:14 あるんですが
0:16 ただですね一般にいいますとそうですねー
0:19 遠隔医療規定が変わってしまっていてなかなかできない現状がありまして
0:24 でも私はですね遠隔よりを進めること自体は基本的にはまぁ良いことではないかとそう
0:30 いうふうに思ってるんですねなるほど
0:32 そうですね私も基本的にはですね遠隔医療はもっ
0:36 自分に取り組んでいいんじゃないかと思ってるんですよね
0:39 医療での胎便原則というものですね気持ちとしてはわかるんですけれども日本には市が
0:45 ほとんどない11が結構たくさんありましてですね
0:49 can you do
0:52 僕は海をかえって危険にさらしているとは何か
0:56 ですよね気もするんですよおそらくですねすんな対面原則を言ってしまうとですねぇー
1:04 に料理まんしました
1:07 警戒されちゃいますし
1:09 医療卒ず痩せない現状に見てですね
1:13 国民の命を守るという観点から考えるとまぁやはり遠隔医療はきちんとやっていくべき
1:20 たと思うんですよね
1:22 例えばディ2g 良いとか
1:26 utp とか
1:28 dtm ナースプラクティショナーとするかとか
1:32 はあああか黒がまあ余裕あると思いますけれども
1:36 ただ看護系大学とか大学院あれだけ作ったんですから
1:42 まあプラッアースプラクティショナー養成してまーいい子の c gen 4
1:50 をある程度いうの医療こうするというのはいいんじゃないかと思ってる奴なるほどー
1:56 って
1:57 ています

Whisper文字起こし

音声ファイルの用意

YouTube動画をダウンロードし、ローカルに保存する必要があります。
手段は各自にお任せとするとして、私は「Free YouTube to MP3 Converter」を使用しました。

いつでも使えるユーチューブからMP3への無料コンバーター

ユーチューブのあらゆる動画とプレイリストを数秒でMP3に変換/ダウンロード。無料のユーチューブコンバーターで高品質320kbpsのMP3をお楽しみください。

AI音声認識Whisperの実行

ツールに音声ファイル名を与えると自動的に言語を判定して結果を出力してくれます。

whisper 業者に依頼したテープ起こしの音声.m4a

[00:00.000 --> 00:09.000] 遠隔医療の技術については、例えばですね、手術のほうは実験的に大学なんかで行っているんですけれども、
[00:09.000 --> 00:15.000] 遠隔による診断で慢性疾患のようなものは、地方では結構行われている人を聞いたことがあるんですが、
[00:15.000 --> 00:24.000] ただですね、一般に言いますと、遠隔医療は規制がかかってしまっていて、なかなかできない現状がありまして、
[00:24.000 --> 00:31.000] でも私はですね、遠隔医療を進めること自体は基本的には良いことではないかと、そういうふうに思ってるんですね。
[00:31.000 --> 00:39.000] なるほど、なるほど。そうですね、私も基本的にはですね、遠隔医療はもっとプジティブに取り組んでいじゃないかと思ってるんですよね。
[00:39.000 --> 00:44.000] 医療での対面原則というものですね、気持ちとしてはわかるんですけれども、
[00:44.000 --> 00:49.000] 日本には医師がほとんどない地域が結構たくさんありましてですね、
[00:49.000 --> 00:56.000] まあ、このような金額物と同じような対面原則は、区民を変えて危険にさらしているのではないか、
[00:56.000 --> 00:58.000] ですよね。そんな気もするんです。
[00:58.000 --> 01:09.000] おそらくですね、そんな対面原則を言ってしまうとですね、医療費がどんどんカップされてしまうんじゃないかと警戒されちゃいますし、
[01:09.000 --> 01:17.000] 医療費をそんなに増やせない現状においてですね、国民の命を守るという観点から考えると、
[01:17.000 --> 01:22.000] まあ、やはり遠隔医療はきちんとやっていくべきだと思うんですよね。
[01:22.000 --> 01:32.000] 例えば、D2DとかD2PとかD2M、ナースプラクティショナーはどうするかとか、
[01:32.000 --> 01:36.000] かくろもいろいろあると思うんですけれども、
[01:36.000 --> 01:43.000] ただ、看護系大学とか大学にはあれだけ作ったんですから、
[01:43.000 --> 01:50.000] まあナースプラクティショナーを要請して、医師の指示、遠隔医療の下でナースプラクティショナーが
[01:50.000 --> 01:55.000] ある程度の医療を行うというのはいいんじゃないかと思ってるんです。
[01:55.000 --> 02:13.000] なるほど。