ここに書かれてたわ
https://github.com/microsoft/WSL/issues/5663…
posted at 21:54:29
Stats | Twitter歴 5,994日(2007/04/27より) |
ツイート数 89,329(14.9件/日) |
表示するツイート :
ここに書かれてたわ
https://github.com/microsoft/WSL/issues/5663…
posted at 21:54:29
stable-tsは全体を把握したうえで処理しているように見えるからリアルタイム文字起こしは難しいんだった。
posted at 09:43:40
stable-tsにストリームで食わせる方法がまだわかってない。もしできるなら高品質なリアルタイム文字起こしも余裕だと思われる。
posted at 01:10:23
#!/usr/bin/env python
from stable_whisper import load_model, results_to_word_srt
model = load_model('large')
results = model.transcribe('podcast-ep348.mp3', language='ja')
results_to_word_srt(results, 'http://podcast-ep348.srt', combine_compound=True)
posted at 01:10:23
Whisper(large)+stable-tsで同じep348の文字起こしを試したところかかった時間は00:15:41。速い。stable-ts最高だ。stable-tsの使い方サンプルは次のツイートで。
https://github.com/jianfch/stable-ts…
posted at 01:10:22
whisper実行中のnvidia-smiコマンド実行結果。nvidia-smiは初めて使ったので、どう読めばいいのかわからん。Xwaylandが見えるのは最新のWSLだからか。勝手に動いてる? https://pic.twitter.com/gdixHAHfSr
posted at 01:10:22
Whisperが一応動いたのでCUDAを使って文字起こし。RTX3060はメモリが12GB載ってるおかげかlargeモデルもok。試しに #rebuildfm のep348(01:20:01)を食わせたらlargeでかかった時間は00:35:28。実行コマンドは以下
whisper --model large --language ja podcast-ep348.mp3
https://rebuild.fm/348/
posted at 01:10:21
# 奇妙な書き方をしているのは.soがtwitter上でリンクになってしまうのを回避するためです
cd /usr/lib/wsl/lib
sudo rm libcuda.{so.1,so}
sudo ln -s libcuda.{so.1.1,so.1}
sudo ln -s libcuda.{so.1,so}
sudo ldconfig
posted at 01:10:21
WhisperでCUDAを使ってみたかったので試したがlibcuda\.so周りでエラー。ググって出てくる対処はどれも正しくなくて、/usr/lib/wsl/lib配下のhttp://libcuda.so*を次のツイートのようにsymlinkにしてあげるのがいいはず。nVIDIAよ直してくれ
https://github.com/openai/whisper
posted at 01:10:20
WSL2+UbuntuでCUDA環境を整備。これに従ってセットアップ。取り急ぎWSL上で動かすことにしてDockerまでは手を出してない。apt install cudaまで。
https://docs.nvidia.com/cuda/wsl-user-guide/index.html…
posted at 01:10:20
ふと思い立ってCUDA実行環境を手に入れた。
ドスパラのデスクトップPC「Magnate MV」
Core i5-12400、メモリ16GB、GeForce RTX3060(12GB)。OSはWindows11 Homeのまま。カスタマイズはキーボードとマウスを不要にしたのみ。330円引きクーポンで166,650円 #ドスパラでこれ買った https://www.dospara.co.jp/5shopping/detail_prime.php?mc=11766&sn=0…
posted at 01:10:19