情報更新

last update 09/22 09:55

ツイート検索

 

@matsuu
サイトメニュー
Twilogユーザー検索

Twilog

 

@matsuu

matsuu@matsuu

Stats Twitter歴
5,994日(2007/04/27より)
ツイート数
89,329(14.9件/日)

ツイートの並び順 :

表示するツイート :

2022年12月03日(土)11 tweetssource

12月3日

@matsuu

matsuu@matsuu

stable-tsは全体を把握したうえで処理しているように見えるからリアルタイム文字起こしは難しいんだった。

posted at 09:43:40

12月3日

@matsuu

matsuu@matsuu

stable-tsにストリームで食わせる方法がまだわかってない。もしできるなら高品質なリアルタイム文字起こしも余裕だと思われる。

posted at 01:10:23

12月3日

@matsuu

matsuu@matsuu

#!/usr/bin/env python

from stable_whisper import load_model, results_to_word_srt

model = load_model('large')
results = model.transcribe('podcast-ep348.mp3', language='ja')
results_to_word_srt(results, 'podcast-ep348.srt', combine_compound=True)

posted at 01:10:23

12月3日

@matsuu

matsuu@matsuu

whisper実行中のnvidia-smiコマンド実行結果。nvidia-smiは初めて使ったので、どう読めばいいのかわからん。Xwaylandが見えるのは最新のWSLだからか。勝手に動いてる? pic.twitter.com/gdixHAHfSr

posted at 01:10:22

12月3日

@matsuu

matsuu@matsuu

Whisperが一応動いたのでCUDAを使って文字起こし。RTX3060はメモリが12GB載ってるおかげかlargeモデルもok。試しに #rebuildfm のep348(01:20:01)を食わせたらlargeでかかった時間は00:35:28。実行コマンドは以下
whisper --model large --language ja podcast-ep348.mp3
rebuild.fm/348/

posted at 01:10:21

12月3日

@matsuu

matsuu@matsuu

# 奇妙な書き方をしているのは.soがtwitter上でリンクになってしまうのを回避するためです
cd /usr/lib/wsl/lib
sudo rm libcuda.{so.1,so}
sudo ln -s libcuda.{so.1.1,so.1}
sudo ln -s libcuda.{so.1,so}
sudo ldconfig

posted at 01:10:21

このページの先頭へ

×