Categories
AI Development

OpenAI Whisper

Ich habe Speech to Text getestet und mir dazu auf YouTube ein Video einer Haushaltsrede gesucht und mittels Onlinedienst als MP3 heruntergeladen.
Anschließend mit OpenAI Whisper in Text umgewandelt. Die Umwandlung hat ungefähr so lange gedauert wie die Audiodatei. Das Ergebnis ist recht gut geworden, muss aber auf jeden Fall kontrolliert und korrigiert werden.

Installation

cd ~/whispertest
python3 -m venv pyvenv
source pyvenv/bin/activate
pip install openai-whisper

Transkription (Satzweise)

Man kann Whisper so konfigurieren, dass es Satz für Satz transkribiert, anstatt den gesamten Speicher zu belegen:

whisper lange-datei.mp3 --model medium --temperature 0 --best_of 1 --output_dir transkripte

Automatische Zeitsynchronisation

Man kann Whisper mit Time-Stamps laufen lassen:

whisper lange-datei.mp3 --model medium --temperature 0 --best_of 1 --output_format srt --output_dir transkripte