Ich habe Speech to Text getestet und mir dazu auf YouTube ein Video einer Haushaltsrede gesucht und mittels Onlinedienst als MP3 heruntergeladen.
Anschließend mit OpenAI Whisper in Text umgewandelt. Die Umwandlung hat ungefähr so lange gedauert wie die Audiodatei. Das Ergebnis ist recht gut geworden, muss aber auf jeden Fall kontrolliert und korrigiert werden.
Installation
cd ~/whispertest python3 -m venv pyvenv source pyvenv/bin/activate pip install openai-whisper
Transkription (Satzweise)
Man kann Whisper so konfigurieren, dass es Satz für Satz transkribiert, anstatt den gesamten Speicher zu belegen:
whisper lange-datei.mp3 --model medium --temperature 0 --best_of 1 --output_dir transkripte
Automatische Zeitsynchronisation
Man kann Whisper mit Time-Stamps laufen lassen:
whisper lange-datei.mp3 --model medium --temperature 0 --best_of 1 --output_format srt --output_dir transkripte