Georgi Gerganov 14.12.2022, 11:32 Uhr

WASM: Hör mal, wer da spricht

Entwickler Georgi Gerganov hatte die Idee, mit WASM eine lokale Webseite zu bauen, die zuhört, wenn jemand spricht und das Gesagte auswertet. Inzwischen kann an die fertige App ausprobieren.

(Quelle: github.com/ggerganov)

Um seine Idee umzusetzen sollten WASM, WASM Whisper (transcribiert die gesagten Wörter) sowie GPT-2 (generiert einen neuen Satz) genügen. Außerdem sollte das in modernen Browsern bereits eingebaute Web Speech API zum Einsatz kommen, um die von der Web App gehörten und in Sätze gewandelten Daten zu synthetisieren und über die Lautsprecher wiederzugeben. All dies soll lokal im Browser und ganz ohne Server laufen.

Schon beim Aufschreiben seiner Idee schätzte Gerganov die Performance als gerade ausreichend ein und den Umfang der beim Start der App zu ladenden Daten, die mit Hilfe des Fetch API zu übertragen sind, auf rund 314 MByte: 74 MB für das Modell Whisper (tiny.en) plus 240 MB für GPT-2 (small model). Web Speech API ist in modernen Browsern ja bereits eingebaut.

Das Ergebnis stellte sich Gerganov sehr unterhaltsam vor. Sein Beispiel für den Einsatz: "Zum Beispiel kann man die Seite einfach auf dem Handy und dem Tablet öffnen und sie nebeneinander stellen - und zuhören, wie sie über etwas sprechen."

Inzwischen ist sein Prototyp funktionsfähig und kann unter https://whisper.ggerganov.com/talk/ ausprobiert werden. Der Quellcode ist auf dieser GitHub-Seite zu finden.

Autor(in) Bernhard Lauer