|

Technology:
Warum ist Spracherkennung
so schwierig?
Die Sprachverarbeiter
||| Oliver Weiss
Speech-to-Text-Systeme sind der große Renner der letzten Zeit. Die Vorstellung, einfach mir nichts, dir nichts ins Mikro zu sprechen, und der gewünschte Text erscheint auf dem Bildschirm, wird jedoch schnell ernüchtert: Viel zu wenig wird richtig erkannt. Sind die Diktiersysteme zu schlecht? Oder liegt es womöglich an grundsätzlichen Schwierigkeiten? |
 |
| Speech-to-Text:
What makes automatic speech recognition so difficult? Find out with this article. |
|
S |
 |
 |
|
 |
Fragen
an...
Heinrich Niemann
(aus
LEGAmedia, 2/2002)
|
Heinrich Niemann ist Professor für
Informatik an der Universität Erlangen-Nürnberg (Lehrstuhl für
Mustererkennung)
|

Hier können Sie das Interview auch hören und dabei bekommen Sie gleich einen Geschmack vom Stand der Technik
bei der Sprachsynthese: Denn der Text wird vorgelesen mit der Stimme von realen
Menschen. |
Was bedeutet Sprach-
erkennung, was
bedeutet Sprachverstehen?
Heinrich Niemann: Spracherkennung ist
das Erkennen der Folge der gesprochenen Wörter (und nicht mehr). Das ist
z.B. hinreichend für die Diktiermaschine, bei der nur eine Umsetzung von
Sprache zu Schrift gefragt ist, aber kein Satzverständnis.
Sprachverstehen hingegen bedeutet das
Erkennen der Wörter plus das Erfassen des Inhalts; das ist z.B.
notwendig, wenn man auf eine gesprochene Frage automatisch eine Antwort
von einer Maschine generieren will.
Warum versteht mich mein Rechner nicht
so gut wie Sie mich? Wie lange wird es dauern, bis der Computer und ich
uns richtig unterhalten können?
Das liegt zum einen an Problemen mit der
automatischen Worterkennung, die noch nicht perfekt ist, zum anderen an
Mehrdeutigkeiten der natürlichen Sprache und damit verbunden dem
automatischen Verständnis einer Äußerung.
Es gibt bereits jetzt einsatzfähige
Dialogsysteme, mit denen ein kooperativer Benutzer einen Dialog zu einem
bestimmten Zweck, z.B. Fahrplanauskunft oder Kinoauskunft, führen kann.
Seit den 60er Jahren arbeitet man schon
daran, Sprache - und auch Handschriften - automatisch zu erkennen. Wie
weit ist man heute, und warum hat es so lange gedauert?
Es gibt Diktiersysteme mit großem Wortschatz
und guter Worterkennungsrate sowie einsatzfähige Dialogsysteme für
spezielle Aufgaben, kooperative Benutzer vorausgesetzt. Es gibt
Adressenleser, die handbeschriftete Briefe mit guter Erfolgsrate
sortieren. Es hat lange gedauert, weil die Probleme anfänglich vermutlich
unterschätzt wurden und weil die Rechnerleistung früher wesentlich
geringer war.
Übrigens
liefen auch die
ersten Autos schon vor gut 100 Jahren, und trotzdem wird immer noch an
ihrer
Verbesserung gearbeitet; ähnlich wird es wohl auch in der Sprach-
und Bildverarbeitung sein.
Sätze wie "Ich darf Sie
weiterverbinden?" und "Ich darf Sie weiterverbinden!" haben
dieselben Sprachlautelemente, klingen aber doch unterschiedlich. Welchen
Einfluss hat die Sprachmelodie auf die automatische Spracherkennung?
Auf die Spracherkennung ist
nach experimentellen Ergebnissen der Einfluss bisher gering. Für das
Sprachverstehen ist die Sprachmelodie offensichtlich wichtig. Sie wird zunehmend in der Forschung berücksichtigt und ist in ersten
Laborsystemen erfolgreich im Einsatz.
|
|
pracherkennung?
Gelöst,“ brüsten sich die Hersteller digitaler Diktiersysteme, die gesprochene
Wörter in Text umwandeln. Der letzte Schrei: die Erkennung „kontinuierlich“
gesprochener Texte.
Wenn
Ordnungswidrigkeiten in „Ordnungsüßigkeiten“ abgemildert werden und sich der
gebotene Sicherheitsabstand als „Gebot der Sicherheit am Tanzen“ entpuppt, ist
der Fall klar: Man hat es mit einem Speech-to-Text-
Diktiersystem (STT) zu tun.
Dabei
ist das Szenario „Sprechen statt Tippen“ doch so verlockend: Anstatt der
Sekretärin ein Band in die Hand zu drücken oder dem Gedanken eigenhändig mit
zwei Fingern beizukommen, spricht man einfach ins Mikrofon, das
Computerprogramm erkennt automatisch was man meint und wandelt es in Text um,
fertig. – Halt, nicht so schnell: Spracherkennung gehört zu den schwierigsten
Challenges der letzten Jahrzehnte. Auch wenn wir uns spracherkennerisch noch
in der Kreidezeit befinden (die ersten Primaten erobern das Land), ist der
Einsatz von Sprache erstmalig wirklich greifbar geworden.
Auf die Plätze,
fertig, los!
Schieben wir als erstes
mal alle Euphorie beiseite: Keines der auf dem Markt erhältlichen
Spracherkennungssysteme ist so gut wie man es sich wünschen würde. Gewarnt sei
jedenfalls vor den allzu verlockenden Angaben von Spracherkennungsleistungen
in Prozentzahlen („95% richtige Erkennung!“): Das ist nämlich unter anderem
abhängig von der Systemqualität, der Diktiererfahrung, der Vertrautheit mit
dem Text, von Hintergrundgeräuschen, der Mikrofonposition, von Stimme und
Akzent, der Betonung, dem Rhythmus, der Disziplin, der insgesamten
Trainingszeit, und vielen weiteren Faktoren die man in einer normalen
Arbeitsumgebung unmöglich alle auf einmal standardisieren kann.
Auch
wenn man ungeduldig ist, das von allen Systemen vorgesehene Eingangstraining
sollte man unbedingt absolvieren, sonst darf man sich über schlechte
Ergebnisse nicht wundern. (Übrigens sollte man die Systeme immer auch selbst
testen und sie sich nicht nur vorführen zu lassen – es ist kein Problem, ein
dummes System mit einer Handvoll eindruckschindender Sätze zu trainieren.) Es
zwingt dazu, mit dem Mikrofon richtig umzugehen (nicht ganz einfach) und – bei
den meisten Systemen – falsch erkannte Wörter sofort zu korrigieren (erfordert
Disziplin).
Grundsätzlich
qualifiziert es den Anbieter, wenn die Trainingszeit länger als kürzer dauert.
Im Eingangstraining werden die individuellen Sprechgewohnheiten des jeweiligen
Benutzers an das mathematische und „Real-Life“-Sprachmodell angepaßt. Typische
Spracheigenarten wie Dialekt, Rauhheit der Stimme oder Sprechduktus spielen
keine allesentscheidende Rolle, solange sie sich in gewissen Toleranzgrenzen
bewegen.
Entgegen
der Ansicht vieler Neulinge funktioniert ein Spracherkenner nicht so, daß
einfach alle vorkommenden Lauteinheiten („Phoneme“) aufgenommen und dem
entsprechenden Text in Buchstaben zugeordnet werden. Alle Systeme „lernen“ mit
der Zeit, d. h. sie adaptieren sich an den Benutzer und werden, wenn man
gewissenhaft bei der Korrektur ist, immer besser.
Hintergrundgeräusche
spielen meist keine große Rolle, wenn sie erstens relativ leise sind und
zweitens relativ gleichförmig (Festplatte, Stadtrauschen).
„Kontinuierliche“ Erkennung
Der
Begriff ist tückisch: „kontinuierlich gesprochene Sprache“ ist nicht gleich
„natürlich gesprochene Sprache“. Auch wenn man die einzelnen Wörter hier etwas
verbinden kann, darf man dabei weder übertreiben (zu schnell sprechen) noch
auch nur ansatzweise so reden wie einem der Diktatschnabel gewachsen ist („Jou,
nmachmadiesnhier, ne“). Der Erfolg der Erkennung ist immer noch wesentlich in
der Hand des Diktanten, der sich halssprecherisch ziemlich zusammennehmen muß.
Beim
Diktieren ist es wichtig, immer daran zu denken, daß man mit einer richtig
dummen Maschine spricht und nicht mit einem richtig intelligenten Menschen:
Die Software versucht händeringend, jedes Räuspern, Lautatmen, Naserümpfen,
Lippenschmatzen, jedes Füllwort („Äh“, „Mei“) und alle falschgesprochenen
Wörter („Herrn Müller, nee, halt, ich mein’ Meier“) Datenbankphonemen
zuzuordnen. Wenn man sich vorstellt, man spräche in eine
Siebziger-Jahre-Diktierbox fährt man ganz gut.
|
Sprach-erkennungs-systeme
eignen sich vorwiegend für klassische Dikate.
|
Geeignet oder nicht?
Spracherkennungssysteme
eignen sich vorwiegend zu zwei Zwecken: für klassische Dikate und für
„Abschriften“ von vorgelesenen Texten, wenn man nicht verbrecherisch schnell
liest.
Wenn
man einen kreativen „Stream of Thought“ wie den vorliegenden Beitrag zu Papier
bringen will, der irgendwo angefangen und irgendwo aufgehört und irgendwo
fortgesetzt wird, macht man unterwegs soviele Gedankensprünge, daß der „Rückspul“-bzw.
Textkorrekturaufwand schnell im falschen Verhältnis steht: ein Problem, das
auch bei der klassischen Diktierbox auftritt und erfahrenen Diktierern
vielleicht weniger Mühe macht als mir.
Hinterm Busch
Die verwendeten
Algorithmen der Spracherkennung haben sich in den letzten Jahrzehnten weit
weniger stark verändert als die zugehörige Hardware, die heute mit
superschnelle Signalprozessoren protzt, die man sich früher nicht vorstellen
konnte. Trotz aller Erfolge ist die Spracherkennung noch längst nicht
ausgereizt.
Die
momentane Forschung fokussiert sich v. a. auf vier Aspekte:
Erkennungsgschwindigkeit, Fehlerrate, Vokabelmenge und Prosodie, also die
Einflüsse der Intonation und Akzentuierung, der Wortübergänge, der Rauhheit
der Stimme usw.
Auch
wenn wir das Präkambrium der sechziger Jahre hinter uns spüren, hat die
Spracherkennung eigentlich eben erst gerade maturiert – sie wird den Umgang
mit dem Computer ein großes Stück in Richtung „normaler“ Kommunikation
bringen.
Die Mathematik dahinter
Bastelstunde: Wir bauen ein Spracherkennungssystem, das flüssig gesprochene Sprache erkennen und alle Wörter einer Sprache verstehen kann.
Und sprecherunabhängig und schnell soll es natürlich auch sein, logisch. Eigentlich genauso wie das Gehirn: schnell, zuverlässig, gut.
Leider ist das alles teuflisch kompliziert. Nur Dank unserer hochkomplexen neurophysiologischen und kognitiven Verarbeitungfähigkeiten wird der Sprachschall richtig interpretiert.
Jeden Sprachlaut ordnet das Gehirn rasend schnell innerhalb des "Wissenspools" zu, den man sich im Laufe der Jahre angeeignet hat über Sprachsignale, Artikulation, Syntax und Semantik.
Ein automatisches Spracherkennungssystem muß die im Sprachsignal enthaltene Information von Umgebungsgeräuschen trennen und sie dann nach akustischen, phonetischen, statistischen und anderen Kriterien "entschlüsseln", also den gesprochenen Wörtern zuzuordnen.

Das Speech-to-Text-Modell: Das Sprachsignal wird analysiert, und häppchenweise mit Signalen der Datenbank verglichen. Zusammen mit Abgleichen nach Wörterbuch, Grammatik und Bedeutung wird schließlich die Wortfolge mit der besten Trefferquote in Text umgewandelt.
|
 |
|
|
Sprachsignal (oben) mit Spektrum (darunter):
Das Spektrum zeigt die im Sprachsignal enthaltenen Frequenzanteile an. |
|

|
|
Schwierig wird die automatische Spracherkennung v.a. durch folgende Stolpersteine:
Kontinuität: Sprache besteht nicht aus voneinander unabhängigen Einzellauten, sondern aus deren Aneinanderreihung mit verbindenden Übergängen ("undschnellsollessein").
Variabilität: Sprache ist sprecherabhängig, d.h. Heinz oder Helene Schmitt sprechen das Wort "Spracherkennung" anders aus als Max oder Margarete Mayr. Das hängt zum einen von den
"Sprachapparaten" der jeweiligen Parteien ab (Anatomie, Alter, Geschlecht, Gesundheitszustand usw.), und zum andern von ihren Sprechgewohnheiten (Tempo, Duktus, Emotionen, Dialekt usw.).
Die kontextabhängige Aussprache eines Worts oder Lauts hat mit seinen unterschiedlichsten Klang-, Intensitäts- und Rhythmuseigenschaften i.a. den größten Einfluß auf die Qualität eines automatischen Erkennungssystems.
Es ist sehr schwierig, für Wörter oder Laute akustische Prototypen zu finden,
die alle Sprechvariationen abdecken und sich gleichzeitig genügend von anderen unterscheiden. Weitere Störquellen sind natürlich Typ und Position des Aufnahmemikrofons.
"Noise": Gesprochene Sprache wird meist von Hintergrundgeräuschen überlagert; damit wird ein Teil ihrer Information kaschiert.
|
Gesprochene Sprache wird meist von Hintergrund-geräuschen überlagert; damit wird
ein Teil ihrer Information kaschiert.
|
Die Aufgabe der Spracherkennung, diese "Noise"-Signale vom Sprachsignal zu trennen, hat sich längst zu einer eigenen Forschungsrichtung entwickelt. Es genügt ja nicht,
wie man meinen könnte, einfach das Geräuschsignal vom Sprachsignal zu subtrahieren, denn erstens ist "Noise" ein stochastischer Prozeß, bei dem die Signale dauernd rauf- und runtergehen, und zweitens würde man z.B. bei Rasenmäherhintergrundgeräusch auch einen "niederfrequenten" Teil der Sprachsignals wegschneiden und damit wesentliche Information verlieren.
Komplexität und Ambiguität: Ohne sehr hohe Rechenleistung und Speicherkapazität, die erst die heutigen Rechner leisten, geht gar nichts: Das gesprochene Wort wird nämlich 8000 bis 20000 Mal pro Sekunde "abgetastet", also digitalisiert; außerdem wird jeder aufgezeichnete Laut mit Tausenden von
Schubladenlauten verglichen, und das in Beinahe-Echtzeit.
Wenn dann mal endlich ein Laut zugeordnet werden konnte, muß noch überprüft werden, wie er geschrieben wird: Ist er ein einzelnes Wort oder Teil eines längeren Wortes, und wie wird das Wort geschrieben, "mehr", "meer", "mer" oder "mär", oder gar "ma" oder "mor", oder wie oder was? – Das ist abhängig von den umgebenden Worten / Wortteilen, die vor der endgültigen
Entscheidung statistisch miteinander verrechnet werden müssen.
Um die ganze Sache weiter zu verkomplizieren, kommen natürlich je nach Sprache mehr oder weniger gravierende grammatikalische Schwierigkeiten hinzu. Zwei Wörter mögen genau gleich klingen, haben aber vielleicht unterschiedliche Bedeutungen und werden anders geschrieben. Diese Ambiguität ("How to recognize speech – How to wreck a nice beach") macht das Leben natürlich zusätzlich kompliziert: Guter Rad ist da teuer.
Damit mag sich erahnen lassen, warum heute Spracherkennungssysteme im besten Fall unter genau kontrollierten "Labor"-Bedingungen funktionieren – und warum die "Real-Life"-Sprachforschung eigentlich gerade erst begonnen hat.
[1998]

|