Universität zu Köln
Institut für Sprachlich Informationsverarbeitung
Seminar
Computer Linguistische Grundlagen
Jürgen Hermes
WS 2002/ 2003 und SS 2003
Sprachsynthese
von
Pascal Christoph
Kalscheurer Weg 31
50969 Köln
Tel. 0221 - 8002553
Email: spinne1974@yahoo.de
Inhalt
1. Definition 3
2. Geschichte 3
3. Technik 5
4. Exkurs 7
5. Anwendung 8
6. Ausblick 9
7. Literaturverzeichnis 11
Sprachsynthese bezeichnet die lautliche Produktion von Sprache durch
eine Maschine. "Sprache dient letztendlich dazu, Information - mehr oder
weniger vollständig und fehlerfrei - vom Sprecher zum Hörer zu
übertragen. Die Akustik dient uns dabei, kodierte Information von
der Oberfläche des Sprechers (Phonation, Artikulationstrakt) auf die
Oberfläche des Hörers (Basilarmembran) zu leiten (signalphonetisches
Band)."
We always have a choice, or at least we think we do.
We could always use our voice - I thought this to be true.
(moorcheba, 'fear and love' )
Die maschinelle Sprachsynthese geht als Forschungsrichtung allen anderen Entwicklungen der Sprachtechnologie voraus. Erste Versuche zur Synthese von Sprache wurden 1779 an der Königlichen Akademie St. Petersburg unternommen: C.G. Kratzenstein konstruierte eine Nachbildung des Vokaltraktes zur Erzeugung vokalischer Klänge.
1791 baute Baron Wolfgang von Kempelen einen mechanischen Sprechapparat, der bereits Laute und Lautübergänge formulieren konnte. Dieser arbeitete mit Blasebälgen und Kammern, deren Form mit den Händen verändert werden konnte. 100 Jahre später wurde diese Maschine von Charles Wheatstone weiterentwickelt, jedoch basierte auch diese Maschine noch auf mechanischen Prinzipien.
Auch Alexander Bell (1847-1922) setzte aus verschiedenen künstlichen Werkstoffen einen "sprechenden Kopf" zusammen, der eine Anzahl unterschiedlicher Laute hervorbringen konnte.
Erst 1937 gelang es Homer Dudley und seinen Mitarbeitern von den Bell Labs, Sprache auf elektrischem Wege zu synthetisieren, allerdings natürlich noch analog. Diese Maschine - Dudley nannte Sie VODER - machte erstmals die Überführung menschlicher Sprache in zahlenmäßige Parameter möglich. Auch bei VODER wurde ein Keyboard benutzt, jedoch wurde die Sprache durch die Modifizierung eines Spektrums bzw. von Schallwellen simuliert. Dieses System bildete damit die Grundlage für heutige Synthesizer.
In den 50er Jahren wurde mit Synthese-Systemen experimentiert, die die Eingabe von Lautschrift verarbeiten konnten. Jedoch erst in den 70er Jahren wurden Maschinen gebaut, die funktionsfähig waren und erste brauchbare Ergebnisse lieferten. Dies wurde erst durch die massenhafte Verfügbarkeit von Speicherplatz und Rechenleistung möglich. In diesem Jahrzehnt war es auch, daß ein Forscher namens Joseph Olive seine Arbeit in eine ganz neue Richtung weiterführte: Er wollte nicht eine Schallwelle modifizieren, sondern vorher aufgenommene Segmente menschlicher Sprache zusammenfügen. Dieser komplett neue Ansatz ist auch heute noch das Prinzip, welches hinter den meisten Sprachsynthesesystemen steckt. Diese sogenannte Konkatenationssynthese, auf die ich später noch näher eingehen werde, wurde praktisch erst ermöglicht durch schnelles Zugreifen auf viele verschiedene (also nicht linear abzuspielende) Schallwellen. Gerade die digitale Technik ab dem Stand seit Mitte der 80er Jahre des 20. Jahrhunderts ließ diesen Ansatz sogar für Echtzeitsysteme realistisch werden.
Der Nachfolger des C64, der Amiga (1985) , ist der erste (nicht nur
auf diese Arbeit beschränkte ) Computer, der mit Software zur Sprachsynthese
("say") ausgeliefert wurde. Die Sprachausgabe mit Hilfe von Phonemcodes
ist im Betriebssystem in Form einer Funktionsbibliothek angelegt, die von
jeder höheren Programmiersprache aus aufgerufen werden kann. Verschiedene
Sprachen, zum Beispiel Basic, bieten einfache Befehle zur Ausgabe von Worten.
Dabei bietet die Bibliothek schon umfangreichere Möglichkeiten der
Modulation der Stimme, wie männlich/weiblich/roboter, die Phoneme
können "gepitcht" , die Tonhöhe kann also alterniert werden ,
außerdem sind beliebige Pausen setzbar . Mit ein bißchen Mühe
ist es möglich, die auf die englische Sprache abgestimmte Aussprache
einer deutschen Aussprache anzunähern, wiewohl ein "Akzent" bleibt.
Auch das "roboterhafte" (monotone, desinteressiert wirkende) bleibt.
Fazit:
Dank der modernen
Technik wurde in dem sprachsynthetischen Bereich bedeutende Fortschritte
gemacht. Die physikalische Nachahmung des Vokaltrakts ist überflüssig
geworden, nachdem sich die Schallwellen elektronisch durch Synthese der
verschiedenen Bestandteile einer Welle erzeugen lassen. Die akustischen
Ergebnisse hörten sich früher stark nach "Roboterstimme" an,
doch hat sich die Qualität synthetischer Sprache in jüngster
Zeit stark verbessert: Bei manchen Systemen läßt sich nicht
mehr sagen, ob nun ein Mensch spricht oder eine Maschine. In den meisten
Fällen gibt es jedoch Schwierigkeiten mit der Verständlichkeit
und Natürlichkeit der synthetisierten Sprache, vor allem in Bezug
auf Intonation und Rhythmus.
1. Der geschriebene Text muss zuerst in Lautsymbole übersetzt werden, z.B.
berg ® [berk]
Es wird ein Text in Wörter zerlegt. Dann wird die Aussprache der Wörter ermittelt und es wird eine Analyse der sprachlichen Struktur vorgenommen. Durch diese Analyse wird dann die Sprechmelodie, der Sprechrhythmus und die Pausierung gesteuert.
2. Im zweiten Schritt werden die Resultate der Textanalyse in symbolischer Form in den eigentlichen Sprachsynthetisator eingegeben und dort in Sprachschall umgesetzt.
Beim Verfahren der Sprachsynthese existieren 2 Richtungen:
Formant oder Regelsynthese:
"Eine "einfache" Wellenform wird durch entsprechende Filterung in Sprachsignale
umgewandelt. Dieses Verfahren benötigt sehr viele Regeln, welche Laute
in welchen Kontexten wie realisiert werden. Da alle Parameter des Systems
durch Regeln zugänglich sind, lassen sich z.B. Intonation und Lautdauer
leicht steuern. Dadurch ist sehr variationsreiche Sprache generierbar.
Der größte Nachteil dieser Systeme ist die mangelnde Natürlichkeit
der Stimme. Englische Sprachausgaben, die mit Formantsynthese arbeiten,
sind z.B. : DecTalk und Eloquent."
Konkatenationssynthese (Verkettung) :
Fast alle derzeit verwendeten Sprachausgabesysteme - auch Logox - arbeiten
mit diesem Verfahren. Dabei werden sprachliche Äußerungen aufgenommen,
es werden Teile daraus ausgeschnitten und wieder zu neuen Äußerungen
zusammengesetzt . Die Größe dieser Teile reicht von ganzen Wörtern
und Phrasen (z.B. Ansage der Flüge im Flughafen Frankfurt) bis zu
Einheiten, die kleiner als Laute sind (z.B. Mikrosegmente). Mit diesen
kleinen Einheiten kann man jeden beliebigen Text (einer Sprache) vorlesen
lassen. Ein grundsätzliches Problem bei diesem Verfahren ist, dass
die aufgenommenen Sprachbausteine sich nicht so leicht in Dauer und Tonhöhe
verändern lassen. Die technischen Verfahren, die dies ermöglichen,
gehen immer mit einer Qualitätseinbuße bei der Sprachqualität
einher und/oder führen zu einer unnatürlicheren Stimme. Der Vorteil
dieser Herangehensweise ist die menschliche Qualität der Stimme. Man
kann die Menschen, die dahinterstecken, wiedererkennen. Als Beispiel seien
genannt: U-Bahn-Ansage, Mailbox, Bahnauskunft, Zeitansage.
A Prosodie - Intonation, Akzente, Pausen
B Prosodie - Silbenrhythmus
C Prosodie - Intrinsische Struktur der Laute
Damit aus Schall Sprachschall entsteht, genügt es nicht, einfach Sprachlaute hintereinander zu hängen. Damit beim Hörer der Eindruck von wohlartikulierter Sprache entsteht, die - scheinbar mühelos - zu dekodieren ist, bedarf es dem Zusammenspiel von A, B und C Prosodie. Alle diese phonetischen Informationen sind im Sprachsignal kodiert vorhanden.
Aus Schall wird also Sprachschall, indem man dem Schall prosodisch wohlartikulierte Sprechbewegungen aufprägt.
Zusammenspiel von A - Prosodie
(Betonung) für die Semantik
Gegeben die Aussage "gib mir den Apfel", Betonte hervorgehoben:
| Betonung liegt auf Wort: | syntaktische Betonung | Betonung der Semantik: |
| "gib mir den Apfel " | Art und Weise | etwas imperativ, Betonung des Verbs (z.B. nicht werfen) |
| "gib mir den Apfel" | Dativ - Possesiv - Pronomen | mir, und keinem anderen Rezipienten (® es gibt weitere Rezipienten ...) |
| "gib mir den Apfel" | Determinant | den, keinen anderen des Typs (® es gibt weitere des Typs) |
| "gib mir den Apfel " | Akkusativ - Objekt | dieses Objekt(® es gibt weitere Objekte) |
| "gib mir den Apfel" | Imperativ | Aufforderung ( Drohung !?), Wichtigkeit |
5. Anwendung
Die digitale Synthese menschlicher Sprache bietet vielfältige Einsatzmöglichkeiten, vornehmlich in dem Bereich der Auskunfts- und Expertensysteme . Überall dort, wo Information über das Telefon übermittelt wird (vor allem bei Banken und in der zivilen Luftfahrt, im Zugriff auf Datenbanken , z.B. zum Abruf von Wettervorhersagen ) lassen sich solche Systeme nutzen. Für die maschinelle Übersetzung ließen sich Systeme entwerfen, die den Gesprächspartnern in ihrer eigenen Muttersprache Auskunft über das eben Gesagte erteilten.(® Translatoren, LPS gekoppelt an Sprachsynthesizer )
" Hierdurch wird die Kommunikation von Mensch und Maschine erleichtert, in manchen
Fällen, etwa bei Auslastung des visuellen Bereichs (z.B. bei manuellen Tätigkeiten, bei denen die Augen die Bewegungen der Hände kontrollieren) durch Ausweichen auf den auditiven Bereich erst möglich.
Synthetische Stimmen, Vocoder, verarbeiten die vom Programm gelieferten transkribierten Texte und ermöglichen es Blinden, Texte auditiv zu erfassen. Auf eine Umsetzung in Blindenschrift kann verzichtet werden."
Die Mensch- / Maschine-Schnittstelle ist insbesondere zur Prozess- und Fahrzeugsteuerung nützlich, denkbar in von GPS/Galileo geleiteten Fahrzeugen. Für Behinderte lässt sich das Leben mit sprachsynthetischen Vorrichtungen erheblich erleichtern - im Einsatz z.B. auch als künstliche Stimme für Sprachbehinderte .
Auch das Militär ist natürlich an der Entwicklung solcher Systeme zum Einsatz in hostile environments interessiert. Weiterhin überall dort, wo Augen und/oder Hände des Benutzers beschäftigt sind (z.B. in der Chirurgie) oder dort wo Bildschirmplatz kostbar bzw. Zeit Mangelware ist.
Allein im Multimediabereich ergeben sich zahlreiche Anwendungen wie Sprachlernprogramme, der stufenlose Übergang von einem Sprecher zum anderen (Morphing).
6. Ausblick
Verwendete Sprachen sind naturgemäß die Sprachen der industriell mächtigsten Staaten der Erde, also Englisch, Deutsch, Japanisch, Französisch, Mandarin, Italienisch, Spanisch und Russisch. Es gibt jedoch auch Versuche, z.B. die slawischen Sprachen stärker in die Forschung einzubinden.
Vor allem folgende Fragen stellt sich die heutige Forschung: Was sind die am besten geeigneten Units einer Sprache? (® Konkatenationssynthese )
Was macht die Charakteristik eines Sprechers aus?
Wie kann man diese Charakteristik phonetisch beschreiben?
Wie interagieren die prosodischen Parameter untereinander? (® Exkurs)
Auch die Verknüpfungen von ,,Facial Movement" und Sprachsynthese interessieren die Forscher, ebenso die musikalischen Aspekte von Sprache und Gesang.
In die Konsumgesellschaft hat die Sprachsynthese auch Einzug gehalten: neben den im Referat erwähnten Anwendungen existieren mittlerweile fertige Komponentenbibliotheken für moderne Programmiersprachen wie Java und sogar Beschreibungssprachen auf XML-Basis, die die oben beschriebenen Algorithmen nutzen und nun standardisiert werden.
Meines Erachtens ist der regelsynthetische Ansatz der zukunftsweisende. So führt er zu unbegrenzter Erzeugung beliebiger Lautwörter. Da die Rechnerperformanzen immer größer werden, dürfte auch die momentane Zeitkritik weniger dringend werden.
In Zukunft wird es möglich sein, jedwede beliebige , (sich menschlich anhörende) Stimme synthetisch zu erzeugen. Synchronisationsstudios müssen neu erdacht werden. Auch das Erschaffen einer "perfekten" Stimme, zum Beispiel für eine Oper, ist ein Ausblick. Schon heute benutzt keinE Pop-InterpretInnen mehr allein die eigene Stimme, ohne sie durch verschiedene künstliche Filter zu formen, "weicher" zu machen etc.
Gerade was die letzten Beispiele angeht, sind tatsächlich die Entwickler aber noch lange nicht soweit, vielleicht ebensoweit entfernt davon , wie die Computerlinguisten von selbstlernenden
und textverstehenden Systemen. Eine interessante Synthese wäre auch eine akustische Strukturabbildung (von Worten) als Ergänzung zur momentanen bildlichen Abbildung von Texten, um eine genauere semantische Verknüpfung/Definition/Einordnung zu erreichen.
(® korrespondierende Musterabbildungen)
Literaturverzeichnis