Universität zu Köln

Institut für Sprachlich Informationsverarbeitung
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Seminar

Computer Linguistische Grundlagen

Jürgen Hermes
 
 

WS 2002/ 2003 und SS 2003
 
 
 
 
 
 

Sprachsynthese
 
 
 
 
 
 
 
 
 
 
 
 

von

Pascal Christoph

Kalscheurer Weg 31

50969 Köln

Tel. 0221 - 8002553

Email: spinne1974@yahoo.de


 
 






















Inhalt
 
 

1. Definition 3

2. Geschichte 3

3. Technik 5

4. Exkurs 7

5. Anwendung 8

6. Ausblick 9

7. Literaturverzeichnis 11
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

  1. Definition

  2. Sprachsynthese bezeichnet die lautliche Produktion von Sprache durch eine Maschine. "Sprache dient letztendlich dazu, Information - mehr oder weniger vollständig und fehlerfrei - vom Sprecher zum Hörer zu übertragen. Die Akustik dient uns dabei, kodierte Information von der Oberfläche des Sprechers (Phonation, Artikulationstrakt) auf die Oberfläche des Hörers (Basilarmembran) zu leiten (signalphonetisches Band)."
     
     

  3. Geschichte

  4. We always have a choice, or at least we think we do.

    We could always use our voice - I thought this to be true.

    (moorcheba, 'fear and love' )

    Die maschinelle Sprachsynthese geht als Forschungsrichtung allen anderen Entwicklungen der Sprachtechnologie voraus. Erste Versuche zur Synthese von Sprache wurden 1779 an der Königlichen Akademie St. Petersburg unternommen: C.G. Kratzenstein konstruierte eine Nachbildung des Vokaltraktes zur Erzeugung vokalischer Klänge.

    1791 baute Baron Wolfgang von Kempelen einen mechanischen Sprechapparat, der bereits Laute und Lautübergänge formulieren konnte. Dieser arbeitete mit Blasebälgen und Kammern, deren Form mit den Händen verändert werden konnte. 100 Jahre später wurde diese Maschine von Charles Wheatstone weiterentwickelt, jedoch basierte auch diese Maschine noch auf mechanischen Prinzipien.

    Auch Alexander Bell (1847-1922) setzte aus verschiedenen künstlichen Werkstoffen einen "sprechenden Kopf" zusammen, der eine Anzahl unterschiedlicher Laute hervorbringen konnte.

    Erst 1937 gelang es Homer Dudley und seinen Mitarbeitern von den Bell Labs, Sprache auf elektrischem Wege zu synthetisieren, allerdings natürlich noch analog. Diese Maschine - Dudley nannte Sie VODER - machte erstmals die Überführung menschlicher Sprache in zahlenmäßige Parameter möglich. Auch bei VODER wurde ein Keyboard benutzt, jedoch wurde die Sprache durch die Modifizierung eines Spektrums bzw. von Schallwellen simuliert. Dieses System bildete damit die Grundlage für heutige Synthesizer.

    In den 50er Jahren wurde mit Synthese-Systemen experimentiert, die die Eingabe von Lautschrift verarbeiten konnten. Jedoch erst in den 70er Jahren wurden Maschinen gebaut, die funktionsfähig waren und erste brauchbare Ergebnisse lieferten. Dies wurde erst durch die massenhafte Verfügbarkeit von Speicherplatz und Rechenleistung möglich. In diesem Jahrzehnt war es auch, daß ein Forscher namens Joseph Olive seine Arbeit in eine ganz neue Richtung weiterführte: Er wollte nicht eine Schallwelle modifizieren, sondern vorher aufgenommene Segmente menschlicher Sprache zusammenfügen. Dieser komplett neue Ansatz ist auch heute noch das Prinzip, welches hinter den meisten Sprachsynthesesystemen steckt. Diese sogenannte Konkatenationssynthese, auf die ich später noch näher eingehen werde, wurde praktisch erst ermöglicht durch schnelles Zugreifen auf viele verschiedene (also nicht linear abzuspielende) Schallwellen. Gerade die digitale Technik ab dem Stand seit Mitte der 80er Jahre des 20. Jahrhunderts ließ diesen Ansatz sogar für Echtzeitsysteme realistisch werden.

    Der Nachfolger des C64, der Amiga (1985) , ist der erste (nicht nur auf diese Arbeit beschränkte ) Computer, der mit Software zur Sprachsynthese ("say") ausgeliefert wurde. Die Sprachausgabe mit Hilfe von Phonemcodes ist im Betriebssystem in Form einer Funktionsbibliothek angelegt, die von jeder höheren Programmiersprache aus aufgerufen werden kann. Verschiedene Sprachen, zum Beispiel Basic, bieten einfache Befehle zur Ausgabe von Worten. Dabei bietet die Bibliothek schon umfangreichere Möglichkeiten der Modulation der Stimme, wie männlich/weiblich/roboter, die Phoneme können "gepitcht" , die Tonhöhe kann also alterniert werden , außerdem sind beliebige Pausen setzbar . Mit ein bißchen Mühe ist es möglich, die auf die englische Sprache abgestimmte Aussprache einer deutschen Aussprache anzunähern, wiewohl ein "Akzent" bleibt. Auch das "roboterhafte" (monotone, desinteressiert wirkende) bleibt.
     
     

    Fazit:
    Dank der modernen Technik wurde in dem sprachsynthetischen Bereich bedeutende Fortschritte gemacht. Die physikalische Nachahmung des Vokaltrakts ist überflüssig geworden, nachdem sich die Schallwellen elektronisch durch Synthese der verschiedenen Bestandteile einer Welle erzeugen lassen. Die akustischen Ergebnisse hörten sich früher stark nach "Roboterstimme" an, doch hat sich die Qualität synthetischer Sprache in jüngster Zeit stark verbessert: Bei manchen Systemen läßt sich nicht mehr sagen, ob nun ein Mensch spricht oder eine Maschine. In den meisten Fällen gibt es jedoch Schwierigkeiten mit der Verständlichkeit und Natürlichkeit der synthetisierten Sprache, vor allem in Bezug auf Intonation und Rhythmus.
     
     

  5. Technik
Bei der Sprachsynthese wird ein geschriebener Text mittels maschineller Verfahren in sprachliche Laute verwandelt. Bei modernen Text-to-Speech Systemen unterscheidet man zwei große Bestandteile eines Systems:

1. Der geschriebene Text muss zuerst in Lautsymbole übersetzt werden, z.B.

berg ® [berk]

Es wird ein Text in Wörter zerlegt. Dann wird die Aussprache der Wörter ermittelt und es wird eine Analyse der sprachlichen Struktur vorgenommen. Durch diese Analyse wird dann die Sprechmelodie, der Sprechrhythmus und die Pausierung gesteuert.

2. Im zweiten Schritt werden die Resultate der Textanalyse in symbolischer Form in den eigentlichen Sprachsynthetisator eingegeben und dort in Sprachschall umgesetzt.

Beim Verfahren der Sprachsynthese existieren 2 Richtungen:
 
 

Formant oder Regelsynthese:

"Eine "einfache" Wellenform wird durch entsprechende Filterung in Sprachsignale umgewandelt. Dieses Verfahren benötigt sehr viele Regeln, welche Laute in welchen Kontexten wie realisiert werden. Da alle Parameter des Systems durch Regeln zugänglich sind, lassen sich z.B. Intonation und Lautdauer leicht steuern. Dadurch ist sehr variationsreiche Sprache generierbar. Der größte Nachteil dieser Systeme ist die mangelnde Natürlichkeit der Stimme. Englische Sprachausgaben, die mit Formantsynthese arbeiten, sind z.B. : DecTalk und Eloquent."
 
 
 
 

Konkatenationssynthese (Verkettung) :

Fast alle derzeit verwendeten Sprachausgabesysteme - auch Logox - arbeiten mit diesem Verfahren. Dabei werden sprachliche Äußerungen aufgenommen, es werden Teile daraus ausgeschnitten und wieder zu neuen Äußerungen zusammengesetzt . Die Größe dieser Teile reicht von ganzen Wörtern und Phrasen (z.B. Ansage der Flüge im Flughafen Frankfurt) bis zu Einheiten, die kleiner als Laute sind (z.B. Mikrosegmente). Mit diesen kleinen Einheiten kann man jeden beliebigen Text (einer Sprache) vorlesen lassen. Ein grundsätzliches Problem bei diesem Verfahren ist, dass die aufgenommenen Sprachbausteine sich nicht so leicht in Dauer und Tonhöhe verändern lassen. Die technischen Verfahren, die dies ermöglichen, gehen immer mit einer Qualitätseinbuße bei der Sprachqualität einher und/oder führen zu einer unnatürlicheren Stimme. Der Vorteil dieser Herangehensweise ist die menschliche Qualität der Stimme. Man kann die Menschen, die dahinterstecken, wiedererkennen. Als Beispiel seien genannt: U-Bahn-Ansage, Mailbox, Bahnauskunft, Zeitansage.
 
 

  1. Exkurs
Phonetische Information

A Prosodie - Intonation, Akzente, Pausen

B Prosodie - Silbenrhythmus

C Prosodie - Intrinsische Struktur der Laute

Damit aus Schall Sprachschall entsteht, genügt es nicht, einfach Sprachlaute hintereinander zu hängen. Damit beim Hörer der Eindruck von wohlartikulierter Sprache entsteht, die - scheinbar mühelos - zu dekodieren ist, bedarf es dem Zusammenspiel von A, B und C Prosodie. Alle diese phonetischen Informationen sind im Sprachsignal kodiert vorhanden.

Aus Schall wird also Sprachschall, indem man dem Schall prosodisch wohlartikulierte Sprechbewegungen aufprägt.

Zusammenspiel von A - Prosodie

(Betonung) für die Semantik

Gegeben die Aussage "gib mir den Apfel", Betonte hervorgehoben:


 
Betonung liegt auf Wort: syntaktische Betonung Betonung der Semantik:
"gib mir den Apfel " Art und Weise etwas imperativ, Betonung des Verbs (z.B. nicht werfen)
"gib mir den Apfel" Dativ - Possesiv - Pronomen mir, und keinem anderen Rezipienten (® es gibt weitere Rezipienten ...)
"gib mir den Apfel" Determinant den, keinen anderen des Typs (® es gibt weitere des Typs)
"gib mir den Apfel " Akkusativ - Objekt dieses Objekt(® es gibt weitere Objekte)
"gib mir den Apfel" Imperativ Aufforderung ( Drohung !?), Wichtigkeit

5. Anwendung

Die digitale Synthese menschlicher Sprache bietet vielfältige Einsatzmöglichkeiten, vornehmlich in dem Bereich der Auskunfts- und Expertensysteme . Überall dort, wo Information über das Telefon übermittelt wird (vor allem bei Banken und in der zivilen Luftfahrt, im Zugriff auf Datenbanken , z.B. zum Abruf von Wettervorhersagen ) lassen sich solche Systeme nutzen. Für die maschinelle Übersetzung ließen sich Systeme entwerfen, die den Gesprächspartnern in ihrer eigenen Muttersprache Auskunft über das eben Gesagte erteilten.(® Translatoren, LPS gekoppelt an Sprachsynthesizer )

" Hierdurch wird die Kommunikation von Mensch und Maschine erleichtert, in manchen

Fällen, etwa bei Auslastung des visuellen Bereichs (z.B. bei manuellen Tätigkeiten, bei denen die Augen die Bewegungen der Hände kontrollieren) durch Ausweichen auf den auditiven Bereich erst möglich.

Synthetische Stimmen, Vocoder, verarbeiten die vom Programm gelieferten transkribierten Texte und ermöglichen es Blinden, Texte auditiv zu erfassen. Auf eine Umsetzung in Blindenschrift kann verzichtet werden."

Die Mensch- / Maschine-Schnittstelle ist insbesondere zur Prozess- und Fahrzeugsteuerung nützlich, denkbar in von GPS/Galileo geleiteten Fahrzeugen. Für Behinderte lässt sich das Leben mit sprachsynthetischen Vorrichtungen erheblich erleichtern - im Einsatz z.B. auch als künstliche Stimme für Sprachbehinderte .

Auch das Militär ist natürlich an der Entwicklung solcher Systeme zum Einsatz in hostile environments interessiert. Weiterhin überall dort, wo Augen und/oder Hände des Benutzers beschäftigt sind (z.B. in der Chirurgie) oder dort wo Bildschirmplatz kostbar bzw. Zeit Mangelware ist.

Allein im Multimediabereich ergeben sich zahlreiche Anwendungen wie Sprachlernprogramme, der stufenlose Übergang von einem Sprecher zum anderen (Morphing).

6. Ausblick

Verwendete Sprachen sind naturgemäß die Sprachen der industriell mächtigsten Staaten der Erde, also Englisch, Deutsch, Japanisch, Französisch, Mandarin, Italienisch, Spanisch und Russisch. Es gibt jedoch auch Versuche, z.B. die slawischen Sprachen stärker in die Forschung einzubinden.

Vor allem folgende Fragen stellt sich die heutige Forschung: Was sind die am besten geeigneten Units einer Sprache? (® Konkatenationssynthese )

Was macht die Charakteristik eines Sprechers aus?

Wie kann man diese Charakteristik phonetisch beschreiben?

Wie interagieren die prosodischen Parameter untereinander? (® Exkurs)

Auch die Verknüpfungen von ,,Facial Movement" und Sprachsynthese interessieren die Forscher, ebenso die musikalischen Aspekte von Sprache und Gesang.

In die Konsumgesellschaft hat die Sprachsynthese auch Einzug gehalten: neben den im Referat erwähnten Anwendungen existieren mittlerweile fertige Komponentenbibliotheken für moderne Programmiersprachen wie Java und sogar Beschreibungssprachen auf XML-Basis, die die oben beschriebenen Algorithmen nutzen und nun standardisiert werden.

Meines Erachtens ist der regelsynthetische Ansatz der zukunftsweisende. So führt er zu unbegrenzter Erzeugung beliebiger Lautwörter. Da die Rechnerperformanzen immer größer werden, dürfte auch die momentane Zeitkritik weniger dringend werden.

In Zukunft wird es möglich sein, jedwede beliebige , (sich menschlich anhörende) Stimme synthetisch zu erzeugen. Synchronisationsstudios müssen neu erdacht werden. Auch das Erschaffen einer "perfekten" Stimme, zum Beispiel für eine Oper, ist ein Ausblick. Schon heute benutzt keinE Pop-InterpretInnen mehr allein die eigene Stimme, ohne sie durch verschiedene künstliche Filter zu formen, "weicher" zu machen etc.

Gerade was die letzten Beispiele angeht, sind tatsächlich die Entwickler aber noch lange nicht soweit, vielleicht ebensoweit entfernt davon , wie die Computerlinguisten von selbstlernenden

und textverstehenden Systemen. Eine interessante Synthese wäre auch eine akustische Strukturabbildung (von Worten) als Ergänzung zur momentanen bildlichen Abbildung von Texten, um eine genauere semantische Verknüpfung/Definition/Einordnung zu erreichen.

(® korrespondierende Musterabbildungen)
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Literaturverzeichnis

  1. Logox: http://www.logox.de/sprachsynthese.php
  2. Bildermuseum: http://mambo.ucsc.edu/psl/smus/smus.html
  3. Modernes synthetisches Bell-Labs-Beispiel: http://www.bell-labs.com/project/tts/german.html
  4. Antiquierte synthetisches Amiga-Say-Beispiel: wwwtios.cs.utwente.nl/say/
  5. Computerlinguistik Uni-Köln: www.spinfo.uni.koeln.de/lehre/CLGrundlagen/Referate/sadeghian-switek/
  6. Jürgen Rolshoven, Automatische Transkription französischer Texte,Tübingen, Niemeyer, 1978
  7. Prof. H.G. Tillmann, Dr.-Ing. F. Schiel , Akustische Phonetik - Kapitel III, Wie wird aus Schall Sprachschall? , www.phonetik.uni-muenchen.de/AP/APKap1.htm
  8. David Crystal: Die Cambridge Enzyklopädie der Sprache , Campus,1998
  9. Speechmill www.unil.ch/imm/docs/LAIP/LAIPTTS_dt.htm