• Definition 
  • Geschichte 
  • Technik 
  • Exkurs 
  •   Anwendung 
  • Ausblick 
  • Links 
  •  
     
     
     

    >>



    Referent: Pascal Christoph Thema: 'Sprachsynthese'  Kurs:  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]







     


     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     


     
      DEFINITION

    Sprachsynthese bezeichnet die
    "  lautliche Produktion von Sprache durch eine Maschine "
     
     

    Phonetische Information:
    Sprache dient letztendlich dazu, Information - mehr oder weniger vollständig und fehlerfrei - vom Sprecher zum Hörer zu übertragen. Die Akustik dient uns dabei, kodierte Information von der Oberfläche des Sprechers (Phonation, Artikulationstrakt) auf die Oberfläche des Hörers (Basilarmembran) zu leiten (signalphonetisches Band).
    http://www.phonetik.uni-muenchen.de/AP/APKap1.htm
     
     

    >>



    Referent: Pascal Christoph Thema: 'Sprachsynthese'  Kurs:  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]











     


     
     
     
     
     
     
     
     
     
     
     
     
     
     
     


     
     
     
    GESCHICHTE
    "
     Die maschinelle Sprachsynthese geht als Forschungsrichtung allen anderen Entwicklungen der Sprachtechnologie voraus.

    Erste Versuche zur Synthese von Sprache wurden 1779 an der Königlichen Akademie St. Petersburg unternommen: C.G. Kratzenstein konstruierte  eine Nachbildung des Vokaltraktes zur Erzeugung vokalischer Klänge.
    (-> bilder im museum)

    1791 baute Baron Wolfgang von Kempelen einen mechanischen Sprechapparat (Abb. 1), der bereits Laute und Lautübergänge formulieren konnte. Dieser arbeitete mit Blasebälgen und Kammern, deren Form mit den Händen verändert werden konnte. 100 Jahre später wurde diese Maschine von Charles Wheatstone weiterentwickelt, jedoch basierte auch diese Maschine noch auf mechanischen Prinzipien.

    Erst 1937 gelang es Homer Dudley und seinen Mitarbeitern von den Bell Labs, Sprache auf elektrischem Wege zu synthetisieren, allerdings natürlich noch analog. Diese Maschine - Dudley nannte Sie VODER - machte erstmals die Überführung menschlicher Sprache in zahlenmäßige Parameter möglich. Auch bei VODER wurde ein Keyboard benutzt, jedoch wurde die Sprache durch die Modifizierung eines Spektrums bzw. von Schallwellen simuliert (Abb. 2). Dieses System bildete damit die Grundlage für heutige Synthesizer.

    In den 50er Jahren experimentierte man mit Synthese-Systemen, die die Eingabe von Lautschrift verarbeiten konnten, jedoch erst in den 70er Jahren wurden Maschinen gebaut, die funktionsfähig waren und erste brauchbare Ergebnisse lieferten. Dies wurde erst durch die massenhafte Verfügbarkeit von Speicherplatz und Rechenleistung möglich. In diesem Jahrzent war es auch, daß ein Forscher namens Joseph Olive seine Arbeit in eine ganz neue Richtung weiterführte: Er wollte nicht eine Schallwelle modifizieren, sondern vorher aufgenommene Segmente menschlicher Sprache zusammenfügen . Dieser komplett neue Ansatz ist auch heute noch das Prinzip, welches hinter den meisten Sprachsynthesesystemen steckt.
    "
    entnommen den spinfo-Seiten 
     

    Der Nachfolger des C64, der Amiga  (1985) , war der erste Computer der mit Software zur Sprachsynthese ausgeliefert wurde. amiga-say-beispiel
    "Die Sprachausgabe mit Hilfe von Phonemcodes ist im Betriebssystem in Form einer Funktionsbibliothek angelegt, die von jeder höheren Programmiersprache aus aufgerufen werden kann. Verschiedene Sprachen, zum Beispiel Basic, bieten einfache Befehle zur Ausgabe von Worten."
     
     

    >> 



    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]








     


     
     
     
     
     
     
     
     
     
     


     
     

    TECHNIK
     

    Bei der Sprachsynthese wird ein geschriebener Text mittels maschineller Verfahren in sprachliche Laute verwandelt. Bei modernen Text-to-Speech Systemen unterscheidet man zwei große Bestandteile eines Systems:

    1. der geschriebene text muss zuerst in lautsymbole übersetzt werden, z.b. 
    berg -> [berk]
    im deutschen gibt es eine regel, die besagt, dass konsonanten am ende eines wortes als wortgrenzsignale durch harte konsonanten abgegrenzt werden. also kann aus dem gegebenen wort 'bild' abgeleitet werden, dass es phonologisch als 'bilt'  zu hören sein muss.
    der vorteil von solchen regeln liegt auf der hand:
    es muss nicht für jedes wort ein eintrag in eine phonologische aequivalenzliste erdacht werden.

    Methode:
    Es wird ein Text in Wörter zerlegt. Dann wird die Aussprache der Wörter ermittelt und es wird eine Analyse der sprachlichen Struktur vorgenommen. Durch diese Analyse wird dann die Sprechmelodie, der Sprechrhythmus und die Pausierung gesteuert. Die Resultate der Textanalyse werden in symbolischer Form in den eigentlichen Sprachsynthetisator eingegeben und dort in Sprachschall umgesetzt. Dazu gibt es mehrere Verfahren.
    SpeechMill - Sprachsynthese - phonetische Alphabet



    Akustische Phonetik - Kapitel III
     Wie wird aus Schall Sprachschall?

    Prof. H.G. Tillmann, Dr.-Ing. F. Schiel
    http://www.phonetik.uni-muenchen.de/AP/APKap1.htm
     

     Phonetische Information
    A Prosodie - Intonation, Akzente, Pausen
    B Prosodie - Silbenrhythmus
    C Prosodie - Intrinsische Struktur der Laute
     

    Zusammenfassung:
    Damit aus Schall Sprachschall entsteht, genügt es nicht, einfach Sprachlaute hintereinander zu hängen. Damit beim Hörer der Eindruck von wohlartikulierter Sprache entsteht, die - scheinbar mühelos - zu dekodieren ist, bedarf es dem Zusammenspiel von A, B und C Prosodie. Alle diese phonetischen Informationen sind im Sprachsignal kodiert vorhanden.

    Aus Schall wird also Sprachschall, indem man dem Schall prosodisch wohlartikulierte Sprechbewegungen aufprägt.
     
     

    >> 
     



    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]







     


     
     
     
     
     
     
     
     
     
     
     
     
     
     


     
     

    Exkurs
    zusammenspiel von A - Prosodie (betonung) für die semantik

    Gegeben die aussage "gib mir den apfel", betonte hervorgehoben:
     


    betonung liegt auf  wort: syntaktische betonung betonung der  semantik:
    "gibmir den apfel " art und weise  ( auch etwas imperativ) && z.b. nicht werfen
    "gib mir den apfel" dativ-possesiv-pronomen mir, keinem anderen recipienten  (->  es gibt weitere recipienten. ...)
    "gib mir den apfel" determinant den, keinen anderen des typs (->  es gibt weitere des typs)
    "gib mir den apfel " akussativ - object dieses object(-> es gibt weitere typen)
    "gib mir den apfel" imperativ aufforderung ( möglicherweise drohung), wichtig

     

    >> 
     



    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]







     


     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     
     

    TECHNIK

    2. Die Umwandlung 
    dieser lautsymbolischen Repräsentation in Sprachschall (=Synthetisator).
     
     
     
     

    beim verfahren der sprachsynthese existieren 2 richtungen :



     
    Formant- oder Regelsynthese:
    " Eine "einfache" Wellenform wird durch entsprechende Filterung in Sprachsignale umgewandelt. Dieses Verfahren benötigt sehr viele Regeln , welche Laute in welchen Kontexten wie realisiert werden. Da alle Parameter des Systems durch Regeln zugänglich sind, lassen sich z.B. Intonation und Lautdauer leicht steuern. Dadurch kann man sehr variationsreiche Sprache generieren. Der größte Nachteil dieser Systeme ist die mangelnde Natürlichkeit der Stimme. Englische Sprachausgaben, die mit Formantsynthese arbeiten, sind: DecTalk und Eloquent. "
    bell-labs-beispiel
    Konkatenationssynthese: (verkettung) 
     

     " Fast alle derzeit verwendeten Sprachausgabesysteme - auch Logox - arbeiten mit diesem Verfahren. Dabei werden sprachliche Äußerungen aufgenommen, es werden Teile daraus ausgeschnitten und wieder zu neuen Äußerungen zusammengesetzt . Die Größe dieser Teile reicht von ganzen Wörtern und Phrasen (z.B. Ansage der Flüge im Flughafen Frankfurt) bis zu Einheiten, die kleiner als Laute sind (z.B. Mikrosegmente). Mit diesen kleinen Einheiten kann man jeden beliebigen Text (einer Sprache) vorlesen lassen. Ein grundsätzliches Problem bei diesem Verfahren ist, dass die aufgenommenen Sprachbausteine sich nicht so leicht in Dauer und Tonhöhe verändern lassen. Die technischen Verfahren, die dies ermöglichen, gehen immer mit einer Qualitätseinbuße bei der Sprachqualität einher und/oder führen zu einer unnatürlicheren Stimme.
    Der Vorteil dieser Herangehensweise ist die menschliche Qualität der Stimme. Man kann die Menschen, die dahinterstecken, wiedererkennen. "
    z.b. U-BahnAnsage, Mailbox, BahnAuskunft

     entnommen der seite:
    http://www.logox.de/sprachsynthese.php
     
     

    >>



    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]









     


     
     
     
     
     
     
     
     
     


     
     

    ANWENDUNG

    Die digitale Synthese menschlicher Sprache bietet vielfältige Einsatzmöglichkeiten, vornehmlich in dem Bereich der Auskunfts- und Expertensysteme . Überall dort, wo Information über das Telefon übermittelt wird (v.a. bei Banken und in der zivilen Luftfahrt), im Zugriff auf Datenbanken , z.B. zum Abruf von Wettervorhersagen , lassen sich solche Systeme nutzen. Für die maschinelle Übersetzung liessen sich Systeme entwerfen, die den Gesprächspartnern in ihrer eigenen Muttersprache Auskunft über das eben Gesagte erteilten.(-> Translatoren, LPS gekoppelt an Sprachsynthesizer :-) )

    Die Mensch- / Maschine-Schnittstelle ist ein weiterer Ansatzpunkt, insbesondere zur Prozess- und Fahrzeugsteuerung und als von GPS/Galileo geleiteten Fahrzeugführern. Für Behinderte lässt sich das Leben mit sprachsynthetischen Vorrichtungen erheblich erleichtern - im Einsatz als Blindenvorlesegeräte oder als künstliche Stimme für Sprachbehinderte .

    Auch das Militär ist natürlich an der Entwicklung solcher Systeme zum Einsatz in hostile environments interessiert. Weiterhin überall dort, wo Augen und/oder Hände des Benutzers beschäftigt sind (Medizin) oder Bildschirmplatz kostbar bzw. Zeit Mangelware ist, finden Sprachsynthesesysteme Verwendung.

    Allein im Multimediabereich ergeben sich zahlreiche Anwendungen wie Sprachlernprogramme , der stufenlose Übergang von einem Sprecher zum anderen ( Morphing) ...
     
     

    >>



     

    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]








     


     
     
     
     
     
     
     
     
     


     
     

    AUSBLICK

     " Verwendete Sprachen sind naturgemäß die Sprachen der industriell mächtigsten Staaten der Erde, also Englisch, Deutsch, Japanisch, Französisch, Mandarin, Italienisch, Spanisch und Russisch. Es gibt jedoch auch Versuche, z.B. die slawischen Sprachen stärker in die Forschung einzubinden.

    Vor allem folgende Fragen stellt sich die heutige Forschung: Was sind die am besten geeigneten Units einer Sprache? (-> Konkatenationssynthese )

    • Was macht die Charakteristik eines Sprechers aus?
    • Wie kann man diese Charakteristik phonetisch beschreiben?
    • Wie interagieren die prosodischen Parameter untereinander?
    Auch die Verknüpfungen von ,,Facial Movement" und Sprachsynthese  interessieren die Forscher, ebenso die musikalischen Aspekte von Sprache und Gesang.

    In die Konsumgesellschaft hat die Sprachsynthese auch Einzug gehalten: neben den im Referat  erwähnten Anwendungen existieren mittlerweile fertige Komponentenbibliotheken für moderne Programmiersprachen wie Java und sogar Beschreibungssprachen auf XML-Basis, die die oben beschriebenen Algorithmen nutzen und nun standardisiert werden"

    entnommen den spinfo-seiten

    so gibt es also noch viel zu forschen.
    m.e.  ist der regelsynthetische ansatz der zukunftsweisende.  er führt zu unbegrenzter  erzeugung   beliebiger lautWörter.   da die rechner performanzen immer groesser werden, dürfte auch die momentane zeitkritik weniger dringend werden.

    etwas weiter ausgeblickt:
    es wird möglich sein,  jedwede beliebige , sich menschlich anhörende stimme, synthetisch zu erzeugen.   synchronisationsstudios müssen neu erdacht werden. auch das erschaffen einer "perfekten" stimme, zum beispiel für eine oper, ist ein ausblick. schon heute benutzt kein pop-interpret mehr seine stimme, ohne sie durch verschiedene künstliche filter zu formen,  "weicher" zu machen etc.
    gerade was die letzten beispiele  angeht sind tatsaechlich  die entwickler aber noch lange nicht soweit,  vielleicht ebensoweit entfernt davon , wie die computerLinguisten von selbstLernenden und textVerstehenden systemen ?
    interessant waere hierfür auch eine akustische strukturAbbildung  als ergaenzung zur auch noch zu erzeugenden bildlichenAbbildung von wörtern (für die möglicherweise textVerstehenden Systeme  einer noch fernen zukunft), um eine genauere semantische verknüpfung/definition/einordnung zu erreichen. (->korrespondierende musterAbbildungen)

    >>

     

    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ ]





     


     
     
     
     
     
     
     
     
     


     
     

    LINKS
     
     

    emotional text-to-speech synthesis
    logox

    museum
    bell-labs-beispiel
    amiga-say-beispiel
    computerLinguistik uni-köln
    spracherkennung, referat von Tarek Ahmed
     
     
     



    Referent : Pascal Christoph Thema: 'Sprachsynthese'  Kurs :  'ComputerLinguistische Grundlagen 'bei Jürgen Hühn           021113 UniKöln
    [ HomePage ]




    we always have a choice, or at least we think we do.
    we could always use our voice - i thought this to be true.
    (moorcheba,  'fear and love' )

      all layout done on linux-machine :
      grafix done with gimp
      html-composed with netscape-composer

    the only way to go - free software