Technologie |
| Verfahren der Sprachsynthese
|
1. Formant- oder Regelsynthese:
Eine "einfache" Wellenform wird durch entsprechende Filterung in Sprachsignale umgewandelt. Dieses Verfahren benötigt sehr viele Regeln, welche Laute in welchen Kontexten wie realisiert werden. Da alle Parameter des Systems durch Regeln zugänglich sind, lassen sich z.B. Intonation und Lautdauer leicht steuern. Dadurch kann man sehr variationsreiche Sprache generieren. Der größte Nachteil dieser Systeme ist die mangelnde Natürlichkeit der Stimme.
Englische Sprachausgaben, die mit Formantsynthese arbeiten, sind: DecTalk und Eloquent.
|
2. Konkatenationssynthese:
Fast alle derzeit verwendeten Sprachausgabesysteme - auch Logox - arbeiten mit diesem Verfahren. Dabei werden sprachliche Äußerungen aufgenommen, es werden Teile daraus ausgeschnitten und wieder zu neuen Äußerungen zusammengesetzt. Die Größe dieser Teile reicht von ganzen Wörtern und Phrasen (z.B. Ansage der Flüge im Flughafen Frankfurt) bis zu Einheiten, die kleiner als Laute sind (z.B. Mikrosegmente). Mit diesen kleinen Einheiten kann man jeden beliebigen Text (einer Sprache) vorlesen lassen. Ein grundsätzliches Problem bei diesem Verfahren ist, dass die aufgenommenen Sprachbausteine sich nicht so leicht in Dauer und Tonhöhe verändern lassen. Die technischen Verfahren, die dies ermöglichen, gehen immer mit einer Qualitätseinbuße bei der Sprachqualität einher und/oder führen zu einer unnatürlicheren Stimme. Der Vorteil dieser Herangehensweise ist die menschliche Qualität der Stimme. Man kann die Menschen, die dahinterstecken, wiedererkennen.
|
3. Artikulatorische Synthese
Dieses Verfahren ist sehr rechenintensiv und wird nur zu Forschungszwecken verwendet. Die Bewegungen der "Sprechorgane" beim Sprechen werden modellhaft nachgebildet und basierend auf der Positionierung der "Sprechorgane" werden die Resonanzeigenschaften im Rachen-, Mund- und Nasenraum berechnet.
Mehr Infos: http://www.haskins.yale.edu/haskins/MISC/ASY/ASY.html
|
Formantsynthese |
Diphonsynthese |
Mikrosegmentsynthese
|
Vorteile
- geringer Speicherplatz-
bedarf
- einfache Veränderung
akustischer Parameter
|
Vorteile
- geringer Speicherplatz-
bedarf
- einfache Veränderung akustischer Parameter
|
Vorteile
- Wiedererkennbare Stimme
- einfache Stimmgenerierungs-
regeln
- geringer Speicherplatzbedarf
- Prosodiesteuerung im Zeitbereich
- wenige Mikrosegmente
- schneller neue Stimmen
|
Nachteile
- Synthetischer Klang
- aufwendige Regelsätze
|
Nachteile
- hoher Speicherplatzbedarf
- aufwendige Resyntheseverfahren zur Prosodiemodellierung
|
|
| Links zu guten Forschungsseiten (Sprachsynthese, Grammatik, Intonation) |
|
|
|
|
|
 |