Vorwort Inhaltsverzeichnis Leseprobe
Video zum Buch ins Buch schauen Ebook
druckfähiges Buchcover DozentenPLUS | Zusatzmaterialien OnlinePLUS | Zusatzmaterialien
Teil einer eBook FlatrateOnline Flatrate FAQ blind
SprachverarbeitungSprachverarbeitung
Sprachverarbeitung
Autoren: Pfister, Beat / Kaufmann, Tobias

Sprachverarbeitung

Grundlagen und Methoden der Sprachsynthese und Spracherkennung

Aus der Reihe: Springer-Lehrbuch

2008. XIV, 483 S. mit 182 Abb. u. 18 Tab. Br.
ISBN: 978-3-540-75909-6

Lehrbuch

Ein konkurrenzloses Buch zur Sprachsynthese bzw. Spracherkennung
Konkret, praktisch relevant, vollständig
Verstehen, wie ein modernes System zur Sprachsynthese bzw. Spracherkennung funktioniert bzw. konzipiert werden kann
Ausführliches Glossar

59,95
Lieferbar, versandfertig in 3 Tagen
Das Buch
Das Buch erklärt die wesentlichen Ansätze zur Sprachsynthese und zur Spracherkennung und vermittelt die dafür relevanten Grundlagen.
Dazu gehören insbesondere: Grundkenntnisse über die menschliche Sprachproduktion und -wahrnehmung; Eigenschaften von Sprachsignalen und ihre Darstellung; Grundkenntnisse in Linguistik, insbes. Phonetik, Morphologie und Syntax; die wichtigsten Transformationen und Methoden der digitalen Sprachsignalverarbeitung; statistische Ansätze zur Beschreibung vieldimensionaler Größen und komplexer Zusammenhänge (Markov-Modelle und neuronale Netze) sowie die Formulierung und Anwendung von Wissen in der Form von Regeln. Das Buch geht auch auf viele praktische Probleme ein, die beim Konzipieren von sprachverarbeitenden Systemen zu lösen sind.
Dieses gut lesbare Buch wendet sich insbesondere an Studenten und Praktiker im Bereich Sprachverarbeitung. Ein ausführliches Glossar und eine Internet-basierte Sammlung von Hörbeispielen ergänzen das Buch.
Aus dem Inhalt
1 Grundsätzliches zur Sprache 3
1.1 Sprache als Kommunikationsmittel . . . . . . . . . . . . . . . . . . . . . . 3
1.1.1 Lautsprachliche Kommunikation . . . . . . . . . . . . . . . . . . . . 3
1.1.2 Geschriebene vs. gesprochene Sprache . . . . . . . . . . . . . . . . . 4
1.2 Die Beschreibung von Sprache . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2.1 Die linguistischen Ebenen . . . . . . . . . . . . . . . . . . . . . . . 6
1.2.2 Die phonetische Schrift . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2.3 Die akustisch-phonetische Ebene . . . . . . . . . . . . . . . . . . . 7
1.2.4 Die Prosodie der Sprache . . . . . . . . . . . . . . . . . . . . . . . . 9
1.3 Die menschliche Sprachproduktion . . . . . . . . . . . . . . . . . . . . . . 10
1.3.1 Übersicht über den Sprechapparat . . . . . . . . . . . . . . . . . . . 10
1.3.2 Die Funktion des Sprechapparates . . . . . . . . . . . . . . . . . . . 10
1.3.3 Die Artikulation der Sprachlaute . . . . . . . . . . . . . . . . . . . 11
1.4 Dasmenschliche Gehör . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1 Die Wahrnehmung der Schallintensität . . . . . . . . . . . . . . . . 13
1.4.2 Periodizität und Tonhöhe . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.3 Die Phasenwahrnehmung . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.4 Der Verdeckungseffekt . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.5 Wahrnehmung der Sprachlaute . . . . . . . . . . . . . . . . . . . . 16
1.5 Komplexität der Sprache . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2 Übersicht über die Sprachverarbeitung 19
2.1 Was in einemSprachsignal steckt . . . . . . . . . . . . . . . . . . . . . . . 19
2.2 Teilgebiete der Sprachverarbeitung . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Sprachcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.3.1 Signalformcodierung . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.3.1.1 Logarithmischer Kompander . . . . . . . . . . . . . . . . . 23
2.3.1.2 Differenz-Codierer . . . . . . . . . . . . . . . . . . . . . . 24
2.3.2 Modellierung von Sprachsignalen . . . . . . . . . . . . . . . . . . . 25
2.4 Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.5 Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6 S precheridentifikation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
3 Darstellung und Eigenschaften des Sprachsignals 31
3.1 Digitalisieren von Sprachsignalen . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.1 Bandbegrenzungsfilter . . . . . . . . . . . . . . . . . . . . . . . . . 31
3.1.2 Zeit- und Amplitudendiskretisierung . . . . . . . . . . . . . . . . . 33
3.1.3 Rekonstruktionsfilter . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2 Darstellung digitaler Sprachsignale imZeitbereich . . . . . . . . . . . . . . 35
3.3 Darstellung imFrequenzbereich . . . . . . . . . . . . . . . . . . . . . . . . 36
3.4 Kombinierte Zeit-Frequenz-Bereichs-Darstellungen . . . . . . . . . . . . . . 39
3.5 Sprachmerkmale und ihre Darstellung . . . . . . . . . . . . . . . . . . . . . 41
3.5.1 Grundfrequenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.2 Formanten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.5.3 Dauer der Laute . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.5.4 Intensität der Laute . . . . . . . . . . . . . . . . . . . . . . . . . . 44
4 Analyse des Sprachsignals 45
4.1 Kurzzeitanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.2 Kurzzeitspektrum . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
4.2.1 Diskrete Fouriertransformation . . . . . . . . . . . . . . . . . . . . 46
4.2.2 Eigenschaften der DFT . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.3 Fensterfunktionen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2.4 Die Frequenzauflösung der DFT . . . . . . . . . . . . . . . . . . . . 51
4.2.5 Zeitabhängige Fouriertransformation . . . . . . . . . . . . . . . . . 52
4.3 Das Leistungsdichtespektrum . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.3.1 Schätzung des Leistungsdichtespektrums mittels DFT . . . . . . . . 55
4.3.2 Eigenschaften des Periodogramms . . . . . . . . . . . . . . . . . . . 55
4.4 Die Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.4.1 Definition der Autokorrelationsfunktion . . . . . . . . . . . . . . . . 57
Vorlesung Sprachverarbeitung I — WS 2005/2006 iii
4.4.2 Eigenschaften der Autokorrelationsfolge . . . . . . . . . . . . . . . . 57
4.4.3 Kurzzeit-Autokorrelation . . . . . . . . . . . . . . . . . . . . . . . . 58
4.5 Lineare Prädiktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1
4.5.1 Herleitung der LPC-Analyse . . . . . . . . . . . . . . . . . . . . . . 6 2
4.5.1.1 Autokorrelationsmethode . . . . . . . . . . . . . . . . . . 6 3
4.5.1.2 Kovarianzmethode . . . . . . . . . . . . . . . . . . . . . . 6 4
4.5.2 Sprachmodellierung mittels linearer Prädiktion . . . . . . . . . . . . 6 4
4.5.3 Interpretation der linearen Prädiktion . . . . . . . . . . . . . . . . . 71
4.5.4 Die Präemphase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
4.6 H omomorphe Analyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6 .1 Das verallgemeinerte Superpositionsprinzip . . . . . . . . . . . . . . 73
4.6 .2 Homomorphe Systeme . . . . . . . . . . . . . . . . . . . . . . . . . 73
4.6 .3 Das DFT-Cepstrum. . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.6 .4 Das LPC-Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
4.6 .5 DasMel-Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
4.6 . 6 Das Delta-Cepstrum . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.6 .7 Die cepstrale Distanz . . . . . . . . . . . . . . . . . . . . . . . . . . 81
4.7 Vektorquantisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
4.7.1 Realisation der Vektorquantisierung . . . . . . . . . . . . . . . . . . 82
4.7.2 Generieren eines Codebuches . . . . . . . . . . . . . . . . . . . . . . 84
4.7.2.1 K-means-Algorithmus . . . . . . . . . . . . . . . . . . . . 84
4.7.2.2 LBG-Algorithmus . . . . . . . . . . . . . . . . . . . . . . 85
5 Einführung in die Sprachsynthese 87
5.1 Zusammenhang zwischen Lautsprache und Schrift . . . . . . . . . . . . . . 88
5.2 Teile der Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.2.1 Die Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.2.2 Die phonoakustische Stufe . . . . . . . . . . . . . . . . . . . . . . . 91
5.3 Lautinventar für die Sprachsynthese . . . . . . . . . . . . . . . . . . . . . . 92
5.3.1 Linguistische Grundlagen . . . . . . . . . . . . . . . . . . . . . . . . 92
5.3.2 Festlegen der Lautdifferenzierung . . . . . . . . . . . . . . . . . . . 93
5.4 Verfahren für die Sprachsignalproduktion . . . . . . . . . . . . . . . . . . . 94
5.4.1 Der artikulatorische Ansatz . . . . . . . . . . . . . . . . . . . . . . 94
5.4.2 Der Signalmodellierungsansatz . . . . . . . . . . . . . . . . . . . . . 95
5.4.2.1 Sprachsignalerzeugung mit demLPC-Modell . . . . . . . . 96
iv Vorlesung Sprachverarbeitung I — WS 2005/2006
5.4.2.2 Sprachsignalerzeugung mit demFormantmodell . . . . . . 97
5.4.3 Der Verkettungsansatz . . . . . . . . . . . . . . . . . . . . . . . . . 98
5.5 Sprachsynthese nach dem Verkettungsansatz . . . . . . . . . . . . . . . . . 99
5.5.1 Wahl der Grundelemente . . . . . . . . . . . . . . . . . . . . . . . . 100
5.5.2 Ausschneiden von Grundelementen . . . . . . . . . . . . . . . . . . 100
5.5.3 Veränderung der prosodischen Grössen . . . . . . . . . . . . . . . . 103
5.5.3.1 Dauer- und F0-Veränderung mittels LPC. . . . . . . . . . 104
5.5.3.2 Dauer- und F0-Veränderung imFrequenzbereich . . . . . . 105
5.5.3.3 Dauer- und F0-Veränderung mittels PSOLA . . . . . . . . 107
5.6 D ie Steuerung der Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . 110
5.6.1 Grundfrequenzsteuerung . . . . . . . . . . . . . . . . . . . . . . . . 110
5.6 .1.1 Die Tonhöhe beeinflussende Faktoren . . . . . . . . . . . . 111
5.6.1.2 Stilisierung von Grundfrequenzverläufen . . . . . . . . . . 112
5.6.1.3 Regelbasierte Grundfrequenzsteuerung . . . . . . . . . . . 114
5.6.1.4 Modellierung der Grundfrequenz . . . . . . . . . . . . . . 115
5.6 .2 Dauersteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
5.6 .2.1 Die Lautdauer beeinflussende Faktoren . . . . . . . . . . . 119
5.6 .2.2 Realisation einer Dauersteuerung . . . . . . . . . . . . . . 120
5.6 .3 Intensitätssteuerung . . . . . . . . . . . . . . . . . . . . . . . . . . 121
5.6 .4 Umsetzung der prosodischen Grössen auf die Laute . . . . . . . . . 121
5.6.5 Prosodische Veränderung der Grundelemente . . . . . . . . . . . . . 121
6 Einführung in die Spracherkennung 123
6 .1 Die Aufgabe der Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . 123
6 .2 Probleme der Spracherkennung . . . . . . . . . . . . . . . . . . . . . . . . 125
6.3 Anwendungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128
6 .4 Einteilung der Spracherkennungssysteme . . . . . . . . . . . . . . . . . . . 129
6 .5 Evaluation der Erkennungsleistung . . . . . . . . . . . . . . . . . . . . . . 131
6 .5.1 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6 . 6 Historischer Rückblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6 .7 Merkmalsextraktion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
6 .7.1 Mel-Frequency Cepstral Coefficients (MFCC) . . . . . . . . . . . . 134
6 .7.2 GeglätteteMel-Spektren von Vokalen und Frikativen . . . . . . . . 137
6 .7.3 Plosivlaute imgeglättetenMel-Spektrogramm . . . . . . . . . . . . 137
6.7.4 Spektrale Variabilität . . . . . . . . . . . . . . . . . . . . . . . . . . 138
Vorlesung Sprachverarbeitung I — WS 2005/2006 v
6 .7.5 Rekonstruktion des Signals . . . . . . . . . . . . . . . . . . . . . . . 140
6 .8 Spracherkennung mittels Sprachmustervergleich . . . . . . . . . . . . . . . 140
6 .8.1 Zeitliche Anpassung zweier Sprachmuster . . . . . . . . . . . . . . . 142
6 .8.2 Dynamische Programmierung . . . . . . . . . . . . . . . . . . . . . 145
6 .8.3 Dynamische Zeitanpassung (DTW) . . . . . . . . . . . . . . . . . . 146
6.8.4 Anwendungen des DTW-Algorithmus . . . . . . . . . . . . . . . . . 151
6 .9 Statistischer Ansatz der Spracherkennung . . . . . . . . . . . . . . . . . . . 152
6 .9.1 Einleitung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6 .9.2 Statistische Sicht . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
6 .9.3 Hidden-Markov-Modelle (HMM) . . . . . . . . . . . . . . . . . . . . 153
6 .9.3.1 Phonetisch-akustische Modelle . . . . . . . . . . . . . . . . 154
6 .9.3.2 Ein einfaches Lautmodell . . . . . . . . . . . . . . . . . . 154
6 .9.3.3 Hidden-Markov-Modelle . . . . . . . . . . . . . . . . . . . 156
6 .9.3.4 HMMals akustisches Modell . . . . . . . . . . . . . . . . 158
6 .9.3.5 Parameter eines HMM . . . . . . . . . . . . . . . . . . . . 158
6.9.3.6 Grundlegende Algorithmen . . . . . . . . . . . . . . . . . 159
6 .9.4 Aufbau von Spracherkennern mit HMM. . . . . . . . . . . . . . . . 159
6 .9.4.1 Einzelworterkenner . . . . . . . . . . . . . . . . . . . . . . 159
6 .9.4.2 Spracherkenner mit Erkennungsnetzwerk . . . . . . . . . . 16 1
6 .9.4.3 Erkennung kontinuierlicher Sprache . . . . . . . . . . . . . 16 3
6 .10 Evaluation der Erkennungsleistung . . . . . . . . . . . . . . . . . . . . . . 16 4
6 .10.1 Wortfehlerrate . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 5
6 .10.2 Algorithmus zur Bestimmung derWortfehlerrate . . . . . . . . . . . 16 5
A Fourieranalyse und -synthese von Sprachsignalen 171
A.1 Das wirkliche Spektrum eines Signals . . . . . . . . . . . . . . . . . . . . . 172
A.1.1 Der Einfluss der Fensterfunktion . . . . . . . . . . . . . . . . . . . . 173
A.1.2 Analyse eines stationären Signals . . . . . . . . . . . . . . . . . . . 175
A.1.3 Analyse eines instationären Signals . . . . . . . . . . . . . . . . . . 178
A.1.3.1 Vermindern der Instationarität eines Signals durch Umtastung
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 180
A.1.3.2 Fouriertransformation für instationäre Signale . . . . . . . 182
A.2 Schätzung des Sprachspektrums . . . . . . . . . . . . . . . . . . . . . . . . 182
A.2.1 Ermittlung schwacher spektraler Komponenten . . . . . . . . . . . 184
A.2.2 Elimination unechter spektralerMaxima . . . . . . . . . . . . . . . 186
A.3 Bestimmung der Grundfrequenz . . . . . . . . . . . . . . . . . . . . . . . . 188
A.3.1 Berechnung der Autokorrelation . . . . . . . . . . . . . . . . . . . . 188
A.3.2 Detektion des AKF-Maximums . . . . . . . . . . . . . . . . . . . . 190
A.3.3 Erhöhung der Genauigkeit . . . . . . . . . . . . . . . . . . . . . . . 190
A.4 Rekonstruktion des Sprachsignals . . . . . . . . . . . . . . . . . . . . . . . 191
B Veränderung der prosodischen Parameter im Kurzzeitspektrum 195
B.1 Dauerveränderung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
B.1.1 Grundsätzliches zur Dauerveränderung . . . . . . . . . . . . . . . . 195
B.1.2 Minimale Phasenkorrektur . . . . . . . . . . . . . . . . . . . . . . . 196
B.2 Grundfrequenzveränderung . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
B.2.1 Prinzip der Grundfrequenzveränderung . . . . . . . . . . . . . . . . 198
B.2.2 Frequenzskalierung und Formanten . . . . . . . . . . . . . . . . . . 198
B.2.3 Rekonstruktion der Formanten . . . . . . . . . . . . . . . . . . . . . 199
B.2.3.1 Approximation des Spektrums durch lineare Prädiktion . . 200
B.2.3.2 CepstraleMethode . . . . . . . . . . . . . . . . . . . . . . 201
B.2.4 Frequenzskalierung und Signalbandbreite . . . . . . . . . . . . . . . 202
B.2.4.1 Kompensation der Bandbreitenreduktion . . . . . . . . . . 202
B.2.4.2 Erläuterungen zur Bandbreitenkompensation . . . . . . . 203
C Abtastratenwandler 205
C.1 Stationarisierung von Signalausschnitten . . . . . . . . . . . . . . . . . . . 205
C.2 Ermitteln von Zwischenabtastwerten . . . . . . . . . . . . . . . . . . . . . 207
C.2.1 Abtastratenvervielfacher . . . . . . . . . . . . . . . . . . . . . . . . 207
C.2.2 Interpolator . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
C.2.3 Abtastratendezimator . . . . . . . . . . . . . . . . . . . . . . . . . 209
C.3 Veränderung des Spektrums . . . . . . . . . . . . . . . . . . . . . . . . . . 209
C.3.1 Veränderung der Frequenz . . . . . . . . . . . . . . . . . . . . . . . 210
C.3.2 Veränderung der Amplitude . . . . . . . . . . . . . . . . . . . . . . 210
C.3.3 Veränderung der Phase . . . . . . . . . . . . . . . . . . . . . . . . . 210
D Grundlagen der Wahrscheinlichkeitstheorie 213
7 Formalisierung linguistischen Wissens 3
7.1 Formale Sprachen und Grammatiken . . . . . . . . . . . . . . . . . . . . . 3
7.2 Die Sprachhierarchie nach Chomsky . . . . . . . . . . . . . . . . . . . . . . 4
7.2.1 Reguläre Sprachen ( Typ 3) . . . . . . . . . . . . . . . . . . . . . . . 6
7.2.2 Kontextfreie Sprachen ( Typ 2) . . . . . . . . . . . . . . . . . . . . . 7
7.2.3 Kontextsensitive Sprachen ( Typ 1) . . . . . . . . . . . . . . . . . . 10
7.2.4 Allgemeine Sprachen ( Typ 0) . . . . . . . . . . . . . . . . . . . . . 13
7.2.5 DasWortproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
7.3 DieWortanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
7.3.1 Wortanalyse für Typ-3-Sprachen . . . . . . . . . . . . . . . . . . . . 16
7.3.2 Wortanalyse für Typ-2-Sprachen ( Parsing) . . . . . . . . . . . . . . 23
7.3.3 Wortanalyse für Typ-1-Sprachen . . . . . . . . . . . . . . . . . . . . 27
7.4 Der DCG-Formalismus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
7.4.1 Einführende Betrachtungen . . . . . . . . . . . . . . . . . . . . . . 29
7.4.2 Definition und Eigenschaften von DCG . . . . . . . . . . . . . . . . 32
7.4.2.1 Notation . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
7.4.2.2 Unifikation . . . . . . . . . . . . . . . . . . . . . . . . . . 33
7.4.2.3 DCG-Ableitungen . . . . . . . . . . . . . . . . . . . . . . 34
7.4.2.4 DCG-Ableitungsbaum . . . . . . . . . . . . . . . . . . . . 36
7.4.2.5 Grammatikklasse von DCG . . . . . . . . . . . . . . . . . 37
7.4.3 DCG und Chart-Parsing . . . . . . . . . . . . . . . . . . . . . . . . 39
7.5 Two-level-Regeln und Transduktoren . . . . . . . . . . . . . . . . . . . . . 42
7.5.1 Einführung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
7.5.2 Two-level-Regeln . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
7.5.2.1 Notation und Bedeutung . . . . . . . . . . . . . . . . . . . 43
7.5.2.2 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . 44
7.5.2.3 Beispiele von Two-level-Regeln . . . . . . . . . . . . . . . 44
7.5.3 Transduktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
7.5.3.1 Definition und Eigenschaften von Transduktoren . . . . . 46
7.5.3.2 Übersetzen von Two-level-Regeln in Transduktoren . . . . 47
7.5.3.3 Kombinieren von Transduktoren . . . . . . . . . . . . . . 50
8 Sprachsynthese: Transkription 53
8.1 Linguistische Grundlagen für die Transkription . . . . . . . . . . . . . . . . 54
8.1.1 Lautfolge . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.1.1.1 Ausspracheregeln für Deutsch . . . . . . . . . . . . . . . . 54
8.1.1.2 Das Zerlegen vonWörtern inMorpheme . . . . . . . . . . 55
8.1.1.3 Morpho-phonemische Varianten . . . . . . . . . . . . . . . 56
8.1.1.4 Ableitung der Lautfolge aus der Phonemfolge . . . . . . . 57
8.1.1.5 Aussprachevarianten . . . . . . . . . . . . . . . . . . . . . 57
8.1.2 Prosodie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
8.1.2.1 Akzentuierung . . . . . . . . . . . . . . . . . . . . . . . . 58
8.1.2.2 Phrasierung . . . . . . . . . . . . . . . . . . . . . . . . . . 59
8.2 Automatische Transkription . . . . . . . . . . . . . . . . . . . . . . . . . . 60
8.2.1 Der "direkte” Ansatz der Transkription . . . . . . . . . . . . . . . . 60
8.2.2 Der linguistische Ansatz der Transkription . . . . . . . . . . . . . . 60
8.3 Automatische morphosyntaktische Analyse . . . . . . . . . . . . . . . . . . 62
8.3.1 Morphologische Analyse mit DCGs . . . . . . . . . . . . . . . . . . 62
8.3.2 Generierung der phonetischen Umschrift in einer DCG . . . . . . . 64
8.3.3 Hauptprobleme der morphosyntaktischen Analyse . . . . . . . . . . 64
8.3.3.1 NichtanalysierbareWörter . . . . . . . . . . . . . . . . . . 65
8.3.3.2 Allomorphische Varianten . . . . . . . . . . . . . . . . . . 66
8.3.3.3 Nichtanalysierbare Sätze . . . . . . . . . . . . . . . . . . . 67
8.3.3.4 Mehrdeutigkeiten . . . . . . . . . . . . . . . . . . . . . . . 67
8.4 Realisation einer Transkriptionsstufe . . . . . . . . . . . . . . . . . . . . . 68
8.4.1 DCGs in SVOX . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
8.4.2 Morphologische Analyse in SVOX . . . . . . . . . . . . . . . . . . . 69
8.4.3 Syntaxanalyse in SVOX . . . . . . . . . . . . . . . . . . . . . . . . 70
8.4.4 Analyse unbekannterWortstämme . . . . . . . . . . . . . . . . . . 71
8.4.5 Bestimmung der phonetischen Umschrift ganzerWörter . . . . . . . 72
8.4.6 Akzentuierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
8.4.6.1 Wortakzentuierung . . . . . . . . . . . . . . . . . . . . . . 73
8.4.6.2 Satzakzentuierung . . . . . . . . . . . . . . . . . . . . . . 74
8.4.7 Phrasierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
8.4.8 Generierung der phonologischen Darstellung . . . . . . . . . . . . . 77
8.4.9 Weiterverarbeitung der phonologischen Darstellung . . . . . . . . . 77
9 Spracherkennung mit HMM 79
9.1 Trellis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
9.2 Diskrete HMM( DDHMM) . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2.1 Evaluationsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
9.2.2 Forward-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . 82
9.2.3 Decodierungsproblem . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.2.4 Viterbi-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . . 84
9.2.5 Schätzung der HMM-Parameter . . . . . . . . . . . . . . . . . . . . 86
9.2.6 Backward-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . . . 86
9.2.7 Baum-Welch-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 87
9.2.8 Viterbi-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3 Kontinuierliche HMM( CDHMM) . . . . . . . . . . . . . . . . . . . . . . . 92
9.3.1 Multivariate Gauss-Mischverteilungen ( GMM) . . . . . . . . . . . . 92
9.3.2 HMM/GMM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
9.3.3 Baum-Welch-Algorithmus . . . . . . . . . . . . . . . . . . . . . . . 96
9.3.4 Mixture Splitting . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
9.3.5 Viterbi-Training . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
9.4 Diskrete und kontinuierliche HMM . . . . . . . . . . . . . . . . . . . . . . 100
9.4.1 Struktur der Zustandsübergangsmatrix . . . . . . . . . . . . . . . . 100
9.4.2 Wahl des Initial-HMM . . . . . . . . . . . . . . . . . . . . . . . . . 100
9.4.3 Training mit mehreren Sequenzen . . . . . . . . . . . . . . . . . . . 102
9.4.4 Underflow . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
9.4.5 Limitierter Trainingsmaterialumfang . . . . . . . . . . . . . . . . . 104
9.4.6 Koppelung von HMM-Parametern . . . . . . . . . . . . . . . . . . . 105
9.4.7 Stärken und Schwächen von HMM . . . . . . . . . . . . . . . . . . 106
9.5 Akustische Modellierung mit HMM . . . . . . . . . . . . . . . . . . . . . . 107
9.5.1 Wahl der Grundelemente . . . . . . . . . . . . . . . . . . . . . . . . 107
9.5.1.1 Allgemeine Anforderungen an die Grundelemente . . . . . 107
9.5.1.2 Kontextunabhängige Grundelemente . . . . . . . . . . . . 108
9.5.1.3 Kontextabhängige Grundelemente . . . . . . . . . . . . . . 109
9.5.1.4 Generalisierte Triphone . . . . . . . . . . . . . . . . . . . 111
9.5.1.5 Modellierung von Pausen . . . . . . . . . . . . . . . . . . 114
9.5.2 Training von Grundelementmodellen . . . . . . . . . . . . . . . . . 115
9.5.3 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
9.5.4 ParalleleMerkmalsequenzen . . . . . . . . . . . . . . . . . . . . . . 118
9.6 Spracherkennung mit HMM . . . . . . . . . . . . . . . . . . . . . . . . . . 120
9.6.1 Aufnahme des Sprachmaterials . . . . . . . . . . . . . . . . . . . . 120
9.6.2 Wörter ausserhalb des Vokabulars . . . . . . . . . . . . . . . . . . . 121
9.6.3 Decodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
9.6.4 N-Best-Viterbi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
10 Sprachmodellierung 127
10.1 Zum Begriff Sprachmodellierung in der Spracherkennung . . . . . . . . . . 127
10.2 Statistische Sprachmodellierung . . . . . . . . . . . . . . . . . . . . . . . . 128
10.2.1 Sprachmodellierung bei der Einzelworterkennung . . . . . . . . . . 129
10.2.2 Sprachmodellierung für Wortfolgen . . . . . . . . . . . . . . . . . . 131
10.2.3 Das allgemeine statistische Sprachmodell . . . . . . . . . . . . . . . 132
10.2.4 N-Gram-Sprachmodelle . . . . . . . . . . . . . . . . . . . . . . . . . 132
10.2.4.1 Das Unigram-Sprachmodell . . . . . . . . . . . . . . . . . 133
10.2.4.2 Das Bigram-Sprachmodell . . . . . . . . . . . . . . . . . . 134
10.2.4.3 Das Trigram-Sprachmodell . . . . . . . . . . . . . . . . . . 135
10.2.5 Schätzen der Parameter von N-Gram-Sprachmodellen . . . . . . . . 136
10.2.6 Kategorielle N-Gram-Sprachmodelle . . . . . . . . . . . . . . . . . . 138
10.2.7 Anwendung von N-Gram-Sprachmodellen im Viterbi-Algorithmus . 140
10.2.8 Bewertung von Sprachmodellen . . . . . . . . . . . . . . . . . . . . 140
10.2.8.1 Information . . . . . . . . . . . . . . . . . . . . . . . . . . 141
10.2.8.2 Entropie . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
10.2.8.3 Perplexität . . . . . . . . . . . . . . . . . . . . . . . . . . 143
10.2.9 Schwächen der statistischen Modellierung . . . . . . . . . . . . . . . 143
10.3 Wissensbasierte Sprachmodellierung . . . . . . . . . . . . . . . . . . . . . . 145
10.3.1 LinguistischesWissen zur Spracherkennung . . . . . . . . . . . . . . 146
10.3.2 Der Einsatz linguistischenWissens . . . . . . . . . . . . . . . . . . 147
10.3.2.1 Einsatz in der Konzeptionsphase . . . . . . . . . . . . . . 147
10.3.2.2 Einsatz in der Konfigurationsphase . . . . . . . . . . . . . 148
10.3.2.3 Einsatz in der Erkennungsphase . . . . . . . . . . . . . . . 149
10.3.2.4 Einsatz in der Nachverarbeitung . . . . . . . . . . . . . . 149
10.3.3 Die Akquisition linguistischenWissens . . . . . . . . . . . . . . . . 150
10.3.4 Einsatz formaler Grammatiken in der Spracherkennung . . . . . . . 150
10.3.5 Parsing in der Spracherkennung . . . . . . . . . . . . . . . . . . . . 152
10.3.5.1 Parsing von N-Best-Wortgraphen . . . . . . . . . . . . . . 153
10.3.5.2 Parsing von Grundelementhypothesen . . . . . . . . . . . 154
Notationen 159
Literaturverzeichnis 163
Glossar 165
Index 169
comment send print AddThis Feed Button

STICHWORTE, DIE AUF WEITERE PRODUKTE VERWEISEN

 
E-Mail-Adresse


Sind Sie Dozent?

Passwort vergessen?
Passwort


 Ja   Nein

 


ALLE ZEITSCHRIFTEN