StoreBlogRSSTwitterFlickrIssuuYouTubeFacebookImage Stock Archive

Oliver Weiss DesignARTICLES

Art, Society, Media & Design

Articles

Oliver Weiss Design

S E A R C H


template_webdesign template line
template computer
Tutorials

Photoshop-Lexikon
deutsch / englisch

Photoshop Glossary

Coverillustration im Stile
von "The New Yorker"

Step-by-Step Photoshop Tutorial

Illustration auf alt getrimmt
Step-by-Step Photoshop Tutorial

Oans, zwoa, Pop-Art!
Macwelt
Tutorial on
Oktoberfest Poster Design

Wie zeichnet man
einen Comicstrip?

Step-by-Step Photoshop Tutorial

Zweifarbendruck
Step-by-Step Photoshop Tutorial
template line
template computer
Art & Society

Der Taktgeber
Film Composer John Ottman

Charlie Brown lives
Peanuts Creator Charles M. Schulz

Entwicklung der politischen
Parteien in Deutschland

Evolution of German Parties since 1848

FAQ zur Online-Bewerbung
How to File Job Applications Online

Die Muminmutter
Tove Jansson, Writer & Artist

Муми-мама
Туве Янссон

Muminmutter lebt
Tove Jansson ist gestorben

Moominmamma Forever
Tove Jansson has Died

Муми-мама навсегда
Туве Янссон

9-11 - One Year After
Comments by Ed Koch et al.

9-11 - ein Jahr später
Kommentare von Ed Koch et al.
template line
template internet
Business

PR for Law Firms
Getting Exposure in the Media

PR für Kanzleien
Die gewünschte Publicity bekommen

Wer abmahnt, hat
nicht immer recht

Interview on Cease and Desist Letters

Ein wunderbarer
Spätsommertag

Interview on 9-11
template line
template computer
Technology

Now you're Talking!
Speech Analysis Methods

PC für Anfänger
How do Computers Really Work?

Die Sprachverarbeiter
Automatic Speech Recognition
template line
template tech stuff
Web Technology

Alles mit System
Content Management for Lawyers

Die Anwaltssuche 
Lawyers Search Engine

Die Datenmacher
Databased Law Firm Websites

Die Datenmaschinen
Web Content Management Systems

Digitales Publishing
Document Management with PDF 

Internet-Zugang einrichten
Internet Dial-up Access Step by Step

Internet in New York
Free Internet Providers in NYC

Maßgeschneidert
Content Management for Publishers 

Web-Wissen
Web World Glossary
template line
template_webdesign
Web Design

Der Arzt im Web
Web Design for Doctors

Anwalts-Marketing-Preis
für Haarmann Hemmelrath

First Prize for Legal Web Site

Auf einen Blick
Corporate Design for Lawyers

En un coup d'oeil
L’image de l’entreprise sur Internet

In Szene gesetzt
Web Sites for Law Firms

Wie aus einem Guß
Corporate Design for Accountants

 

ARTICLES > Now you're Talking! (1/6)

PARTS 1 | 2 | 3 | 4 | 5 | 6


Technology: Methoden der Sprachanalyse
Now you’re Talking!
||| Oliver Weiss

Jetzt wird's technisch: Wie funktioniert eigentlich Sprachverarbeitung? Der Autor stellt grundlegende Methoden für die Analyse im Zeitbereich, im Frequenzbereich und im "Cepstral"-Bereich vor. Im Visier sind Bonobos, Wale und, natürlich, Menschen.
Speech Analysis Methods: Article on fundamental frequencies analysis, Fourier analysis, and cepstral analysis.

 

 

Aus: LEGAmedia, meinem Online-Magazine für Juristen und Unternehmer.

>SPRACHERKENNUNG: Warum ist Spracherkennung so schwierig? Mit einem Interview mit dem Sprachexperten Heinrich Niemann.

>ILLUSTRATIONEN: Illustrationen zum Thema Sprache, Literatur und Buch.

W

arum klingt ein Mann eigentlich wie ein Mann und nicht wie eine Frau? Und worin unterschieden sich ihre Lautäußerungen von denen von Schimpansen oder Walen?

Und warum eigentlich hört es sich anders an, wenn jemand normal spricht, droht oder brüllt? Welche Informationen sind in einem gesprochenen Satz oder auch nur einer kurzen Lautäußerung verborgen, und wie bekommt man sie heraus?

Der jahrzehntealte Traum der Sprachanalytiker, Nachrichtentechniker, Physiker, Phonetiker, Akustiker, Linguisten und Informatiker sieht so aus: Laßt uns herausfinden, wie Sprache funktioniert, damit wir diese Informationen häppchenweise an Rechenmaschinen verfüttern können, die uns eines Tages genauso verstehen wie wir uns untereinander! Hurra!

Abb. 1. Eine Sinuskurve ist eine Sinuskurve ist eine Sinuskurve - im Zeitbereich wie im Frequenzbereich. (A = Amplitude, T0 = Periodendauer, f0 = Frequenz)

Eine tolle Idee. Schon Anfang der Sechziger Jahre schien das Problem kurz vor der Lösung. Doch von wegen Hurra: Denn leider schoben sich immer wieder neue Erkenntnisse über die Komplexität der menschlichen (und übrigens tierischen) Sprache in den Weg, die die Dinge komplizierten machten als zunächst angenommen. 

Und auch die Rechenmaschinen machten viel schneller schlapp als man gehofft hatte. Es ist aber auch so verdammt viel Information in so einem Sprachsignal verborgen!

Lustigerweise haben sich die Algorithmen zur Analyse von Sprache in all den Jahrzehnten gar nicht so wesentlich verändert: Frequenzanalyse, Dynamic Mapping, Statistische Verfahren, Hidden-Markov-Modelle oder Neuronale Netze, wie sie alle heißen mögen. Allerdings sind die Computer besser geworden, die den alten Algorithmen neues Leben einhauchen.

 

I scream, you scream

Abb. 2. Eine komplexes Zeitsignal ist die Summe aus unendlich vielen Sinuskurven. Sagt Jean Baptiste Joseph Fourier.

Wie analysiert man Sprache? Antwort: Indem man das Signal in lauter kleine Stücke häckselt und es sich Stück für Stück zu Gemüte führt. Ein einfaches Signal, z.B. eine Sinuskurve, wenn man sie sich am Oszilloskop ansieht, besteht ja eigentlich nur aus zwei Komponenten: der Amplitude (der Spannungsausschlag auf der Y-Achse) und der Frequenz (dem Reziproken der Periodendauer von Peak zu Peak).

Monsieur Jean Baptiste Joseph Fourier fand im 18. Jahrhundert heraus, daß sich jedes beliebige Signal, also auch solche, die wesentlich komplexer sind als unsere Sinuskurve, durch die Summe aus unter Umständen unendlich vielen einzelnen Sinus- und Cosinuskurven darstellen läßt (Cosinuskurven sind nichts anderes als entlang der Zeitachse um eine halbe Periodendauer verschobene Sinuskurven).

Nun kann man sich vorstellen, daß die Analyse eines komplexes Signals im Zeitbereich - also mit einer zahllosen Menge von Sinuskurven mit unterschiedlichen Amplituden und Frequenzen - ein ziemlich mühsames Unterfangen ist. 

Viel einfacher, so fand Jean-Baptiste Joseph Fourier heraus, ist das, wenn man sich die Kurven im "Frequenzbereich" ansieht, und das geht so: Eine Sinuskurve der Amplitude A und Periodendauer T0 läßt sich im wahnsinnig einfach darstellen, wenn man statt den Koordinatenachsen A (Amplitude) und t (Zeit) die Achsen A und f (Frequenz) verwendet - diese Darstellung nennt man den "Frequenzbereich". Denn hier stellt sich die Sinuskurve lediglich als ein kurzer Ausschlag der Höhe A bei der Frequenz f0 = 1/T0 dar (Abb. 1).

Auch die Mustererkennung und Bild-
verarbeitung nach dem Prinzip der Fourier-
Transformation.

Diese Übertragung des Signals aus dem Zeitbereich in den Frequenzbereich (auch Spektralbereich genannt) bezeichnet man als "Fourier-Transformation". Die Fourier-Transformation des Zeitsignals nennt man "Spektrum". Digital - also rechnerunterstützt - realisiert man das mit der sogenannten "Fast Fourier Transformation", kurz FFT.

Übrigens funktioniert auch die Mustererkennung und Bildverarbeitung nach dem Prinzip der Fourier-Transformation - nur eben auf zwei Dimensionen übertragen. Die verschiedenen Filter bei den Bildverarbeitungsprogrammen von Photoshop oder Corel etwa arbeiten mit Fourier-Transformationen. Und auch die Analysemethoden für alle anderen ein- oder zweidimensionalen Signale wie bei UMTS, dem Brummen beim Auto, bei MP3-Files von Britney Spears, bei MPEG-Pornovideos oder bei den Klingeltönen von Handys sind mehr oder weniger dieselben.

Grundsätzlich gibt es zwei verschiedene Methoden der Analyse eines Sprachlauts: Entweder wird das Signal im Zeitbereich untersucht; dabei schaut man sich also den Amplitudenverlauf über der Zeit an. Oder man analysiert das Signal im Frequenzbereich, also mithilfe von Fourier-Transformationen. Natürlich gibt es alle möglichen Mischformen - zum Beispiel die Cepstralanaylse, bei der Zeit- und Frequenzanalysen miteinander kombiniert werden. Im folgenden werden die Analysemethoden im Zeit-, im Frequenz- und im Cepstralbereich ausführlich vorgestellt; außerdem werden Methoden zur Ermittlung der Anregungsfrequenz eines Sprachsignals (Grundfrequenz) erläutert.

 

Fensterln für Anfänger 

Sprache kann signaltheoretisch modelliert werden als das Ergebnis von einer Reihe von akustischen Filtern, die durch Töne oder auch durch Lärm angeregt wurden. Sprache ist mathematisch gesehen die "Faltung" (convolution) eines Anregungsimpulses mit dem durch den Vokaltrakt, also den Rachenraum, gegebenen Filter.

Bei der Kurzzeit-Analyse wird das Zeitsignal Stück für Stück innerhalb eines entlang der Zeitachse zu verschiebenden quasi-stationären Intervalls gleichbleibender Dauer analysiert. Das diskrete Zeitsignal s[n] wird sequentiell mit einer entlang der Zeitachse in Abständen von (1-ü)N (N: Fensterbreite; ü: Überlappungsgrad, i.a. mit 0 < ü < 0.5) zu verschiebenden Fensterfunktion w[n] der Breite N multipliziert (gewichtet); dieser Vorgang heißt "Fensterung" (windowing).

Abb. 3. Das Prinzip der "Faltung": Das Signal a(t) wird mit dem Signal b(t) gefiltert. Das Ergebnis, dargestellt als a(t) * b(t), ergibt eine Kurve, die mehr oder weniger einer zeitversetzten Sinuskurve entspricht. Im Frequenzbereich ist alles viel einfacher: Das Spektrum A(f) ist nichts weiter als ein kurzer Ausschlag bei der Frequenz f0; und dem Signal b(t) entspricht das Spektrum B(f). Der komplizierten Faltung im Zeitbereich enspricht die einfache Multiplikation im Frequenzbereich - das Ergebnis, A(f)·B(f), ist in diesem Fall wieder ein kurzer Ausschlag, aber mit anderer Amplitude als zuvor das Signal A(f).

Üblicherweise verwendet man Fensterbreiten von etwa 10 bis 20 ms. Bei zu großen Fensterbreiten ist die Quasi-Stationarität des Signalausschnittes meist nicht mehr gewährleistet, da schnelle zeitliche Änderungen nicht berücksichtigt werden. Bei zu kleinen Fensterbreiten beschreibt der dargestellte Ausschnitt innerhalb seiner Grenzen keinen signifikanten Verlauf des Zeitsignals.

Jean Baptiste Joseph Fourier entwickelte die nach ihm benannte "Fourier-Trans-
formation" zur Analyse von Signalen.

Da die meiste Information von Sprachsignalen in Frequenzen unterhalb 3,5 kHz enthalten ist, genügt eine Abtastrate von mindestens der doppelten Nyquistrate, also z.B. 7 kHz. (Die Nyquistrate beschreibt die kleinste Sampling-Rate, bei der das ursprüngliche Signal wieder vollständig hergestellt werden kann. Laut Nyquist-Theorem muß die niedrigste Frequenz bei der man sampled mindestens doppelt so groß wie die höchste im Signal vorkommende Frequenz sein.)

Bei Fensterbreiten von 10 bis 20 ms bzw. 70 bis 140 Abtastwerten ergeben sich gebräuchliche FFT-Fensterbreiten (immer Zweierpotenzen) zu 64, 128 oder 256 Punkten.

Fensterfunktionen

Verlauf Funktion
Rechteck wr[n] = 1
Bartlett (Dreieck) wb[n] = 1 - |2(n-(N-1)/2)/(N-1)|
Hanning wn[n] = 0.5 - 0.5 cos(2pn/(N-1))
Hamming wm[n] = 0.54 - 0.46 cos(2pn/(N-1))
Blackman-Harris wh[n] = 0.35875 - 0.48829 cos(2pn/(N-1))
+ 0.14128 cos(4
pn/(N-1)) 
- 0.01168 cos(6
pn/(N-1))
Typische diskrete Fensterfunktionen; jeweils für Abtastwerte n zwischen 0 und N-1.

All diese Fensterfunktionen erfüllen zwei grundlegende Zielvorgaben im FFT-Spektralbereich: Gefordert wird erstens eine möglichst schmale und zudem möglichst rechteckigförmige Hauptkeule (main lobe) und zweitens ein möglichst großer relativer Amplitudenabstand zwischen dem Maximum der Hauptkeule und den Maxima der ersten Nebenkeulen (side lobes). Letztere Vorgabe impliziert allerdings den Widerspruch von gleichzeitig schmalem Zeitfenster und schmaler Transformierter.

Bei zu kleinen Fensterbreiten wird kein signifikanter Verlauf des Zeitsignals beschrieben.

Beide Forderungen werden näherungsweise erfüllt, wenn die Zeitfunktion durch die Fensterung an den Anfangs- und Endbereichen abgeschwächt und zum Gesamtleistungsausgleich im mittleren Bereich verstärkt wird. Außer dem Rechteck-Fenster gewährleisten somit alle obengenannten Fenster eine Akzentuierung des mittleren Fensterbereiches gegenüber den Randbereichen.

Das Rechteck-Fenster wr[n] als Trivialfall einer Fensterung - das Zeitsignal wird in seiner Amplitude nicht beeinflußt - zeigt im Spektrum Wr[k] im Vergleich zu den anderen Fenstern zwar die schmalste Hauptkeule, dafür jedoch den geringsten relativen Amplitudenabstand von der Hauptkeule zu den Nebenkeulen. 

Das Blackman-Harris-Fenster wh[n] hingegen weist im Spektrum den größten relativen Amplitudenabstand auf, dafür jedoch auch eine breite Hauptkeule. Ideale, das heißt für alle Fälle optimale Fenster gibt es nicht. Einen guten Kompromiß aber stellt für viele Zeitsignale das weich an- und abklingende Hanning- oder Hamming-Fenster wn[n] bzw. wm[n] dar.

PARTS 1 | 2 | 3 | 4 | 5 | 6
(c) 1989–2010 Oliver Weiss Design Up! 
 Design / Illustration / Art Sale / Multimedia / Journalism / Contact

BLOG POST TICKER:

BUY MY POSTCARDS!
*NOW SELLING 34 MOTIFS*

Postcards & Gift Cards for Sale! >more

MY LATEST BOOK DESIGNS

EKS Strategy Bestseller
>more
>Buy it!
Oktoberfest Guide (with  Flip Book)
>more

>Buy it!

PIZZAZZY

Full-Page Illustration
on Psycho-
therapy for DIE ZEIT
>more
>more whimsical

Chosen by American Illustration
>more
>more awards
Bestseller
1 Mill.+ Copies Sold!
*Europe's Best Selling Nonfiction Book*
Jacket Design for Random House Bestseller  >more
>more books

>Buy it!
200,000+ Copies Sold!
Jacket Design for Richard Prechts Latest Book on Love >more
>Buy it!

GET IN TOUCH!

Oliver Weiss
Germany
Fon +49-8641-1465
info@oweiss.com
www.oweiss.com

YESTERDAYS NEWS

Oktoberfest Poster & Handelsblatt Face of the Week >more
IMAGES FOR LICENSING:
The Oliver Weiss Image Stock Archive
Take me to the image archive!
>Click here!
Search my online stock archive from 6,000 illustrations!
Animals
Architecture
Art
Books
Business
Children
Communication
Education
Environment
Family
Food
Fun
Horoscopes
Legal
Lifestyle
Marketing
Media
Medical
Music
Nature
Office
People
Politics
Psychology
Religion
Science
Seasons
Sports
Symbols
Travel

 

 

OLIVER WEISS DESIGN
SITEMAP INDEX

STOCK ARCHIVE
NEWS
CONTACT
WHO AM I?
Services
Clients
Milestones
Biography
Testimonials

KICK-ASS PROJECTS
Bestselling Book Design
Oktoberfest Poster
DER SPIEGEL Cover

DIE ZEIT Poster
"View of World" Variations
Mathematics Cartoon Award
Felix the Cat Movie Score
CBS Set Prop Design
DESIGN
Magazine Design
Conference Design
Graphic Design
Logos
CD Covers
Kitchenware
Oktoberfest Apparel

Gutachten
BOOK DESIGN
ILLUSTRATION
Editorial Illustration
Cover Illustrations
Spot Illustrations
Man w/ Hat Illustrations
"Joe" Illustrations
"OWEISS" Illustrations
"Révilot" Illustrations

Cartoons & Comics
Cartoons
Comic Strips
Turtle Tales Comic Strip


Illustrations by Topic
Administration
Animals & Pets
Arts & Music
Books & Literature
Business & Finance
Children & Juveniles
Collage & Photomontage
Education & Career
Ethnic Diversity
Family & Parenting
Food & Nutrition
Gay & Lesbian
Horoscopes & Zodiacs
Housing & Architecture
Legal & Jurisdiction
Lifestyle & Leisure
Marketing & PR
Media & Technology
Medical & Healthcare
Nature & Preservation
Office & Workplace
People & Situations
Psychology & Behavior
Politics & Society
Realistic, Retro & Linocut
Religion & Church
Science & Mathematics
Seasons & Events
Sex & Love
Sports & Recreation
Symbols & Clipart
Travel & Vacation
Vector Art & Info-Graphics
Weird & Strange
Whimsical & Humorous
Women & Style
MULTIMEDIA
E-Card Design
Flash Animation
Music

SHOP
Original Art
Lino Prints
Postcards for Sale