Introduction à la Phonétique et à la Phonologie

Introduction
- Outils
- Quelques rappels d'analyse acoustique
  - L'objet sonore
  - Analyse du son par le cerveau humain
Analyse acoustique
Analyse phonologique
Apprentissage et Classification
- Principes
- Application

Introduction

Outils

Le logiciel d'analyse Praat qui sera utilisé est un logiciel d'analyse phonétique. Il est disponible pour toutes les plateformes et peut être téléchargé à l'adresse suivante : http://www.praat.org/. l'installation ne pose pas de problème, et ne nécessite aucun redémarrage de l'ordinateur sous Windows.

On aura besoin de quelques sons, au format wav, disponibles à cette adresse : http://christophe.lalanne.free.fr/cours/sc/phonologie/wav/. On peut télécharger les sons un par un, ou bien directement une archive au format zip ou tar.gz :

tous les sons : fichier zip | fichier tar.gz

On pourra s'aider de l'aide en ligne, ou des documents à cette adresse : http://www.ling.lu.se/persons/Sidney/praate/

Quelques rappels d'analyse acoustique

L'objet sonore

Rappelons que, en physique, une onde est la propagation d'une perturbation dans l'espace sans qu'il y ait de déplacement global de matière. En acoustique, la définition est la même : il s'agit de la propagation d'une perturbation, ou d'une vibration, unidimensionnelle de l'air, qui est captée par l'organe de réception de ce type d'information chez l'homme : l'oreille.

Un type d'onde particulièrement intéressant et très utilisé est l'onde sinusoïdale. La particularité de l'onde dite sinusoïdale est que son mouvement d'oscillation est régulier. L'onde sinusoïdale, en d'autres termes, oscille périodiquement de part et d'autre de sa position d'équilibre. Les ondes sinusoïdales ont une vitesse constante et également une pression de cohésion constante. La courbe qui représente ces variations est une sinusoïde. On appelle période T d'une onde sinusoïdale la durée d'une oscillation complète, laquelle durée s'exprime en secondes. La fréquence est le nombre d'oscillations par secondes. Les sons qui résultent de vibrations sinusoïdales simples sont des sons purs. En revanche, les sons des langues ne sont pas des sons purs mais des sons complexes.

Bien que l'on se place ici dans le cadre de l'analyse acoustique, phonétique et phonologique, il ne faut pas oublier que ce type de propagation de signal est à la base de tout système de transmission et de communication. Avec des ondes sinusoïdales, il est d'ailleurs possible de faire un codage analogique de l'information. Par exemple, si l'on utilise 2 ondes en alternance, différant seulement par leur fréquence, on peut effectuer un codage binaire de l'information (cf. schéma ci-dessous). Il s'agit ici d'une modulation de fréquence, et la cadence du signal correspond à la fréquence d'envoi des bits de données.

De même, en utilisant 4 signaux différents, comme dans la figure ci-après, on peut transmettre 4 bits de données différents. Ces signaux sont obtenus à partir du même signal de base, qui est simplement décalé à chaque fois : on dit qu'il est déphasé de 1/4 sa période.

Le principal problème dans la transmission de signaux est la présence inéluctable de "bruit", qui gêne son analyse et donc la restitution exacte de l'information transmise. Mais, comme on va le voir, le système d'analyse phonologique chez l'être humain est beaucoup plus robuste aux distorsions locales du signal de parole, et on est capables de comprendre ce que notre interlocuteur nous dit même en présence d'un bruit de fond ambiant, ou d'une suppression partielle de l'information du signal.

Les principales étapes de construction du sens d'un énoncé verbal sont décrites dans la figure ci-dessous. Ces étapes seront décrites plus en détails lors du cours de linguistique, mais il est important de noter qu'il s'agit bien ici de différentes étapes d'extraction des informations contenues dans le signal acoustique.

Analyse du son par le cerveau humain

Le cerveau est capable d'analyser différents types de son : des sons avec des modulations de fréquences plus ou moins élaborées, comme le son émis par la vibration d'une corde de violon :

ou bien des sons beaucoup plus complexes, comme ceux qui se succèdent lorsque votre interlocuteur prononce une phrase :

Ces sons sont perçus par un organe d'une grande complexité : l'oreille.

Sa conformation géométrique (en forme de canal spiralé) fait d'elle un parfait analyseur de vibrations acoustiques, et elle est capable d'analyser des sons d'une grande complexité ; en fait, elle possède différents types de récepteurs qui permettent d'analyser à la fois l'intensité et la fréquence du signal. La localisation du son peut être effectuée en utilisant les 2 oreilles, puisque les temps d'arrivée d'un son aux 2 oreilles n'est pas le même suivant l'orientation de la tête. C'est ce qui explique pourquoi, en voiture, on a généralement du mal à savoir si une ambulance est devant ou derrière nous : comme celle-ci est alignée dans le même axe que nous, les temps d'arrivée du signal modulé sont approximativement les mêmes.

Remarquons d'emblée que seule une certaine gamme de sons peut être analysée par le cerveau humain. Précisément, l'ensemble des sons audibles est compris dans une gamme de fréquence comprise entre xx et xx Hz. Le seuil de douleur est généralement fixé à 120 dB. Mais, il est intéressant de noter que la limite à laquelle les sons deviennent douloureux pour l'oreille n'est pas tout à fait la même que la limite à laquelle les sons provoquent des lésions : ainsi, lorsqu'on écoute un son d'intensité trop élevée (par exemple, sonwalkman avec le volume sonore au maximum), on peut ne pas ressentir de douleur alors que l'oreille interne souffre déjà de traumatismes...

A titre de comparaison, voici l'équivalence au niveau de la pression acoustique entre différents types de sons (ou bruits) :

Le cerveau humain est composé d'un grand nombre d'aires cérébrales assurant le traitement de l'information en provenance de l'environnement et des informations internes. Parmi celles-ci, certaines sont plus spécifiquement dédiées au traitement de la parole. Les deux grandes aires les plus connues sont l'aire de Broca et l'aire de Wernicke, dont la localisation dans le cerveau est indiquée ci-dessous :

Les principaux circuits cérébraux responsables de l'analyse du son de parole et de l'identification des mots de la langue sont relativement complexes, et une représentation schématique de ces circuits est indiquée dans la figure ci-dessous [1].

Nous reviendrons sur cette connectique cérébrales et les étapes de traitement du son de parole lors du cours de neurosciences cognitives.

Analyse acoustique

Analyse de sons purs et mixtes

Une fois le logiciel installé, lancez le logiciel. Deux fenêtres -- Praat Objects et Praat picture -- apparaissent à l'écran. La première est l'interface principale. Pour commencer, on va charger un son déjà existant (son1.wav), à partir du menu Read > Read from file....

Une fois chargé, le son apparaît dans la liste d'objets, et on peut le jouer en appuyant sur la commande Play. Répétez la même opération avec les autres sons : son2.wav à son8.wav.

Question 1:	Identifier la fréquence et l'intensité de ces sons.

On peut également générer soi-même des sons de nature variable à l'aide de l'outil Sound > Create sound.... Les options proposées par défaut permettent de générer un son pur bruité. Pour avoir un son pur, il suffit de supprimer la partie aléatoire du signal, comme indiqué sur la copie d'écran suivante :

On en profitera également pour jouer avec la fréquence du signal (essayez par exemple différentes fréquence allant de 500 Hz à 22000 Hz).

Analyse de sons complexes

On peut charger les sons suivants : sp3.wav, sp4.wav, sp5.wav.

En appuyant sur la touche Edit, une nouvelle fenêtre apparaît sur laquelle figurent deux représentations graphiques du son chargé. En haut, il s'agit de l'oscillogramme de l'onde accoustique, et en bas c'est le spectrogramme qui est représenté. Le premier correspond à une représentation linéaire du signal acoustique, dans laquelle les écarts par rapport à la ligne horizontale indiquent l'amplitude du signal. La fréquence du son est représentée par le nombre d'oscillations à la seconde. Enfin, la durée s'inscrit sur une échelle relative, en abscisses (de gauche à droite). Le spectrogramme représente quant à lui les propriétés acoustiques des unités phoniques : durée, fréquence, amplitude, timbre. Son analyse permet d'identifier les traits acoustiques associés à chaque son (bruit ou son, périodique ou apériodique, impulsionnel ou continu). Dans le cas des voyelles, on peut reconnaître les formants (les longues bandes noires horizontales) qui assurent leur discrimination auditive. Praat permet de les visualiser, ainsi que l'intensité acoustique, en superposant au spectrogramme plusieurs courbes de couleur. Vérifiez que les options Show... sont sélectionnées dans les menus Pitch, Intensity et Formant.

Question 2:	Etudiez le spectre de chacun des sons, et notez les différences significatives entre chacun.

Modification d'un son

A présent, on va s'intéresser à la manipulation des sons sous Praat. Pour cela, on va essayer de modifier un son de parole, de façon à ce qu'il reste intelligible, mais que ses propriétés acoustiques soient sensiblement modifiées.

Avant cela, on va se familiariser avec les outils de Praat :

Faire plusieurs copies du son sp6.wav.
Filtrer le son dans une gamme de fréquences particulières, à l'aide de l'outil Filter > Filter (pass Hann band)... (essayez par exemple les gammes 0-1000 ou 1500-5000 Hz)
Redresser le signal à l'aide de la formule 0.2*abs(self[col]) dans l'outil Modify > Formula...
Extraire une partie spécifique du signal à l'aide de l'outil Convert > Extract part... ; choisir une fenêtre rectangulaire, et sélectionner l'option Preserve times (garder les autres paramètres par défaut)
Faire la même chose à l'aide de la fenêtre d'édition, avec les menus cut, copy et paste. Pour cela, sélectionner une zone sur le signal : clic-gauche de la souris pour sélectionner une origine, clic-milieu pour définir l'intervalle, puis on choisira dans le menu : Edit > Copy selection to sound clipboard, Edit > Cut. On se positionne ensuite à un autre endroit du signal à l'aide du clic gauche, et on peut coller notre sélection à cet endroit à l'aide de Edit > Paste after selection

Analyse phonologique

Remarque:	Les fichiers utilisés ont été élaborés par un chercheur en psycholinguistique (C. Pallier, http://www.pallier.org), dans le cadre d'un cours similaire.

Suppression de monèmes

A présent que vous êtes un peu plus familiers avec ces manipulations, c'est à vous de jouer : vous allez générer un bruit blanc. Un bruit blanc est en fait une onde particulière, souvent utilisée en acoustique, qui suit une distribution uniforme (toutes les fréquences sont représentées dans le son), mais qui ne possède aucune structure particulière.

Pour cela, utilisez le menu New > Sound > Create sound, avec la formule suivante : randomGauss(0,0.1). Choisissez une durée de son pas trop élevé : par exemple, 0.1 s. Refaites grosso-modo les mêmes opérations qu'en 5), c'est-à-dire :

supprimer une portion du signal de parole du fichier sp1.wav (durée max = ??)
la remplacer par le bruit blanc que vous avez généré
enregistrer le nouveau signal (e.g. sp1_1.wav)
reprendre le même fichier son dont une partie a été supprimée, mais ne pas remplacer le segment manquant par un bruit blanc, et enregistrer le nouveau sigal (e.g. sp1_2.wav)

Question 3:	Ecoutez à présent la phrase modifiée : entendez-vous une différence ? Laquelle des 2 vous semble la plus intelligible.

Vous pouvez faire la même chose avec les autres sons : sp2.wav, sp3.wav, sp4.wav, sp5.wav et sp6.wav.

Suppression de phonèmes

Voici la phrase originelle (fichier sp1.wav), avec l'identification de ces syllabes :

ceci est un es-sa-i d'en-re-gis-tre-ment

Il y a certains phonèmes qui sont plus importants que d'autres pour sa compréhension.

Question 4:	Refaites la même chose que précédemment, mais en essayant de supprimer une partie du groupe nominal (GN = Sujet + Verbe). Observe-t-on les mêmes effets ?

Remarques

L'expérience que vous venez de réaliser est bien connue, et illustre la robustesse du traitement du signal de parole par les individus. En effet, la présence de "légères" distorsions dans le signal acoustique (dans le cas présent, un bruit blanc) ne gêne pas l'intelligibilité de la phrase entendue. Lorsque ce facteur de bruit est de faible durée et de faible amplitude, on peut même ne pas le remarquer. Mais, une coupure nette dans le signal est généralement détectée instantanément.

De manière générale, cela traduit la façon dont nous traitons l'information en provenance de l'environnement, qui est souvent "bruitée" mais que nous assumons (par inférence) comme cohérente et unitaire. Les transitions entre le bruit et le signal ne doivent cependant pas être trop abruptes.

Voici les signaux correspondant à la phrase du fichier sp1.wav, sans modification, avec un bruit superposé, et avec une coupure :

On pourra lire les explications fournies par C. Pallier sur son site : http://www.pallier.org/ressources/tpexp2/tp.html

Apprentissage et Classification

Principes

De nos jours, les réseaux de neurones sont beaucoup utilisés en statistique, même si à l'origine leur vocation était quelque peu différente (cf. ces documents par exemple : Introduction aux sciences cognitives, Réseaux de neurones et Apprentissage) .

Application

Praat ne se limite pas à l'analyse acoustique et phonologique, mais permet également de faire de la classification automatique à l'aide de réseaux de neurones.

Pour se familiariser avec l'outil de modélisation par réseaux de neurones, on va dans un premier temps travailler avec l'exemple fourni par le logiciel, qui est un exemple bien connu de classification : les iris de Fisher [2].

Voici en quoi consiste les données :

Commençons par créer le réseau de neurones qui va nous servir de "classifieur" : choisissez dans le menu New > Neural Nets l'option Create FFNet.... Une nouvelle boîte de dialogue s'affiche ; on conservera les paramètres par défaut : 3 neurones en entrée et 3 neurones en sortie, pas de couche cachée. On peut lui donner le nom qu'on veut, par exemple RN1. On peut l'afficher dans la fenêtre image à l'aide de la commande Draw > Draw topology....

Il y a ensuite 2 étapes à réaliser :

faire apprendre au réseau un ensemble de catégories sur un jeu de données servant d'exemple
lui faire effectuer la classification sur un nouveau jeu de données servant de test

Pour l'étape 1, il faut charger un jeu de données : on sélectionne le fichier iris.dat à l'aide de la commande New > Neural Nets > Advanced > Create Pattern...

Références

[1]	Source : http://www.lecerveau.mcgill.ca

[2]	Fisher est un statisticien.

Document généré à l'aide de Docutils. 30/11/2005, 07:15