RJ - Sujet de these

Niseng - Courrier

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

1 page

Español

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Utilisation de mod èles de Markov cach és à grande marge dans la transcription d’émissions radiophoniques en langue Arabe Une étape fondamentale en reconnaissance automatique de la parole est le passage de l'onde sonore à une suite discrète d'unités phonétiques ou lexicales. Cette étape de reconnaissance acoustique est cruciale et influe sur les performances globales d'un système. Les modèles acoustiques représentent les éléments à reconnaitre, mots ou unités phonétiques, et sont généralement repr ésentés par des mod èles de Markov cach és à densité continue ( CDHMMs ), dont les paramètres sont obtenus par estimation au sens du maximum de vraisemblance (ML). Un grand intérêt de la méthode est l'existence d'algorithmes itératifs dont la convergence est garantie, comme l'algorithme EM qui est largement utilis é.Si la méthode ML améliore la capacité d'un classifieur à représenter une classe (modèle) de formes donnée, elle ne permet pas d'optimiser sa capacité à classer une forme inconnue, car l'apprentissage d'une classe ne prend pas en compte des formes appartenant à d'autres classes ni des contreexemples. L'id éal est de minimiser la variance intraclasse tout en maximisant les variances interclasses. Diverses méthodes d'apprentissage discriminant ont été conçues, fondées notamment sur : la maximisation de l'information mutuelle (MMI) entre un signal acoustique et la séquence de mots correspondante ...

Informations

Publié par	Niseng
Nombre de lectures	21
Langue	Español

Extrait

Utilisation de modèles de Markov cachésàgrande marge danslatranscriptiond’émissions radiophoniques enlangue Arabe

Uneétape fondamentale en reconnaissance automatique de la parole est le passage de l'onde sonoreàune suite discrète d'unités phonétiques ou lexicales. Cetteétape de reconnaissance acoustique est cruciale et influe sur les performances globales d'un systèmodme. Lesèles acoustiques représentent lesélémentsà reconnaitre,mots ou unités phonétiques, et sont généralement représentés par des modèles de Markov cachésàdensitécontinue (CD-HMMs), dont les paramètres sont obtenus par estimation au sens du maximum de vraisemblance (ML). Un grand intérêt de la méthode est l'existence d'algorithmes itératifs dont la convergence est garantie, comme l'algorithmeEMqui est largement utilisé.

Si la méthodeML améliore la capacitéd'un classifieuràreprésenter une classe (modèle) de formes donnée, elle ne permet pas d'optimiser sa capacitéàclasser une forme inconnue, car l'apprentissage d'une classe ne prend pas en compte des formes appartenantàd'autres classes ni des contre-exemples. L'idéal est de minimiser la variance intraclasse tout en maximisant les variances interclasses. Diverses méthodes d'apprentissage discriminant ontété conçues, fondées notamment sur : la maximisation de l'information mutuelle (MMI) entre un signal acoustique et la séquence de mots correspondante, la minimisation de l'erreur de classification (MCE) en se basant sur une approximation du nombre d'erreurs de classification des données d'apprentissage, et la minimisation de l'erreur de vérification (MVE).

Récemment,Fei ShaetLawrence K. Saul[1] ont développéde nouvelles méthodes, appellées àgrande marge, pour l'estimation des paramètres des modèles acoustiques. Ces méthodes se basent sur la séparation entre les classes correctes et fausses par une grande marge (type SVM), obtenue par une maximisation de cette dernière selon un critère d'optimisation convexe. Les premiers développements ont portésur l'apprentissage de modèles de mélanges de gaussiennes (GMMs)àgrande marge, utilisés dans la classification multiclasse. Ensuite ils ontétéétendusàdesHMMsàgrande marge utilisés pour la classification séquentielle [1]. Ces nouvelles techniques différent des précédentes méthodes discriminantes en terme de maximisation de marge, mais surtout ils aboutissentàune optimisation convexe, sans aucun faux minimum local. Ces méthodesàgrande marge ontétéévaluédans des applications de classification et de reconnaissance phonétique et ont permis d'obtenir des améliorations significatives, par rapport aux autres approches discriminantes.

L'objectif de cette thèse est d'étendre, modifier et utiliser les approchesàgrande marge, dans un système de transcription automatique d'émissions radiophoniques en langue Arabe. Il existe plusieurs axes de recherche, entre autre, la modélisation dépendante du contexte (les modèles triphones par exemple), la modélisation d'états cachés partiellement observables dans le cas d'utilisation de corpus non accompagnéd'alignements phonétiques, et la reformulation des contraintesàgrande marge en utilisant des fonctions discriminantes combinantàla fois les scores acoustiques avec les scores donnés par le modèle de langage. Sans oublier les nombreux challenges ajoutés par la langue Arabe. L'arabe est une langue très flexionnelle, et qui utilise massivement les consonnes. Elle présente une différence significative entre les formesécrites et parlées, et se caractérise par une grande diversitéde prononciations et de dialectes. Le vocabulaire arabe est remarquablement riche, et les nuances dans les mots sont plus nombreuses qu'en français. Et en plus de l'ambiguïtégrammaticale, la plupart des mots en arabe sont vocaliquement ambigus,àdes niveaux plusélevés que pour le français.

[1] Fei Sha and Lawrence K. Saul.Large margin hidden Markov models for automatic speech recognition. Advances in Neural Information Processing Systems 19 (NIPS'07). B. Schölkopf, J.C. Platt, and T. Hofmann.Cambridge, MA, 2007. MIT Press.Outstanding Student Paper Award.