jeudi 1 décembre 2011

Séance du 6 décembre 2011

Date et heure: mardi 6 décembre de 19h à 21h
Lieu: Paris 3 Centre Censier (13 rue de Santeuil) salle 21b( rdc).


Titre : Segmentation et induction de lexique non-supervisées du mandarin
Auteur : Pierre Magistry
Équipe : Alpage ( Paris 7 / INRIA )


Résumé :
Cette présentation portera principalement sur la question de
l'identification automatique des mots-formes dans de larges corpus
bruts.
Le problème se pose dans de nombreuses langues (sinon toutes) et se
retrouve en traitement automatique des langues (TAL) sous des noms
variés comme segmentation (en "mots", pour les langues n'utilisant pas
de caractère d'espacement) ou le repérage d'expression multi-mots
(MWE, pour les langues où la présence ou non d'un espace peut être
trompeuse)

Mon travail porte essentiellement sur le mandarin, langue pour
laquelle des systèmes de TAL basés sur l'apprentissage automatique à
partir de ressources annotées manuellement sont disponibles et
largement utilisés. Je tâcherai cependant de montrer que l'utilisation
de tels systèmes pose problème dans le cadre de certaines études
linguistiques, par exemple si celle-ci portent sur le lexique et sa
dynamique dans le temps, l'espace, les genres ou les domaines.

Les quantités de données disponibles rendent difficile l'analyse
manuelle en gardant une vision d'ensemble. Je défends donc l'emploi de
méthodes automatiques dites "non-supervisées" qui induisent leurs
résultats à partir de l'analyse de la distribution de l'ensemble des
données brutes.
Je présenterai en particulier une méthode inspirée d'un hypothèse de
[Harris, 55] suivant laquelle les frontières des unités pertinentes
linguistiquement sont marquées par une plus grande incertitude sur ce
qui va suivre ou précède dans la chaîne parlée. Cette hypothèse a été
formalisée et appliquée à la segmentation non-supervisée du mandarin
par [Jin et Tanaka-ishii, 06]. Je présenterai les améliorations et
adaptations de ce modèle que l'on propose dans [Magistry & Sagot,
2011] ainsi que le travail effectué depuis.

Références principales :
Harris, 1955. From phonemes to morphemes.
(http://www.jstor.org/stable/10.2307/411036)
Jin & Tanaka, 2006. Unsupervised segmentation of Chinese text by use
of branching entropy (http://dl.acm.org/citation.cfm?id=1273129)
Magistry & Sagot, 2011. Segmentation et induction de lexique
non-supervisées du mandarin
(http://atoll.inria.fr/~sagot/pub/TALN11zhseg.pdf)

Aucun commentaire:

Enregistrer un commentaire