mardi 13 décembre 2011

Séance du 3 janvier 2012

Date et heure: mardi 3 janvier de 19h à 21h
Lieu: Paris 3-Centre Censier (13 rue de Santeuil) salle 21b( rdc).

Titre: De la distinction entre micro et macrosyntaxe : unité illocutoire, unité rectionelle, entassement
Auteurs: Paola Pietrandrea (Roma Tre et CNRS - Lattice), Sylvain Kahane (université Paris-Ouest, CNRS - MoDyCo)

Résumé:
L'annotation syntaxique d'un corpus de français parlé (ANR Rhapsodie) pose le problème de la segmentation des transcriptions en « énoncés ». Le travail pratique de découpage nous a amenés à considérer deux types d’unités — les unités rectionnelles (unités construites autour d’une tête, qui n’est syntaxiquement dépendante d’aucun élément de rang supérieur) et les unités illocutoires (portions de discours comportant un unique acte illocutoire, soit une assertion, soit une question, soit un ordre, soit une exclamation). Ces deux types d’unités obéissent à des principes d’organisation très différents pris en charge respectivement par la micro- et la macrosyntaxe. Ces deux dimensions possèdent une relative indépendance et aucun des deux niveaux n’englobe l’autre. La définition de l’unité rectionnelle a nécessité de prendre en compte la notion d’entassement (le dispositif syntaxique qui définit les listes) qui permet de rattacher des éléments (comme les reformulations, les disfluences, les réponses à une question partielle) qui ne sont pas régis ni microsyntaxiquement, ni macrosyntaxiquement et n’ont pourtant aucune autonomie syntaxique. Nous proposerons une typologie des entassements incluant une description des coordinations non relationnelles et des doubles formulations. Les deux unités d’analyse (unités rectionnelles et unités illocutoires) et les deux dispositifs de reliage – rection et entassement – permettent de décrire de manière simple des phénomènes complexes comme les questions-réponses, l’instanciation, le discours rapporté, la greffe, le parallélisme entre énoncés ou encore les énoncés discontinus.

jeudi 1 décembre 2011

Séance du 6 décembre 2011

Date et heure: mardi 6 décembre de 19h à 21h
Lieu: Paris 3 Centre Censier (13 rue de Santeuil) salle 21b( rdc).


Titre : Segmentation et induction de lexique non-supervisées du mandarin
Auteur : Pierre Magistry
Équipe : Alpage ( Paris 7 / INRIA )


Résumé :
Cette présentation portera principalement sur la question de
l'identification automatique des mots-formes dans de larges corpus
bruts.
Le problème se pose dans de nombreuses langues (sinon toutes) et se
retrouve en traitement automatique des langues (TAL) sous des noms
variés comme segmentation (en "mots", pour les langues n'utilisant pas
de caractère d'espacement) ou le repérage d'expression multi-mots
(MWE, pour les langues où la présence ou non d'un espace peut être
trompeuse)

Mon travail porte essentiellement sur le mandarin, langue pour
laquelle des systèmes de TAL basés sur l'apprentissage automatique à
partir de ressources annotées manuellement sont disponibles et
largement utilisés. Je tâcherai cependant de montrer que l'utilisation
de tels systèmes pose problème dans le cadre de certaines études
linguistiques, par exemple si celle-ci portent sur le lexique et sa
dynamique dans le temps, l'espace, les genres ou les domaines.

Les quantités de données disponibles rendent difficile l'analyse
manuelle en gardant une vision d'ensemble. Je défends donc l'emploi de
méthodes automatiques dites "non-supervisées" qui induisent leurs
résultats à partir de l'analyse de la distribution de l'ensemble des
données brutes.
Je présenterai en particulier une méthode inspirée d'un hypothèse de
[Harris, 55] suivant laquelle les frontières des unités pertinentes
linguistiquement sont marquées par une plus grande incertitude sur ce
qui va suivre ou précède dans la chaîne parlée. Cette hypothèse a été
formalisée et appliquée à la segmentation non-supervisée du mandarin
par [Jin et Tanaka-ishii, 06]. Je présenterai les améliorations et
adaptations de ce modèle que l'on propose dans [Magistry & Sagot,
2011] ainsi que le travail effectué depuis.

Références principales :
Harris, 1955. From phonemes to morphemes.
(http://www.jstor.org/stable/10.2307/411036)
Jin & Tanaka, 2006. Unsupervised segmentation of Chinese text by use
of branching entropy (http://dl.acm.org/citation.cfm?id=1273129)
Magistry & Sagot, 2011. Segmentation et induction de lexique
non-supervisées du mandarin
(http://atoll.inria.fr/~sagot/pub/TALN11zhseg.pdf)