mercredi 4 décembre 2013

Séance du 11 décembre 2013

Date et heure: Mercredi 11 décembre 2013 de 19h à 21h
Lieu: Pôle des Langues et Civilisations, 65 rue des Grands Moulins - 75013 Paris
Salle: Rendez-vous devant les ascenseurs du 5ème étage

Segmentation en mots non-supervisée et évaluation de la lexicalité : le cas du Mandarin
"Unsupervised Word Segmentation and Wordhood Assessment : The case for Mandarin Chinese"

Pierre Magistry (Université Paris Diderot)

Résumé :

Ce mémoire traite de la segmentation non-supervisée en mots et de l'évaluation de la «lexicalité» des formes observables en corpus. Le chinois moderne standard (mandarin) est choisi pour les expériences et évaluations.
La première partie porte sur les aspects linguistiques. Elle présente les critères couramment utilisés pour définir le «mot» en linguistique chinoise et en montre les limites au travers d'une discussion de linguistique générale, abordant notamment la question des «expressions multi-mots».

Nous présentons ensuite l'historique du développement de la Segmentation en Mot du Chinois comme une tâche typique en TAL, et défendons l'idée qu'une part d'arbitraire dans l'annotation des corpus d'évaluation favorise artificiellement les systèmes d'apprentissage supervisés alors que nous considérons les systèmes non-supervisés d'un plus grand intérêt pour la linguistique.

La première partie nous amène à fonder notre définition de la lexicalité sur deux critères: une forte autonomie de combinaison et un haut degré d'appartenance à une classe distributionnelle.

La seconde partie présente une méthode non-supervisée pour évaluer l'autonomie des formes inspirée par les hypothèses de Harris. Avec un algorithme de segmentation simple et rapide basé uniquement sur cette mesure, nous obtenons des résultats proches de l'état de l'art. Nous discutons ensuite de l'importance des pré-traitements et présentons des expériences utilisant la MDL.

Enfin, nous proposons une méthode et des outils pour une évaluation plus qualitative des analyses fournies par notre systèmes. Nous présentons aussi quelques résultats préliminaires sur d'autres langues.

vendredi 31 mai 2013

Séance du 11 juin 2013


Date et heure: Mardi 11 juin 2013 de 19h à 21h
Lieu: Pôle des Langues et Civilisations, 65 rue des Grands Moulins - 75013 Paris
Salle: 5.05

Les noms français instant et moment

René-Joseph Lavie (MoDyCo - Université Paris Ouest Nanterre la Défense et CNRS)


Résumé :

Les noms français 'instant' et 'moment' sont substituables 'salvo sensu' dans certaines constructions, dans d'autres ils sont substituables mais avec un changement de sens, ailleurs enfin l'un convient et l'autre est exclu. En première approche 'instant' est souvent présenté comme ponctuel et 'moment' comme duratif. Ceci rend bien compte de certains contrastes ou blocages sans toutefois expliquer *'trois instants importants' / 'trois moments importants' ou 'espoir de tous les instants' / *'espoir de tous les moments', par exemple. Avec des données de corpus et sur un échantillon de vingt-cinq constructions ou contextes, on obtient de meilleurs résultats en reconnaissant une notion de repérage et en caractérisant ces deux mots par leur relation à l'origo temporel – le NUNC de Bühler ou point S de Reichenbach. A ceci seront contraposées deux autres voies explicatives tout aussi essentielles : une 'ontologique' et une 'pragmatique'.

Remarque : Il s'agît de la matière d'un article co-écrit avec Pierre Cadiot, accepté pour paraître dans un numéro des Cuadernos de Filologia Francesa, numéro spécial en hommage au défunt Maurice Toussaint. Voir l'article déposé sur HAL SHS.



jeudi 28 février 2013

Séance du 05 mars 2013

Date et heure: Mardi 05 mars 2013 de 19h30 à 21h

Lieu: Pôle des Langues et Civilisations: 65 rue des grands moulins - 75013 Paris
Salle: 5.05

Analyse automatique des erreurs de flexion


Ivan Šmilauer (INALCO - Paris 4 Sorbonne, STIH-LALIC)

Résumé :

Les outils d’apprentissage des langues assisté par ordinateur (ALAO) offrent des possibilités intéressantes pour les applications de TAL. Dans mon exposé, je présenterai une méthode d’analyse orthographique et morphologique des erreurs de déclinaison tchèque dont le but est la production d’un feedback linguistique destiné à l’apprenant. Cette méthode a été implémentée sur la plate-forme www.cetlef.fr qui est utilisée aujourd’hui par plus de quatre cents apprenants. Grâce à cette plate-forme, un corpus d’erreurs contenant quelques dizaines de milliers de productions a pu être constitué. En analysant ces données, je montrerai les possibilités et les limites de la méthode utilisée du point de vue du TAL mais aussi, plus généralement, par rapport à la problématique de l’acquisition d’une langue étrangère. Enfin, je discuterai les perspectives pour l’application de la méthode sur d’autres domaines de la morphologie tchèque (conjugaison, dérivation) et sur d’autres langues flexionnelles.

dimanche 13 janvier 2013

Séance du 21 janvier 2013

Date et heure: Lundi 21 janvier 2013 de 18h à 20h
Lieu: Pôle des Langues et Civilisations: 65 rue des grands moulins - 75013 Paris
Salle: communiquée ultérieurement

Titre: Interface syntaxe-topologie et amas verbal en coréen et en français

Auteur: Jihye Chung (université Paris-ouest Nanterre, CNRS MoDyCo)


Résumé:
Le but de cette thèse est d'analyser la question de l’ordre des mots en coréen et en français, et d’éclairer en quoi ces deux langues génétiquement et typologiquement très éloignées mettent en évidence une même notion d’amas verbal.
Nous développons une modélisation simple de l’ordre des mots du coréen dans le cadre de la grammaire de dépendance topologique – première modélisation topologique pour cette langue – un système de règles d’ordre formelles décrivant la correspondance entre l’arbre de dépendance d’une phrase et une structure de constituants ordonnée. C’est à ce niveau qu’apparaît l’amas verbal, un constituant topologique cohésif, qui favorise la non-projectivité de constructions comme la relativisation, le clivage et la topicalisation. Il apparait tant en coréen qu’en français, tout en ayant des propriétés différentes d’une langue à l’autre. 
Nous montrons ainsi qu’un petit nombre de règles d’ordre peut rendre compte de l’ordre des mots du coréen, considéré comme une langue à ordre relativement libre. Ce résultat se fonde sur notre tentative préalable d’analyser, d’une manière simple et cohérente, la structure de la phrase coréenne en nous basant sur la théorie de la translation.

Mots-clefs : grammaire de dépendance, interface syntaxe-topologie, amas verbal, ordre des mots, translation (linguistique), syntaxe du corée