cours / présentation

06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)

Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Classification et Alignement Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte mult...

Date de création :

23.06.2015

Présentation

Informations pratiques

Langue du document : Français
Type : cours / présentation
Niveau : enseignement supérieur
Durée d'exécution : 27 minutes 16 secondes
Contenu : vidéo
Document : video/mp4
Poids : 116.78 Mo
Droits d'auteur : libre de droits, gratuit
Droits réservés à l'éditeur et aux auteurs.

Description de la ressource

Résumé

Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Classification et Alignement Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.

"Domaine(s)" et indice(s) Dewey

  • Traduction automatique (418.02)
  • Informatique appliquée à la linguistique (410.285)

Domaine(s)

  • Langues
  • Linguistique

Document(s) annexe(s)

Fiche technique

Identifiant de la fiche : 18677
Identifiant OAI-PMH : oai:canal-u.fr:18677
Schéma de la métadonnée : oai:uved:Cemagref-Marine-Protected-Areas
Entrepôt d'origine : Canal-U

Voir aussi

Canal-U
Canal-U
23.06.2015
Description : Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Traduction Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! Olivier Kraif Résumé : Dans cet article, nous proposons une méthode originale destinée à effectuer l’alignement d’un corpus multi-parallèle, i.e. comportant plus ...
  • traduction
  • traitement automatique du langage naturel
  • taln2015
Canal-U
Canal-U
23.06.2015
Description : Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Traduction Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole Laurent Besacier, Benjamin Lecouteux et Luong Ngoc Quang Résumé : Les mesures de confiance au niveau mot (Word Confidence Estimation – WCE) ...
  • traduction
  • traitement automatique du langage naturel
  • taln2015