Sommaire

cours / présentation

06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)

Date de création :

23.06.2015

Accéder à la ressource :

https://www.canal-u.tv/video/centre_d_enseignement_multimedia_universitaire_c_e_m_u/06b_attribution...

Présentation

Informations pratiques

Langue du document : Français

Type : cours / présentation

Niveau : enseignement supérieur

Durée d'exécution : 27 minutes 16 secondes

Contenu : vidéo

Document : video/mp4

Poids : 116.78 Mo

Droits d'auteur : libre de droits, gratuit
Droits réservés à l'éditeur et aux auteurs.

Description de la ressource

Résumé

Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Classification et Alignement Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales Romain Brixtel, Charlotte Lecluze et Gaël Lejeune Résumé : Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales. Pour un texte donné, la liste de ses n-grammes de caractères contient des informations redondantes. A contrario, les répétitions maximales représentent l’ensemble des répétitions de ce texte de manière condensée. Nos expériences montrent que la redondance des n-grammes contribue à l’efficacité des techniques d’Attribution d’Auteur exploitant des sous-chaînes de caractères. Ce constat posé, nous proposons une fonction de pondération sur les traits donnés en entrée aux classifieurs, en introduisant les répétitions maximales du n-ème ordre (c-à-d des répétitions maximales détectées dans un ensemble de répétitions maximales). Les résultats expérimentaux montrent de meilleures performances avec des répétitions maximales, avec moins de données que pour les approches fondées sur les n-grammes.Cet article s’attaque à la tâche d’Attribution d’Auteur en contexte multilingue. Nous proposons une alternative aux méthodes supervisées fondées sur les n-grammes de caractères de longueurs variables : les répétitions maximales.

"Domaine(s)" et indice(s) Dewey

Traduction automatique (418.02)
Informatique appliquée à la linguistique (410.285)

Domaine(s)

Langues
Linguistique

Document(s) annexe(s)

Cette ressource fait partie de
- Session classification et alignement (taln 2015)

Fiche technique

Identifiant de la fiche : 18677

Identifiant OAI-PMH : oai:canal-u.fr:18677

Schéma de la métadonnée : oai:uved:Cemagref-Marine-Protected-Areas

LOMv1.0
LOMFRv1.0
Voir la fiche XML

Entrepôt d'origine : Canal-U

traitement automatique du langage naturel

taln2015

Voir aussi

23.06.2015

02b - Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! (taln2015)

Description : Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Traduction Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! Olivier Kraif Résumé : Dans cet article, nous proposons une méthode originale destinée à effectuer l’alignement d’un corpus multi-parallèle, i.e. comportant plus ...

traduction
traitement automatique du langage naturel
taln2015

23.06.2015

02a - Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole (taln2015)

Description : Sessions orales TALN 2015 – Mardi 23 juin 2015 Session Traduction Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole Laurent Besacier, Benjamin Lecouteux et Luong Ngoc Quang Résumé : Les mesures de confiance au niveau mot (Word Confidence Estimation – WCE) ...

traduction
traitement automatique du langage naturel
taln2015

Le ministère

Thématiques

Ressources humaines

Sommaire

06b - Attribution d’Auteur : approche multilingue fondée sur les répétitions maximales (taln2015)

Date de création :

Accéder à la ressource :

Présentation

Informations pratiques

Description de la ressource

Résumé

"Domaine(s)" et indice(s) Dewey

Domaine(s)

Document(s) annexe(s)

Fiche technique

Voir aussi

02b - Multi-alignement vs bi-alignement : à plusieurs, c’est mieux ! (taln2015)

02a - Utilisation de mesures de confiance pour améliorer le décodage en traduction de parole (taln2015)