Publié le 19.03.2026

Journée mondiale de la langue française

Linguistique : étudier l'évolution de la langue à travers les notes vocales

À l'occasion de la journée mondiale de la langue française, intéressons-nous aux particularités de notre langue telle qu'elle est parlée aujourd'hui. Pour cela, nous avons interviewé les chercheurs en linguistique française Nicolas Mazziotta et Julie Glikman.

Crédits :
Ministère de la Culture / Graphisme : Studio Plastac

Julie Glikman et Nicolas Mazziotta sont à l'origine du Corpus Les Vocaux dédié aux SMS vocaux en français. Un corpus et une méthodologie de recherche originaux pour lesquels ils sont lauréats du prix science ouverte 2025 des données de la recherche.

Le prix science ouverte, remis par le ministère, s'inscrit dans le cadre du deuxième Plan national pour la science ouverte. Le prix des données de la recherche a pour objectif de valoriser les projets et le travail des équipes de recherche engagées dans la gestion et la diffusion des données de la recherche.

Corpus Les Vocaux

En 2020, l'émergence d'une nouvelle forme d'usage du smartphone, à travers la voix, non plus pour dicter les messages, mais pour créer des messages vocaux, a interpelé la linguiste Julie Glikman. Pour rappel, ces messages étaient d'abord limités à une minute, avant que cette limite de temps ne disparaisse.

Estimant que ces données seraient intéressantes à partager avec la communauté de recherche en linguistique, elle a envisagé de créer un corpus partageable.

Le projet de recherche 

Ce projet est devenu celui d'étudier la langue française parlée, spontanée et enregistrée avant l’intention de recherche, c'est-à-dire le langage naturel (on parle de corpus écologique).

Les Vocaux est donc le premier corpus de vocaux français, un corpus récent qui comprend 20 heures d’enregistrement. Il vient compléter les corpus de français non surveillé hors laboratoire.

Méthodologie

Pour constituer le corpus, les messages vocaux privés ont été recueillis par un simple transfert sur un numéro de mobile dédié. S'agissant d'une démarche de science participative, la campagne de collecte était ouverte à tous, mais ce sont surtout les étudiants qui ont transmis leurs vocaux.

Traitement des données

Bien que le corpus recueille des données brutes et orales, une transcription écrite est incontournable pour réaliser l'analyse linguistique. Cela implique des outils de traitement automatique, avec cependant, à toutes les étapes un traitement manuel des données pour en garantir la qualité. Les contraintes du règlement général sur la protection des données (RGPD) ont également exigé d'anonymiser les prénoms. 

Le traitement de ces données aboutit à l'identification de caractéristiques et propriétés de la langue française parlée, telles que les unités fréquentes, les structures syntaxiques et les variations régionales.

Financements et soutiens

Le projet Les Vocaux a été financé grâce à une délégation CNRS pendant deux ans pour le lancement, le plan Initiative d'excellence (Idex) de l’Université de Strasbourg, des fonds issus de l’Université de Lorraine, des laboratoires LiLPa et ATILF, le soutien de l’Université de Liège, ainsi que le renfort d'étudiants stagiaires. L'hébergement des données est soutenu par l’institution (en France : Ortolang, plateforme d'outils et de ressources linguistiques pour un traitement optimisé de la langue française ; et en Belgique : lesvocaux.uliege.be).

Interview : Nicolas Mazziotta et Julie Glikman

Julie Glikman est professeure en linguistique française diachronique à l’Université de Lorraine, laboratoire ATILF. Elle travaille sur la variation et le changement linguistique, et notamment la question de leur documentation via la mise à disposition de données et des projets de participation citoyenne. Elle s’implique également pour l’ouverture de la science.

Nicolas Mazziotta est syntacticien et spécialiste des diagrammes utilisés en linguistique. Il a reçu une formation en linguistique historique et en philologie à l’Université de Liège, où il enseigne aujourd’hui la linguistique. Il accorde beaucoup d’importance à l’articulation entre les questions théoriques et méthodologiques et le traitement des données.

Quelles sont, en linguistique, les différences entre langue parlée et langue écrite ? En quoi leur étude diffère-t-elle ?

Nicolas Mazziotta : Toute langue vivante varie naturellement selon différents paramètres : le temps, l’espace, etc. Nous en faisons l’expérience régulièrement en voyageant, par exemple : les francophones qui habitent à 200 kilomètres de nous ne parlent pas exactement français de la même manière (ils ont un « accent », utilisent des mots régionaux, etc.). Néanmoins, nous partageons la même langue : le français. Ce dernier est une abstraction qui rend compte du fait que malgré les différences, nous pouvons tout de même nous comprendre.
Pour la question qui nous intéresse, nous remarquons que le médium dans lequel les discours se manifestent peut être écrit ou oral. On parle de variation diamésique. De la même manière que la langue varie dans l’espace, elle varie selon le médium. Ainsi, par exemple, on aura davantage tendance à enchaîner des mots comme « bon   »,  «  bref   »,  «  voilà   »,  «  hein  », etc. à l’oral qu’à l’écrit (même s’ils existent bien entendu dans la communication écrite). Les linguistes prennent garde de ne pas amalgamer les paramètres de variation. Assimiler l’oral au populaire, au régional et au fautif n’a aucun sens. Il existe en effet des formes écrites familières et des formes orales affectées autant qu’il existe des formes écrites courantes et des formes orales très spécialisées. Les véritables différences de méthodes dans les approches du français parlé et du français écrit sont celles qui font intervenir le médium – il paraît évident que l’analyse des sons de la langue ne peut se faire qu’au travers de données orales.

Pourquoi les notes vocales sont-elles si intéressantes pour les linguistes ?

Julie Glikman : Les notes vocales sont intéressantes notamment pour deux aspects :

  • en tant que messages enregistrés hors laboratoire, ce sont de véritables données authentiques de français parlé en contexte non surveillé
  • en tant que nouvelle pratique émergente, elles nous permettent d’étudier le français médié en contexte de communication numérique.

Quels premiers résultats l’analyse de ce corpus met-elle en valeur ?

Julie Glikman Le corpus a déjà permis d’avoir des premiers résultats. Sur la forme même des vocaux : on constate sur l’ensemble des vocaux une médiane de la durée qui se situe environ à 30 secondes. Cela veut dire que la moitié des messages reçus font autour de trente secondes ou moins. Les trois quarts des messages font même moins de une minute, ce qui n’empêche pas d’avoir des messages qui peuvent aller jusqu’à 20 minutes !
Sur la langue ensuite, le corpus nous a déjà permis de voir émerger de nouveaux usages, encore peu documentés : de nouveaux usages de « voilà », de « écoute », de nouveaux termes d’adresse comme « meuf ».

Est-ce que la façon de parler des Français est en train de changer ?

Nicolas Mazziotta Oui et non. Comme je l'ai dit, toute langue varie – à moins d’être une langue morte. La langue est un outil collectif qui appartient à l’ensemble de ses usagers (qu’ils soient instruits ou non). Les usagers de la langue vivent ensemble dans un monde en constante évolution et cherchent sans toujours le savoir des stratégies linguistiques pour s’adapter à leur environnement. La lutte pour les droits LGBTQIA+ est par exemple associée au développement de nouveaux pronoms qui sont bel et bien employés depuis une petite décennie seulement. Donc oui : la langue s’adapte et, pour ainsi dire, « change », et c’est tout à fait normal !

Donnez-nous des exemples de mots que vous avez découvert via ce corpus et leur définition. D’où viennent-ils ?

Nicolas Mazziotta Par exemple le mot XD, prononcé iksdé, qui est le résultat de l’oralisation d’un smiley (yeux plissés et grand sourire). Ce mot illustre bien ce qui se passe lorsque le médium oral absorbe des unités qui se sont naturellement développées à l’écrit.