Trésor de la langue française informatisé

dictionnaire numérisé de langue française

Le Trésor de la langue française informatisé, couramment abrégé sous le sigle TLFi, est la version informatisée du Trésor de la langue française (TLF), qui est un dictionnaire de la langue française des XIXe et XXe siècles, imprimé en seize volumes, paru entre 1971 et 1994, regroupant 100 000 mots avec leur usage, 270 000 définitions, 430 000 exemples. Il est disponible en accès gratuit depuis 2002 sur le web et fut publié en CD-ROM en 2004.

Trésor de la langue française informatisé
Titre original
Format
Langue
Auteur
Dates de parution
Site web

Historique

modifier

Bien avant la fin de sa publication papier, l'informatisation du TLF est envisagée [1]. Selon Sabine Albert, la relation entre le TLF et les technologies de l'information se développe sur deux plans : le développement de l'ouvrage et son informatisation sous la forme du Trésor de la Langue Française informatisé (TLFi). Le premier concerne l'effort qui a permis au TLF d'être pionnier dans l'utilisation des nouvelles technologies au service de la lexicographie. C'est ainsi qu'à l'aide d'un Bull Gamma 60, des cartes perforées et des logiciels de plus en plus performants, les lexicographes ont rassemblé et traité une énorme quantité de documents et des millions d'informations pour créer le dictionnaire le plus complet de la langue française [2]. Le TLF, dans sa version papier, comptait seize volumes[3],[4].

La seconde approche consiste à passer d'un dictionnaire élaboré à l'aide d'ordinateurs à un dictionnaire informatisé. Il fallait adapter le TLF à un nouveau modèle qui nécessitait d'autres formes de consultation. Pour ce faire, on s'est inspiré de l'Oxford English Dictionary (OED), informatisé en 1984[2].

Le projet a été confié à Jacques Dendien, Ingénieur de Recherche CNRS. Selon lui, « informatiser un dictionnaire ne consiste pas à écrire des logiciels plus ou moins géniaux, mais consiste beaucoup plus prosaïquement à le transformer en document structuré » [5],[6]:14-15. En d'autres termes, il fallait repenser complètement la forme du texte, sans en altérer le contenu. Le concept Standard Generalized Markup Language (SGML), un langage de balisage normalisé fut utilisé pour décrire la structure des articles. C'est la Bibliothèque nationale de France qui a financé la saisie des données ; en 1994, grâce au soutien du CNRS et à l'énorme travail effectué par le laboratoire dirigé par Dendien, « qui sut démontrer, à travers un prototype construit à partir du volume XIV, que la faisabilité de la rétro-conversion du TLF pouvait être réalisée au sein même du laboratoire »[1]. Lorsque l'édition du dernier volume a été achevée, l'informatisation réelle a pu commencer, aboutissant à « l'un des documents structurés les plus volumineux et les plus complexes produits à ce jour. »[6]:19. En même temps, il était nécessaire d'offrir à l'utilisateur des services supplémentaires pour rendre l'accès au TLF aussi complet et facile que possible. Alors que l'utilisation d'un dictionnaire papier se limite généralement aux entrées, un dictionnaire informatisé permet d'effectuer des recherches dans l'ensemble du texte. Pour ce faire, il a fallu mettre en place un moyen de communication entre le lecteur et le TLF : le logiciel STELLa (Système de Traitement et d'Exploitation en Ligne de la Langue) développé par le Département Développement Informatique de l'ATILF. Grâce à un langage spécialement conçu pour le TLF, STELLa permet de formuler des requêtes et d'extraire des résultats à partir du corps même de l'œuvre[2].

La première mise en ligne du Trésor de la langue française est réalisée au début des années 1990 à l'Institut national de la langue française (INaLF)[7], avec les participations d'Alain Rey[8] et de Bernard Cerquiglini[9]. Le dictionnaire est présenté directement en ligne, sans modification ni mise à jour. En 2001, le rapprochement de l'INaLF et de Landisco (Langue discours cognition, université Nancy 2) donne naissance au laboratoire Analyse et traitement informatique de la langue française (ATILF), une unité mixte de recherche associée au CNRS et à l’université de Lorraine[7].

Le , le TLFi devient disponible sur CD-ROM pour Windows et Mac OS X[10],[11]. Cette version a depuis disparu.

Description

modifier

Le dictionnaire est issu de l’analyse sémantique du Trésor de la langue française et de sa décomposition en plusieurs domaines : définitions, exemples d’utilisation, indications sémantiques et lexicales[12].

Le TLFi contient les définitions, des extraits littéraires où apparaît le mot recherché, des indicateurs de domaine technique, des indicateurs sémantiques, étymologiques, historiques, grammaticaux et stylistiques, les usages et emplois, les synonymes et antonymes et analyse les relations hiérarchiques liant ces objets[13]. Il a été composé en objets élémentaires (définitions, exemples, indicateurs de domaine technique, etc.[14]) permettant une recherche complexe en trois niveaux :

  1. visualisation « article par article », avec la possibilité de rechercher des informations particulières (définitions, syntagmes) ;
  2. recherche assistée permettant par exemple de rechercher les mots d'origine anglaise, ou associés à un domaine particulier (aviation), ou caractéristiques d'un régionalisme (spécificités canadiennes) ;
  3. requêtes complexes, avec la possibilité par exemple d'extraire uniquement le vocabulaire d'un sous-domaine répondant à deux caractères précis.

Il est possible de trouver un mot sans en connaître l'orthographe exacte, grâce à une recherche phonétique.

Le contenu du TLFi correspond à celui du TLF dans sa première édition, achevée en 1994[7], et l'ATILF indique sur son site qu'« il n’a pas vocation à être mis à jour »[15]. Cependant, en plus des erreurs existantes dans la version imprimée d'origine, le contenu informatisé comporte des anomalies dues à des fautes de transcriptions[7].

Suite du projet

modifier

Comme il est « évident que ce corpus de textes en français [est] une ressource importante pour les lexicographes, mais aussi pour les sciences sociales et les humanités », le projet initial s'est poursuivi avec le DVLF, à l'intérieur du projet ARTFL de l'Université de Chicago[16],[17]...

Des projets amateurs tels que Simple TLFi voient le jour afin de proposer une présentation différente du TLFi et améliorer ainsi l'expérience utilisateur (lisibilité, usage sur mobile) et l'accessibilité[18].

Notes et références

modifier
  1. a et b La préface du TLFi par Jean-Marie Pierrel
  2. a b et c Sabine Albert, « L’informatisation du Trésor de la langue française : perspectives offertes pour l’étude des emprunts », Éla. Études de linguistique appliquée, no 156,‎ , p. 491-498 (lire en ligne)
  3. « Ressources électroniques de la Bibliothèque Interuniversitaire de la Sorbonne (BIS) », sur www.bis-sorbonne.fr (consulté le )
  4. Jean Pruvost, Dictionnaires et nouvelles technologies, coll. « Écritures électroniques », Presses Universitaires de France, Paris, 2000, p. 5.
  5. On appelle document structuré tout document numérique (un fichier, ou une séquence d'octets stockable sur un support quelconque). L'approche des documents structurés est basée sur:
    1) Un document numérique (un fichier texte en format ASCII), auquel on superpose des conventions additionnelles qui permettent de représenter une structure hiérarchique (en arbre) constituée de nœuds reliés entre eux par des branches, telle que chaque nœud a un père et un seul, à l'exception d'un nœud appelé racine, et chaque nœud porte une information appelée étiquette, valeur ou clé).
    2) La structure hiérarchique du document numérique laquelle doit correspondre le mieux et le plus explicitement possible à la nature et à la structure de l'information qui doit être véhiculée par le document. V. Yves Marcoux,Documents structurés XML, SGML, HTML, Université de Montréal, 1999.
  6. a et b Jacques Dendien, « Histoire de l’informatisation du TLF » dans le livret d’accompagnement au TLFi, CNRS éditions, Paris, 2004.
  7. a b c et d Charles Bernet, « Le TLFi ou les infortunes de la lexicographie électronique », Mots, no 84,‎ , p. 85-100 (lire en ligne).
  8. « Le chroniqueur est un usurpateur légitime : Anne-Sophie Jacques reçoit Alain Rey », sur Arrêt sur images, (accès payant).
  9. Françoise Argod-Dutard, Quelles perspectives pour la langue française ? : Histoire, enjeux et vitalité du français en France et dans la francophonie, PU Rennes, , 271 p. (ISBN 9782868479051), p. 138.
  10. « Trésor de la Langue Française informatisé TLFi (PC) » (version du sur Internet Archive).
  11. « Le Trésor de la Langue Française informatisé », sur macg.co, (consulté le ).
  12. Pascale Bernard, « Les recherches dans le Trésor de la langue française informatisé », Tralogy,‎ 3 et 4 mars 2011 (lire en ligne).
  13. Jean-Marie Pierrel, Jacques Dendien et Pascale Bernard, « Le TLFi ou Trésor de la Langue Française informatisé », Euralex 2004 Proceedings,‎ (lire en ligne [PDF]).
  14. Pascale Bernard, « Le Trésor de la langue française informatisé », Traduire pour le théâtre, no 222 « Traduire pour le théâtre »,‎ , p. 125-136 (DOI 10.4000/traduire.458, lire en ligne).
  15. ATILF, « TLFi : Trésor de la langue Française informatisé », sur atilf.fr (consulté le ) « Avertissement : la rédaction du TLF est terminée depuis 1994 et la plupart des contributeurs ont quitté le laboratoire. Il n’a pas vocation à être mis à jour. ».
  16. Jean Stouff, « Dictionnaires et encyclopédies en ligne », sur Biblioweb, (consulté le )
  17. Robert Morrissey, « Re-imagining French Lexicography: The Dictionnaire Vivant de la Langue Française », Dictionaries: Journal of the Dictionary Society of North America,‎ (lire en ligne, consulté le )
  18. Benjamin Becquet, « Un TLFi simplifié », sur bbecquet.net, (consulté le )

Voir aussi

modifier

Bibliographie

modifier
  • Pascale Bernard, Jacques Dendien, Josette Lecomte et Jean-Marie Pierrel, « Les ressources de l'ATILF pour l'analyse lexicale et textuelle : TLFi, Frantext et le logiciel Stella », JADT 2002 : 6es Journées internationales d’Analyse de Données Textuelles,‎ (lire en ligne [PDF])
  • Pascale Bernard, Jacques Dendien, Josette Lecomte et Jean-Marie Pierre, « Un ensemble de ressources informatisées et intégrées pour l’étude du français : FRANTEXT, TLFi, Dictionnaires de l’Académie et logiciel Stella, présentation et apprentissage de leurs exploitations », TALN 2002, Nancy,‎ (lire en ligne)

Articles connexes

modifier

Liens externes

modifier
  NODES
INTERN 2
Note 2