Textable
REFERENCES DU PROJET
FICHE PEDAGOGIQUE
-
Comme tout type de donnée, le texte se prête à un traitement informatique et statistique. Ainsi, pour autant qu’on dispose des sources appropriées, il est possible d’étudier la variation de quantités mesurables dans des textes (telles que fréquences et mesures de complexité) en fonction de l’auteur, du genre, de l’époque, etc. Ces variations peuvent également être visualisées par le biais de diverses représentations graphiques, ou encore être exploitées pour établir des catégories de textes.
Bien implantée dans le domaine des Sciences sociales, cette approche formelle et empirique des corpus textuels intéresse un nombre croissant d’étudiants et d’enseignants de Lettres. Dans le cadre d’un travail de séminaire, l’application de ce genre de méthodologie implique typiquement:- la formulation d’une question de recherche;
- la sélection, la récolte et l’annotation de données textuelles;
- l’utilisation de logiciels pour le traitement quantitatif des données;
- l’analyse et la présentation des résultats.
L’expérience montre que les étudiants n’ont guère de difficultés à collecter des données textuelles (sur internet ou par numérisation de texte imprimé). Pour les traitements quantitatifs, il existe un large éventail de logiciels conviviaux et souvent libres, dont l’enseignement est d’ores et déjà généralisé au niveau universitaire: Calc/Excel, R/SPSS, Tanagra, etc. Toutefois, ces outils opèrent très généralement sur des tableaux où les lignes (individus) correspondent p.ex. aux parties d’un corpus et les colonnes (variables) aux quantités mesurées dans ces parties.
Or, jusqu’à peu, il n’existait pas de solution portable, flexible et intuitive pour extraire de sources textuelles potentiellement hétérogènes (textes bruts, documents XML, etc.) des données quantitatives en format tabulaire. Cet état de fait posait un problème pédagogique, dans la mesure où il restreignait drastiquement la possibilité pour les étudiants de s’approprier par la pratique les concepts et méthodes qui sous-tendent le traitement statistique des données textuelles – sauf à gravir d’abord la courbe d’apprentissage considérable qu’implique l’acquisition de compétences en programmation.
-
TEXTABLE est un logiciel conçu pour permettre à des utilisateurs non programmeurs de construire des données tabulées à partir de données textuelles, par le biais d’une interface à la fois flexible et intuitive. Il offre en particulier les fonctionnalités suivantes:
- importation de sources textuelles diverses;
- application d’opérations de recodage systématique;
- application de traitements analytiques tels que segmentation et annotation des unités;
- sélection manuelle, automatique ou aléatoire de sous-ensembles d’unités textuelles;
- calcul d’indices numériques tels que fréquences et mesures de complexité;
- exportation des résultats sous forme de tableaux de données appropriés pour un traitement ultérieur par un logiciel statistique.
TEXTABLE repose sur une interface de type flux de données (dataflow). Dans ce paradigme, l’utilisateur est amené à composer un schéma, soit une chaîne de traitement, en arrangeant graphiquement des widgets représentant des fonctionnalités spécifiques (en l’occurrence importation, recodage, segmentation, etc.) et en les reliant par des connexions qui déterminent le cheminement des données dans le système (voir Figure ci-dessous). Ce design sert un double objectif: (1) doter l’outil d’un caractère convivial (voire ludique?) facilitant son adoption par des utilisateurs non programmeur; (2) lui conférer une flexibilité rendant possible son application à des projets diversifiés et stimulant la créativité des utilisateurs.
L’apprentissage de l’utilisation du logiciel s’effectue en deux temps:
- D’abord, une série de tutoriels introduit progressivement les principes généraux de la construction de schémas avec TEXTABLE ainsi que l’utilisation de chaque widget. Au terme de cette phase, l’utilisateur doit être en mesure de créer des schémas pour effectuer un traitement spécifique sur la base de données fournies (p.ex. « Construire une table donnant la fréquence des pronoms personnels dans trois pièces de Molière »).
- Dans un second temps, l’étudiant est amené à utiliser le logiciel de façon autonome pour construire la ou les tableaux de données pertinents dans le cadre d’un travail de séminaire articulé autour d’une question de recherche personnelle.
-
La dimension technologique est indissociable de la pratique du traitement statistique des données textuelles. Dans ce projet, toutefois, le rôle du logiciel ne se limite pas à simplifier (voire rendre possible) les calculs qui sous-tendent la méthodologie considérée. L’outil informatique permet surtout à l’étudiant de s’approprier les aspects conceptuels de la démarche par le biais de la visualisation et la manipulation symboliques des opérations qui la composent.
Pour illustrer ce propos, on peut considérer l’exemple de l’opération de segmentation, consistant à identifier dans un texte des segments définis par des propriétés formelles données. Dans le cadre de TEXTABLE, cette opération est représentée par le widget Segment. Un schéma très simple permet de visualiser le résultat de la segmentation d’un texte en mots. Dans ce schéma, l’utilisateur peut librement modifier le texte d’entrée dans le widget Text field. De façon plus intéressante, il peut non moins librement modifier la définition des segments, en remplaçant par exemple la formule w+ apparaissant dans le champ Regex du widget Segment par w; ce changement revient à spécifier les segments non plus comme des séquences de lettres mais comme des lettres isolées. La nouvelle segmentation, en lettres cette fois-ci, sera immédiatement affichée dans le widget Display. La conviction qui a guidé le design de TEXTABLE est que l’application de manipulations symboliques simples comme celle-ci permet à l’étudiant de développer une compréhension d’un concept tel que celui de « segmentation » bien plus facilement et plus efficacement que l’exposé de définitions théoriques telles que « l’opération consistant à identifier dans un texte des segments définis par des propriétés formelles données ».
-
TEXTABLE est implémenté sous la forme d’une extension du logiciel d’analyse de données open source Orange Canvas (http://orange.biolab.si). Dès lors, bien qu’il soit conçu pour pouvoir exporter les tables construites par l’utilisateur (en vue d’un traitement avec un logiciel tiers comme R ou SPSS), TEXTABLE permet également d’accéder à une large gamme de méthodes de classification et de visualisation sans sortir du contexte d’Orange Canvas.
Les membres de la communauté Unil sont invités à découvrir et télécharger le logiciel Textable en cliquant ici.