Explorations Textométriques sur CFPP2000 avec iTrameur et Le Trameur

Téléchargement du corpus des transcriptions CFPP2000 au format Trameur / iTrameur

"Base CFPP2000" (32 entretiens) : base textométrique avec 3 couches d'annotations (forme, lemme, catégorie), on trouve à la fois un découpage en tour de paroles et 3 systèmes de parties (par quartier, par transcription et par interlocuteur) pour le logiciel iTrameur : Importer la base directement dans iTrameur.

Les données CFPP sont aussi disponibles dans un fichier permettant leur exploration textométrique via les logiciels iTrameur et Le Trameur. Téléchargez le fichier sur votre ordinateur, puis après avoir démarré le logiciel, ouvrir le fichier en choisissant l'option "Créer une nouvelle base".

Octobre 2018 :cfpp2000-v42-utf8.txt
Janvier 2018 :cfpp2000-v24-utf8.txt

Les outils

Le Trameur / iTrameur

Le Trameur est un programme d’analyse comportant de nombreuses fonctionnalités pour l’analyse automatique, statistique et documentaire de textes en vue de leur profilage sémantique, thématique et de leur interprétation. Ce logiciel est à l’origine un outil de textométrie : il intègre les fonctionnalités classiques de ce type d’outils dans ce domaine. Il dispose aussi des fonctionnalités particulières qui permettent d’annoter dynamiquement des corpus ou d’explorer des ressources richement annotées (treebanks monolingues/multilingues ou des alignements).
http://www.tal.univ-paris3.fr/trameur/

iTrameur, en ligne (utilisable dans votre navigateur habituel), reproduit des calculs disponibles dans Le Trameur.
http://www.tal.univ-paris3.fr/trameur/iTrameur/

Présentation du corpus de travail

Les corpus accessibles ci-dessus ont été construits pour rendre les contenus textuels de CFPP2000 (le texte des transcriptions) compatibles avec Le Trameur et iTrameur. Le corpus de travail construit est le résultat de la concaténation des transcriptions de CFPP2000.
Le texte est parsemé de balises qui permettent de le découper en parties de différentes manières.

  • La clé <quartier=x> permet de découper le corpus en parties correspondant aux différents quartiers associés aux enregistrements.
  • La clé <user=x> permet d'identifier la transcription par l'idenfiant associé à chaque enregistrement.
  • La clé <transc=x> permet d'associer un identifiant à chaque transcription, la valeur de clé associée permet de différencier les entretiens.
  • La clé <speaker=x> permet d’identifier les différents intervenants au cours de chaque enregistrement.
Ce découpage du corpus permet de mettre en évidence les évolutions dans l’utilisation du vocabulaire dans les différentes parties ainsi définies et avec des niveaux de précision différents.