Sémato v3.0 Projet  Thèmes Analyses Sondages Entretiens Projet :
aucun




Sémato-Ling -- Fonctionnalités et description des fichiers produits

Le logiciel Sémato implémente un analyseur morphologique, syntaxique et sémantique du français et de l'anglais. Ces trois niveaux collaborent à l'obtention d'ensembles de thèmes émergents de textes réunis en corpus.

L'objectif de Sémato-Ling est l'obtention automatique d'informations extraites d'un corpus de textes. Ces informations peuvent alimenter différents processus d'annotation et de catégorisation, par exemple, dans le domaine de l'analyse qualitative, ou encore, dans celui de l'apprentissage assisté des algorithmes d'intelligence artificielle.

Sémato-Ling regroupe un ensemble de fichiers construits au moment de l'indexation de votre corpus. Ces fichiers contiennent, sous une forme exportée et donc importable par d'autres logiciels, l'ensemble des informations linguistiques ajoutées par Sémato à vos données textuelles.

La technologie linguistique de Sémato requise pour la compréhension des fichiers produits par Sémato-Ling est décrite sur cette page et aussi, de manière plus approfondie, dans le document suivant : Technologie linguistique de Sémato.docx .

Les exemples au présent document sont extraits du projet des entrevus avec 12 photographes. Pour en savoir plus sur le projet photographes.



Les fichiers de Sémato-Ling

Tous les fichiers de Sémato-Ling sont des tableurs en format texte pouvant être importés dans des logiciels de traitement de tableurs tel Excel ou Delimit. Au moment de l'importation, on doit spécifier l'encodage Windows ANSI et le format TEXT avec tabulations comme délimiteurs de colonnes. Les rangées sont délimitées par des retours à la ligne.

Voici les trois fichiers construits par Sémato-Ling :


Fichier champs-sémantiques.txt

Ce premier fichier présente les champs sémantiques. Chaque lemme reçoit un champ sémantique. Nous vous rappelons de lire le document sur la technologie de Sémato si vous n'êtes pas familier avec notre terminologie : Technologie linguistique de Sémato.docx . Extrait, début du fichier champs-sémantiques.txt :

TêteFréquence têteChamp sémantiqueFréquence champ
abandon2abandonner arrêt 6
abandonner5abandon aliéner fuir lâcher laisser laisser_tomber quitter renoncer 66
abîme2abîmer désastre ruine 5
abîmer3abîme briser casser 8
abondance1accumulation ampleur richesse 7
aborder1approcher arriver commencer débuter engager entreprendre toucher_terre 162
aboutir2aboutissement arriver atteindre bout finir terminer 178
aboutissement1aboutir conclusion fin résultat terme 33
abriter1accueillir cacher couvrir préserver protéger sauvegarder 26
absolument13certainement complètement diamétralement entièrement essentiellement évidemment exactement forcément littéralement naturellement nécessairement parfaitement sûrement totalement 78
abstraction4notion 1
absurde3bête bizarre fou idiot ridicule stupide 30


Rappelons que les champs sémantiques sont construits sur le corpus. Ce fichier ne contient que des éléments de votre corpus. Dans Sémato, les champs sémantiques servent au calcul de similitude entre les phrases et/ou les textes ainsi qu'à la construction des thèmes. Ils peuvent sans doute vous servir, dans d'autres logiciels, à la composition d'autres types de catégories sémantiques.



Fichiers gth-c.txt et gth-o.txt

Ces deux fichiers présentent des thèmes construits par Sémato sur votre corpus. Encore ici, il est fortement recommandé de faire la lecture du document sur la technologie linguistique de Sémato qui explique plus en détail le processus de construction des thèmes de Sémato (sur cette page). Sémato-Ling construit deux fichiers de thèmes : GTH-O (gth-o.txt) et GTH-C (gth-c.txt). La différence principale entre les deux listes est que celle de la GTH-C est étanche. Cela signifie que deux thèmes de cette liste GTH-C ne peuvent avoir d'ingrédients identiques. Un ingrédient ne peut être classé que dans un seul thème. Cette liste est donc une candidate aux analyses matricielles du corpus, alors que la GTH-O est l'outil privilégié pour l'exploration sémantique des données.