Vocabulaire linguistique de Sémato
Voici quelques éléments de terminologie linguistique utilisés dans la présentation de Sémato.
-
Mot ou lexème : forme brute "non lemmatisée" des unités qui composent les phrases. Par exemple : "maison", "maisons", "mangeront" . Un mot ou lexème ne peut contenir d'espace.
- Lemme : forme canonique des mots, ou forme lemmatisée des mots. Par exemple, le lemme de "mangeront" est "manger", le lemme de "maisons" est "maison". Le lemme est l'infinitif pour les verbes et le masculin singulier pour les noms et les adjectifs. Lorsque nous disons "qu'un lemme rapporte des phrases" cela signifie qu'il rapporte toutes les phrases qui contiennent l'une ou l'autre de ses formes conjuguées. Ainsi le lemme "citoyen" rapporte toutes les phrases qui contiennent l'un ou l'autre des mots : "citoyen", "citoyens", "citoyenne" ou "citoyennes".
- Synapsie : nous appelons ainsi des expressions plus ou moins figées construites sur un nom ou un verbe. Les synapsies sont trouvées par Sémato lors de l'indexation de votre corpus. Les synapsies sont utiles au dépouillement terminologique et à la désambiguïsation sémantique. Les synapsies ont la propriété de saturer le sens d'un vocable. Comparez "santé économique" et "système de santé". "Santé" est pris dans un sens plus figuré dans la première synapsie que dans la seconde.
- Champ sémantique : liste de lemmes ou de synapsies associés à un lemme. Le champ sémantique du lemme "maison", par exemple, est la liste des lemmes : "résidence", "logement", "habitation", "domicile", "demeure", "bâtisse", "appartement", "masure", "maisonnette" et "maisonnée". Le champ sémantique contient des lemmes de même famille morphologique (ex. : "maison", "maisonnée" et "maisonnette") et des lemmes sémantiquement rapprochés (ex. : "maison" et "résidence"). Évidemment, vous verrez très rarement tout le champ sémantique d'un lemme. Il est inutile de donner des éléments qui ne sont pas présents dans votre corpus. Le champ sémantique de "maison", par exemple, sera l'intersection entre la liste ci-dessus présentée, valide pour toute la langue, et le vocabulaire limité de votre corpus.
- Thème : les thèmes sont les unités d'exploration et de catégorisation sémantique des données textuelles. Des thèmes sont construits automatiquement par un algorithme appelé la GTH (Génération de thèmes). La GTH opère sur les champs sémantiques par un double mécanisme d'instanciation au corpus (réduction d'un champ aux seuls éléments présents au corpus) et de fusion entre des champs ayant une intersection significative d'éléments. D'autres thèmes sont construits de manière manuelle ou assistée. Les thèmes se distribuent formellement en trois tables :
- La table des thèmes colligés (TTC). Cette table regroupe les thèmes construits de manière manuelle ou assistée.
- La table GTH-O regroupe des thèmes dont la sémantique est ouverte. Les thèmes de cette table ne sont pas étanches : un ingrédient peut se retrouver dans plus d'un thème.
- La table GTH-C regroupe des thèmes plus concis dont la sémantique est plus restrinte que celle de la GTH-O. Les thèmes de cette table sont étanches : un ingrédient peut se retrouver dans plus d'un thème.
- Vocable : nous appelons ainsi l'une ou l'autre des formes lexème, lemme, synapsie ou encore thème.
- Concordance : liste des contextes ou ensemble des passages d’un texte où figure un vocable.
- Fréquence texte : on dira aussi fréquence textuelle. Nombre de textes qui contiennent (au moins une fois) un vocable donné.
- Fréquence totale : on dira aussi fréquence lexicale. Le nombre total d'occurrences d'un vocable dans tout le corpus (ou sous corpus défini par une analyse).
|