Sémato v3.0 Projet  Thèmes Analyses Sondages Entretiens Projet :
aucun



Index du tutoriel

La technologie linguistique de Sémato - Introduction

Il est maintenant nécessaire de dire quelques mots sur la technologie linguistique implémentée dans Sémato. Nous avons besoin de ces informations pour comprendre comment fonctionne l'Assistant Scripteur de Thèmes (AST) présenté au prochain exercice du tutoriel.

La lemmatisation

La lemmatisation consiste à donner automatiquement à un mot le pouvoir de rapporter d'autres mots. Grâce à la lemmatisation, le mot manger, par exemple, rapporte toutes les formes conjuguées de ce verbe : mange, mangeait, manger, mangions, mangerai etc. Le mot joli rapporte les mots jolie, joli, jolies et jolis. Nous dirons aussi que le mot joli est le lemme du groupe de mots qu'il peut rapporter. Le lemme est l'infinitif pour les verbes et le masculin/singulier pour les noms et les adjectifs. Voici en comparaison, une portion de lexique non lemmatisé et lemmatisé :


Par défaut, en Sémato, la lemmatisation est toujours active. Lorsque vous inscrivez un mot dans une recherche textuelle ou, comme nous le verrons dans le prochain exercice du tutoriel, dans le script d'un thème, en fait vous inscrivez un lemme.

La lemmatisation en Sémato est implémentée par un ensemble complexe de règles linguistiques contrairement à la stratégie implémentée dans la très grande majorité des logiciels d'analyse de textes où soit, elle repose sur un dictionnaire, auquel cas, on ne saura lemmatiser les formes ambiguës et cela provoquera maintes erreurs (on ne peut savoir, hors contexte, si "porte" est le nom ou le verbe "porter"), soit elle se ramène à la pratique de la troncation. La troncation est aussi responsable d'un très grand nombre d'erreurs; il est difficile de prévoir la liste des mots rapportés par une troncation. Par exemple, voici la liste des mots français rapportés par VIOL* (la liste de tous les mots qui commencent par les 4 lettres VIOL) :


Les synapsies ou contextes syntagmatiques

La question fondamentale de la sémantique est l'ambiguïté. Les mots, pris hors contexte, ont plus d'un sens, ils sont ambigus. On peut penser à des sens directs mais aussi à des sens figurés. Le mot poste a plusieurs sens directs différents : un timbre-poste, un poste de radio et un poste de commandement. D'autres mots, comme le mot santé, par exemple, ont toujours le même sens direct (condition ou état) mais peuvent être utilisés dans des sens figurés : dans les expressions le réseau de santé ou les professionnels de la santé, on parle de médecine, beaucoup moins cependant dans l'expression la santé démocratique d'un peuple.

Pour manipuler correctement le sens des mots, on doit avoir accès à leur contexte. Sans accès au contexte, toutes les manipulations sont susceptibles d'engendrer des erreurs. C'est ce qui explique que les dictionnaires-thésaurus qui, dans plusieurs logiciels, catégorisent hors contexte les mots d'un texte, ont un taux élevé d'erreurs.

Par ailleurs, si on peut considérer que la phrase est une unité de désambiguïsation habituellement suffisante, elle est trop longue pour être pratique. La solution en Sémato est offerte par une technologie appelée le dépistage des synapsies. Les synapsies sont les plus petites unités contextuelles permettant de lever les ambiguïtés sémantiques. Voici les synapsies trouvées autour du mot santé dans le projet nouv (discours politiques au Québec), les chiffres représentent des fréquences au corpus nouv :


Ici encore, la solution de Sémato est une solution linguistique. Le dépistage des synapsies se fait sur la base d'une analyse morpho-syntaxique de la phrase. Cette solution est très différente de celle pratiquée par plusieurs logiciels et qui consiste à compter des segments répétés. Il est facile de repérer, par cette technique, le segment services de santé qui apparaît 21 fois au corpus, mais la majorité des synapsies n'ont qu'une occurrence et ne peuvent être dépistées par une approche de simple décompte des segments textuels.

La technique des segments répétés manquera de plus les nombreuses synapsies incises dans les unités nominales complexes et les coordinations. Ainsi, Sémato trouvera la synapsie réacteur à neutrons dans le segment réacteur physique à neutrons. Aussi, il trouvera dans le segment : lecteur et encodeur de cartes à puces, les deux synapsies lecteur de cartes à puces et encodeur de cartes à puces. Seul un système basé sur des règles d'analyse morpho-syntaxiques peut trouver ces synapsies incises.

Les synapsies présentent les contextes syntagmatiques d'un mot donné. Une relation syntagmatique est une relation de concaténation (des mots qui se suivent); les synapsies sont des syntagmes. Le niveau syntagmatique informe rapidement des différents sens qu'un mot peut prendre, pour un corpus donné. Nous verrons maintenant que la technologie de Sémato manipule aussi un autre aspect de la sémantique des mots pour un corpus donné : le niveau des contextes paradigmatiques.

Les champs sémantiques ou contextes paradigmatiques

Dans la mémoire de Sémato, tous les lemmes ont un champ sémantique. Le champ sémantique d'un lemme donné regroupe d'autres lemmes qui ont, avec le premier, une relation de parenté sémantique. Voici le champ sémantique du lemme charme en français et en comparaison, sa réalisation ou projection dans le projet photographes.


Tous les lemmes du corpus reçoivent un champ sémantique. Au niveau de la langue, tous les champs sont différents. Au niveau du corpus, il est possible que 2 champs soient identiques. Les champs sémantiques ne sont pas étanches entre eux : des lemmes peuvent se retrouver dans 2 champs différents. Par exemple, entre les champs sémantiques des lemmes charme et attirance, 3 éléments sont communs :


On peut représenter le champ sémantique d'un lemme comme une étoile, en plaçant ce lemme au centre et les autres mots gravitant autour du premier. Étoile de charme dans le corpus photographes :


On voit naître le début d'un réseau autour du lemme charme. Ce niveau qui ne présente que les éléments immédiats du champ sémantique d'un lemme est appelé le niveau 0. Puisque chaque lemme a, dans la mémoire de Sémato, un champ sémantique, on peut poursuivre le réseau en ajoutant, pour chacun des lemmes du champ sémantique de charme, leur propre champ sémantique. Cela constituera le niveau 1 du champ sémantique de charme :


Nous poursuivons avec le niveau 2 qui ajoute les champs sémantiques des éléments introduits au niveau 1 :


Puis, pour abréger, nous sautons un niveau et présentons le niveau 4. À ce niveau de densité, il n'est plus possible d'indiquer le contenu des noeuds. Charme est représenté par le rectangle turquoise :


Et le niveau 6 :


Voici enfin le réseau global des champs sémantiques du projet photographes. Le graphique présente 2603 noeuds (lemmes) et 4103 liaisons entre ces derniers :


Ce réseau des champs sémantiques va servir principalement au travail de l'Assistant Scripteur de Thèmes (AST). Le réseau va soutenir la navigation sémantique de l'AST. L'Assistant va en effet vous faire des propositions afin de vous aider à déployer le contenu sémantique de vos thèmes. Vous donnerez à l'Assistant des points d'entrée dans le réseau, ce que nous appellerons des ingrédients de départ. Pour chaque ingrédient de départ, l'Assistant vous indiquera ce qu'il trouve à proximité dans le réseau sémantique, vous aidant ainsi à ajouter d'autres ingrédients à votre thème, ingrédients qui, à leur tour, permettront de visiter une plus grande région du réseau. Nous verrons ce fonctionnement en détail, à l'aide d'exemples, dans le prochain exercice.

Le réseau des champs sémantiques servira aussi au travail de la GTH. La GTH (Génération de THèmes) est une procédure appliquée au moment de l'indexation des textes. La GTH construit un ensemble de thèmes pour vous aider à mieux comprendre le contenu émergent de votre corpus. Elle vous propose la liste de ces thèmes dans laquelle vous pourrez récupérer ceux qui vous intéressent. Pour construire ces thèmes, la GTH applique des algorithmes d'analyse de réseau afin de dépister des zones de condensation particulièrement intéressantes et révélatrices d'événements sémantiques spécifiques à votre corpus. Nous y reviendrons dans la section du tutoriel intitulée : Stratégies de la GTH.


Ce lien ouvre un document qui décrit d'une manière plus détaillée la technologie linguistique de Sémato. La lecture de ce document n'est pas requise à la poursuite du tutoriel.


Index du tutoriel