Technologie linguistique de Sémato -- Principaux concepts
Le logiciel Sémato implémente un analyseur morphologique, syntaxique et sémantique du français et de l'anglais. L'analyse linguistique est effectuée sur l'ensemble des phrases de votre corpus, au moment de son indexation ( Indexation des textes et/ou des questionnaires de sondage sous Projet).
Une représentation appelée Matrice première construite au moment de l'indexation nous aidera à comprendre le travail linguistique effectué. Cette matrice présente l'ensemble des mots des phrases du corpus, un mot par ligne et plusieurs colonnes (C à H) qui contiennent les éléments construits par l'analyseur linguistique de Sémato. Nous empruntons l'exemple au corpus photographes (12 entrevues de photographes, ci-dessous nous parlerons du corpus des 12p) :
| A | B | C | D | E | F | G | H
| | Texte | Phrase | Catégorie syntaxique | Lemme | Lexème | Synapsie 1 | Synapsie 2 | GTH-C
| | 32 | 5 | ff | je | Je | | |
| | 32 | 5 | ff | le | le | | |
| | 32 | 5 | vfle | dire | dis | | dire_jeune |
| | 32 | 5 | adv | parfois | parfois | | |
| | 32 | 5 | prep | aux | aux | | |
| | 32 | 5 | nc | jeune | jeunes | | | th-c-jeune
| | 32 | 5 | ff | qui | qui | | |
| | 32 | 5 | ff | me | me | | |
| | 32 | 5 | vfle | montrer | montrent | | montrer_photo |
| | 32 | 5 | ff | leurs | leurs | | |
| | 32 | 5 | nc | photo | photos | photo_de_composition_d_ombre photo_de_composition | | th-c-photographie
| | 32 | 5 | prep | de | de | | |
| | 32 | 5 | nc | composition | compositions | composition_d_ombre | | th-c-organisation
| | 32 | 5 | prep | d' | d' | | |
| | 32 | 5 | nc | ombre | ombres | | | th-c-obscurité
| | 32 | 5 | prep | sur | sur | | |
| | 32 | 5 | ff | les | les | | |
| | 32 | 5 | nc | mur | murs | | |
| | 32 | 5 | ff | ou | ou | | |
| | 32 | 5 | prep | d' | d' | | |
| | 32 | 5 | nc | affiche | affiches | affiche_déchiré | |
| | 32 | 5 | adj | déchiré | déchirées | | |
| | 32 | 5 | ff | , | , | | |
| | 32 | 5 | ff | plus | plus | | |
| | 32 | 5 | ff | ou | ou | | |
| | 32 | 5 | adv | moins | moins | | |
| | 32 | 5 | vppe | traficoter | traficotées | | traficoter_laboratoire |
| | 32 | 5 | prep | au | au | | |
| | 32 | 5 | nc | laboratoire | laboratoire | | | th-c-labo
| | 32 | 5 | ponc | . | . | | |
|
Texte et phrase
L'extrait présente la 5e phrase ( colonne B) du 32e texte ( colonne A) du corpus des 12p. Il y a autant de textes que de questions et de réponses dans ces 12 entrevues.
Catégorie syntaxique
La colonne C présente la catégorie syntaxique de chaque mot. Voici ces catégories :
- adj = adjectif
- adv = adverbe
- ff = forme fonctionnelle (articles, pronoms...)
- nc = nom commun
- np = nom propre
- num = forme numérique
- ponc = signe de ponctuation
- prep = préposition
- vfle = verbe fléchi
- vinf = verbe infinitif
- vppa = verbe participe passé
- vppe = verbe participe présent
Le paradigme des catégories syntaxiques est strictement défini pour les besoins des deux autres étapes de l'analyse morphosyntaxique que sont la lemmatisation (colonne D) et la découverte des synapsies (colonnes F et G). Il ne faut donc pas chercher dans ce paradigme une hypothèse autonome sur les possibilités et les fonctionnalités étendues de la catégorisation syntaxique des éléments d'une phrase. Il s'agit du strict minimum requis pour procéder aux deux autres étapes morphosyntaxiques de l'analyse.
Lexème et lemme
La colonne E montre le lexème ou mot d'entrée du texte analysé. Cette colonne est celle qui correspond le plus avec le texte d'entrée. Les seules modifications étant au niveau des espaces et sauts de ligne.
La colonne D donne le lemme de chacun des lexèmes. Les lemmes sont produits par la procédure de lemmatisation. La lemmatisation rapporte pour chaque mot une forme canonique permettant de mettre l'accent sur le contenu sémantique du mot en délaissant les propriétés de temps, de genre, de nombre, de mode, etc. La lemmatisation consiste en quelque sorte à donner automatiquement à un mot le pouvoir de catégoriser les autres mots de sa famille grammaticale. Le lemme manger, par exemple, réfère toutes les formes de ce verbe : mange, mangeait, manger, mangions, mangerai... Le lemme joli réfère les mots : jolie, joli, jolies et jolis. Le lemme est l'infinitif pour les verbes et le masculin/singulier pour les noms et les adjectifs. Les autres formes (adverbes, formes fonctionnelles...) ne sont pas lemmatisées dans Sémato et il n'y a donc pas de différence pour elles entre le lemme et le lexème (colonnes D = colonne E).
Synapsies
Les synapsies (présentées aux colonnes F et G) identifient des segments textuels qui contiennent plus d'un mot et qui permettent de lever des ambiguïtés sémantiques. La question fondamentale de la sémantique est l'ambiguïté. Les mots, pris hors contexte, ont souvent plus d'un sens, ils sont ambigus. On peut penser à des sens directs, mais aussi à des sens figurés. Le mot poste a plusieurs sens directs différents : un timbre-poste, un poste de radio et un poste de commandement. D'autres mots, comme le mot santé, par exemple, ont toujours le même sens direct (condition ou état) mais peuvent être utilisés dans des sens figurés : dans les expressions le réseau de santé ou les professionnels de la santé, on parle de condition médicale, et dans l'expression la santé démocratique d'un peuple, de condition sociale.
Pour manipuler correctement le sens des mots, on doit avoir accès à leur contexte. Sans accès au contexte, toutes les manipulations sont susceptibles d'engendrer des erreurs. Si l'on peut considérer que la phrase est une unité de désambiguïsation habituellement suffisante, elle est aussi trop longue et complexe pour être une unité opérationnelle, sa récurrence étant quasi nulle dans les textes. Pour résoudre ce problème, nous avons développé dans Sémato une technologie appelée le dépistage des synapsies. Les synapsies sont les plus petites unités contextuelles permettant de lever des ambiguïtés sémantiques.
La liste des synapsies nous informe rapidement du contenu d'un texte et cela, avec peu d'ambiguïté. L'idée est de pouvoir appréhender la sémantique d'un corpus d'une manière condensée et avec la plus grande acuité possible.
Pour nous en convaincre, comparons les deux listes ci-dessous. La première liste est constituée de l'ensemble des lexèmes trouvés dans la seconde liste. Cette seconde liste est l'ensemble des synapsies contenant le lemme photo au corpus des 12p. Lisez la première liste et essayez de vous faire une idée de la thématique du texte d'où ces mots sont extraits. Puis refaites l'exercice avec la seconde liste.
Première liste : les lexèmes
Seconde liste : les synapsies
Le dépistage des synapsies se fait sur la base d'une analyse morphosyntaxique de la phrase. Il ne s'agit donc pas de repérer simplement des segments répétés dans les textes. La majorité des synapsies dans un texte n'ont qu'une occurrence et ne peuvent être dépistées par une approche de décompte des segments textuels. Le repérage par récurrence peut aider à trouver des termes (les objets de la terminologie, exemples d'école : base de données, premier ministre, chef d'orchestre, etc.), mais ceux-ci ne forment qu'un faible sous-ensemble des synapsies présentes dans un texte.
La technique des segments répétés manquera de plus les nombreuses synapsies incises dans les unités nominales complexes et les coordinations. Ainsi, Sémato trouvera la synapsie réacteur à neutrons dans le segment réacteur physique à neutrons. Aussi, il trouvera dans le segment : lecteur et encodeur de cartes à puces, les deux synapsies lecteur de cartes à puces et encodeur de cartes à puces. Seul un système basé sur des règles d'analyse morphosyntaxique peut trouver ces synapsies incises.
L’algorithme construit deux listes de synapsies ( colonne F = synapsies 1 (ou fortes) et colonne G = synapsies 2 (ou faibles)). La liste synapsies 1 (colonne F) contient les unités considérées les plus intéressantes. La liste synapsies 2 (colonne G) contient d'autres synapsies dont la structure est moins fiable. On retrouve dans la seconde liste (synapsies 2) des expansions prépositionnelles construites sur les prépositions : avec, pour, sans et sur. On y dépose aussi les constructions qui contiennent des spécifieurs ( de la du au...) nominaux ( traitement de la parole, infarctus du myocarde, carte au laser...) et les expansions infinitives ( machine à coudre) ainsi que des segments dont la tête est verbale ( montrer une photo, traficoter au laboratoire...). La somme des deux listes assure donc le maximum de couverture pour qui veut être certain de ne pas manquer de synapsies. Par ailleurs, l'utilisation de la première liste (synapsies 1) assurera une haute qualité pour des fins de dépistage de l'information textuelle. On notera dans les deux listes que les synapsies sont présentées sous leur forme lemmatisée, les espaces étant remplacés par des soulignés.
Les synapsies présentent les contextes syntagmatiques d'un mot donné. Une relation syntagmatique est une relation de concaténation (des mots qui se suivent); les synapsies sont des syntagmes. Le niveau syntagmatique informe rapidement des différents sens qu'un mot peut prendre, pour un corpus donné. Nous verrons maintenant que la technologie de Sémato manipule aussi un autre aspect de la sémantique des mots pour un corpus donné : le niveau des contextes paradigmatiques.
Champs sémantiques
Avant de décrire la colonne H, nous devons présenter les champs sémantiques.
Les champs sémantiques sont définis au niveau de la langue. Les champs sémantiques ont été définis pour la majorité des lemmes de la langue augmentée d'un certain nombre de synapsies, celles qui peuvent être considérées comme des termes usuels de la langue; pour la suite de cette description, les synapsies étant rares dans les champs, nous ne parlerons que de lemmes.
Le champ sémantique d'un lemme donné regroupe d'autres lemmes qui ont, avec le premier, une relation de proximité sémantique.
Les champs sémantiques de Sémato sont construits sur deux types de proximité sémantique : la proximité morpho-étymologique et la proximité synonymique. Le document Technologie Linguistique de Sémato.docx livre plus d'information sur ces proximités.
Dans la mémoire de Sémato, on a rassemblé plus de 150,000 champs sémantiques pour le français et plus de 130,000 pour l’anglais. Voici par exemple, au niveau de la langue française, le champ sémantique du lemme manger :
- manger : (absorber, alimenter, ampélophage, anthophage, anthropophage, anthropophagie, anthropophagique, autophage, autophagie, autophagique, avaler_aliment, baccivore, becter, bibliophage, bien-manger, biophage, bouffer, boulotter, briffer, carnassier, carnivore, casser_croûte, casser_graine, chélonophage, comestibilité, comestible, consommer, coprophage, coprophagie, croûter, créophage, cynophagie, dendrophage, dysphagie, dysphagique, dévorant, dévoration, dévorer, dévoreur, dévoré, endophage, entomophage, entremangement, euryphage, frugivore, galactophage, garde-manger, garde-mangers, glandivore, grailler, granivore, géophage, géophagie, géophagisme, herbivore, hippophage, hippophagie, hippophagique, homophage, hyperphagie, hyperphagique, hématophage, ichtyophage, ichtyophagie, insectivore, larvivore, limivore, limnivore, manducateur, manducation, mangeable, mangeaille, mangeoire, mangeotter, mangeotté, manger, mangerie, mangeur, mangeure, mangé, microphage, monophage, mycophage, mycétophage, myrmécophage, nécrophage, nécrophagie, nécrophagique, odynophagie, oligophagie, omnivore, omophage, omophagie, ophiophage, opiophage, opiophagie, phagotrophe, phyllophage, phytophage, piscivore, planctophage, polyphage, polyphagie, prendre_repas, pélophage, radicivore, remanger, remangé, rhizophage, sanguinivore, saprophage, sarcophage, scatophage, scatophagie, se_restaurer, sténophage, tachyphagie, termitophage, tortorer, tubérivore, vermivore, xérophage, xérophagie, zoophage, zoophagie, zéophage)
Le champ sémantique de manger contient 126 éléments. Ces 126 éléments sont des lemmes ou des synapsies qui ont eux-mêmes leur propre champ sémantique; chacun de ces champs contient à son tour le lemme manger. Toutes les relations sémantiques définies sont donc bidirectionnelles ou réciproques.
Dans cette approche, donner le sens d'un lemme, c'est montrer d'autres lemmes. C'est une approche extensionnelle. Un lemme est défini par un ensemble d'autres lemmes, son extension sémantique dans la langue, et il sert lui-même à définir, d'une manière semblable, d'autres lemmes.
Une approche intentionnelle ferait plutôt intervenir des atomes de sens extérieurs à la langue (par exemple, on définirait un lemme comme un jeu de sèmes : manger = action + nourriture + survie...).
Le champ sémantique d'un lemme dans un corpus est un sous-ensemble du champ sémantique qu'il a dans la langue. Voici le champ sémantique du lemme charme en français et en comparaison, son instanciation ou projection dans le projet des 12p.
- charme (en français, 23 éléments) : (agrément, appas, appât, attirance, attraction, attrait, beauté, blandice, charmant, charme, charmé, charmer, charmeraie, charmeur, charmille, enchantement, ensorcellement, envoûtement, glamour, maléfice, séduction, sex-appeal, sortilège)
- charme (au corpus des 12p, 5 éléments ) : (attirance, beauté, charmant, charme, séduction)
Au niveau de la langue, tous les champs sémantiques sont différents. Il n'y a pas deux champs identiques parmi les 150,000 champs définis pour le français. Les champs ne sont pas identiques, mais ils ne sont pas étanches : on comprend que deux champs peuvent avoir une intersection. Par exemple, au niveau de la langue française, les deux champs aliment et nourriture ont cinq lemmes en commun : aliment, alimentation, bouffe, nourriture et nutrition.
- aliment (pour le français, 22 éléments) : (aliment, alimentaire, alimentarité, alimentation, alimenté, alimenter, bouffe, bromatologie, bromatologique, comestible, comestibles, denrée, denrée_alimentaire, nourriture, nutrition, opsomane, opsomanie, sitiophobie, suraliment, trophallergie, victuaille, victuailles)
- nourriture (pour le français, 20 éléments) : (aliment, alimentation, bectance, bouffe, bouffetance, boustifaille, chère, nourri, nourricier, nourrir, nourrissage, nourrissant, nourrissement, nourrisseur, nourriture, nutricier, nutriment, nutrition, pâture, pitance)
- intersection entre aliment et nourriture (pour le français, 5 éléments) : (aliment, alimentation, bouffe, nourriture, nutrition)
Comparons les intersections de deux champs sémantiques entre le niveau de la langue et le niveau d'un corpus (les 12p).
- Niveau de la langue :
- attirance (30 éléments): (affinité, aimantation, attirable, attirance, attirant, attiré, attirement, attirer, attraction, attrait, charme, désir, envie, faiblesse, fait_d_être_attirant, fascination, goût, inclination, penchant, prédilection, préférence, propension, séduction, sympathie, tentation, tiré, tirer)
- charme (25 éléments): (agrément, appas, appât, attirance, attraction, attrait, beauté, blandice, charmant, charme, charmé, charmer, charmeraie, charmeur, charmille, enchantement, ensorcellement, envoûtement, famille_des_bétulacée, glamour, maléfice, séduction, sex-appeal, sortilège)
- intersection entre charme et attirance (5 éléments) : (attirance, attraction, attrait, charme, séduction)
- Niveau du corpus (les 12p) :
- attirance (11 éléments): (attirance, attirer, charme, désir, envie, goût, penchant, séduction, sympathie, tentation, tirer)
- charme (5 éléments) : (attirance, beauté, charmant, charme, séduction)
- intersection entre charme et attirance (3 éléments) : (attirance, charme, séduction)
Au niveau d'un corpus, la variabilité sémantique étant plus faible que pour l'ensemble de la langue, les intersections seront proportionnellement plus importantes. Nous essayons de mesurer l'importance relative de l'intersection entre deux champs sémantiques. Au niveau de langue, on a une intersection de 5 éléments avec les 30 éléments de attirance et les 25 éléments de charme. En pourcentage, on aura ces valeurs d'intersections :
- Niveau de la langue :
- 5/30 = 16.67% pour attirance
- 5/25 = 20.00% pour charme
et donc une moyenne de 18.33% pour ces deux champs au niveau du français.
- Niveau du corpus des 12p :
- 3/11 = 27.27% pour attirance
- 3/5 = 40.00% pour charme
et donc une moyenne de 43.28% pour ces deux champs au corpus des 12p.
L'augmentation de la moyenne d'intersection au niveau du corpus nous montre intuitivement l'intérêt qu'il y aurait à fusionner des champs dans un corpus donné.
Plus le corpus est homogène sémantiquement, plus il exerce une condensation sur les champs, augmentant leurs intersections. Autant, au niveau de la langue, tout l'effort (dans la conception de Sémato) consistait à isoler des champs spécifiques (il n'y a pas deux champs identiques au niveau de la langue), autant, au niveau du corpus, cherchera-t-on des mécanismes pour fusionner les champs et permettre ainsi l'émergence d'ensembles plus inclusifs qui soient de bons candidats à la catégorisation/annotation des textes.
Nous verrons à la prochaine section, comment la condensation sémantique va permettre de migrer, par ce mécanisme de fusion, des champs sémantiques vers la construction des thèmes.
Thèmes
Les thèmes sont le dernier niveau de la description linguistique de Sémato. Les thèmes sont présentés à la colonne H de la matrice. Les thèmes sont construits de soit de manière assistée avec l'AST (Assistant scripteur de thèmes) soit de manière automatique avec la GTH (Génération de THèmes).
La GTH construit deux tables de thèmes : la GTH-C et la GTH-O.
La GTH-C est dite concise. Elle rapporte des relations de même famille (agréable - agréablement ou nourrir - nourriture) et des rapprochements synonymiques (travail, boulot, métier, occupation). Les thèmes de la GTH-C sont étanches, cela signifie qu'un ingrédient ne peut pas être présent dans deux thèmes de la GTH-C. L'étanchéité de la GTH-C est un atout dans les analyses de matrices (analyses prototypiques, réseaux de similitudes, cooccurrences, etc.).
La GTH-O est dite ouverte. Elle n'est pas étanche et un ingrédient peut se retrouver dans plus d'un thème. En plus des relations de famille et de synonymie, elle contient des relations sémantiques plus ouvertes (hyperonymes, métaphores, etc.).
Les thèmes sont composés de lemmes et de synapsies. Ces lemmes et synapsies constituent les ingrédients du thème. Un thème a un nom et une fréquence. Le nom d'un thème commence toujours par les caractères th- Les thèmes de la GTH-C commenceront par les caractères th-c- et ceux de la GTH-O par th-o-. La fréquence donne le nombre de fois où l'un ou l'autre des ingrédients du thème apparaît.
Voici des liens sur les deux GTH du projet des 12p :
GTH-O et GTH-C
Les thèmes sont en quelque sorte des super champs sémantiques. Pour construire les thèmes, la GTH opère sur les champs sémantiques par un double mécanisme d'instanciation au corpus (réduction d'un champ aux seuls éléments présents au corpus) et de fusion entre des champs ayant une intersection significative d'éléments. Ce double mécanisme est le même pour la GTH-O et la GTH-C, la différence reposant sur une seule règle supplémentaire qui veillera à l'étanchéité des thèmes de la GTH-C.
La fusion n'affectera pas tous les champs sémantiques du corpus. Les champs non fusionnés deviendront des thèmes autonomes. La procédure de fusion ayant, dans leur cas, le mérite de les déclarer sémantiquement spécifiques pour ce corpus.
Depuis la version v3.0 de Sémato, la GTH-O implémente en plus des relations de famille et de synonymie, des relations sémantiques plus ouvertes (hyperonymes, métaphores, etc.). Elle permet aussi l'ajout de thèmes extérieurs créés à l'aide d'une IA générative ou par ingestion d'autres GTH-O.
Les thèmes trouvés par Sémato ne sont certainement pas les seuls éléments qui soient de bons candidats à l'obtention d'une description sémantique pertinente. Sémato vous donne toute la matière première (lemmes, synapsies et champs sémantiques) pour écrire d'autres algorithmes.
Tout ce qui suit maintenant, explique plus en détails le mécanisme de fusion à l'oeuvre dans les deux GTH.
La fusion des champs procède en plusieurs étapes. Les deux GTH suivent les mêmes étapes plus une dernière qui implémente la règle d'étanchéité pour la GTH-C. Voici ces étapes.
- Le lexique des lemmes et synapsies du corpus est examiné dans le but de construire une liste de champs sémantiques candidats à la fusion. On retiendra le champ sémantique de chaque lemme/synapsie dont la fréquence est égale ou supérieure à une valeur calculée en fonction du volume du corpus. Le principe étant que plus le volume du corpus est élevé, plus la fréquence du lemme/synapsie retenu devra l'être aussi. Dans notre corpus exemple (les 12p), cette valeur est calculée égale à 2. Donc, nous retenons tous les lemmes et synapsies récurrents dans le corpus afin d'examiner leur champ sémantique.
- Chaque lemme/synapsie retenu reçoit son champ sémantique. Un tel champ a la forme d'une liste dont chaque élément est lui-même une liste contenant un lemme/synapsie accompagné de sa fréquence. Ainsi, toujours dans notre corpus des 12p, le lemme "angoisse" rapporte le champ sémantique suivant :
(("angoisse" 3) ("angoissant" 1) ("crainte" 1) ("détresse" 1) ("horreur" 6) ("inquiétude" 1) ("peine" 10) ("peur" 27) ("souci" 4) ("souffrance" 41) ("torture" 2) ("trac" 7))
Le lemme/synapsie à l'origine du champ est nommé la tête du champ. La tête du champ, ici ("angoisse" 3), est toujours placée au début du champ.
Sur le corpus des 12p, la procédure a retenu 1683 champs.
- Cette liste contient des doublets, triplets, etc. Au niveau de la langue, il est impossible, par définition, que deux lemmes aient le même champ. Au niveau des corpus, c'est possible, et d'autant plus fréquent que le volume du corpus est petit. Dans le corpus des 12p, on aura retiré 41 champs dédoublés dans la liste. Il en restera 1642. Les doublets sont donc des listes identiques sauf pour l’ordre des éléments. Exemples de doublets :
- (("photographe" 79) ("photo" 468) ("photographiable" 1) ("photographie" 101) ("photographier" 156) ("photographique" 8) ("photographié" 2))
- (("photo" 468) ("photographe" 79) ("photographiable" 1) ("photographier" 156) ("photographique" 8) ("photographié" 2) ("photographie" 101))
ou
- (("spectateur" 15) ("spectacle" 2))
- (("spectacle" 2) ("spectateur" 15))
On ne conservera qu'un seul champ sémantique par doublet ou triplet, etc.
- Chacun des champs reçoit un poids appelé PCS (Poids du Champ Sémantique). Ce poids est le produit de la somme des fréquences de chacun de ses éléments, multipliée par le nombre d'éléments de la liste. Ainsi, le poids du champ "angoisse" présenté ci-dessus est de 104 * 12 = 1248. Il y 12 éléments dont la somme des fréquences est de 104. Cette formule du PCS tient compte à la fois de l’importance fréquentielle du champ au corpus ainsi que de sa richesse sémantique (le nombre d'éléments).
La liste de tous les champs sémantiques retenus (appelée LCS) est par la suite ordonnée selon leur poids (PCS), les champs les plus lourds étant placés au début de la liste.
Voici les 10 premiers éléments de cette liste de 1642 champs pour le corpus des 12p, chaque champ est précédé de son PCS :
- 7362 ((photographie 101) (photo 468) (photographe 79) (photographiable 1) (photographier 156)
(photographique 8) (photographié 2) (photogénie 2) (photogénique 1))
- 5705 ((photo 468) (photographe 79) (photographiable 1) (photographier 156) (photographique 8)
(photographié 2) (photographie 101))
- 1500 ((réel 9) (réalité 32) (matériel 1) (positif 3) (irréel 1) (réaliser 5) (réaliste 3) (certain 19)
(concret 1) (vrai 76))
- 1456 ((figure 4) (configuration 1) (tête 36) (figurant 2) (figuré 1) (image 99) (personnage 20)
(visage 19))
- 1400 ((image 99) (imagination 8) (figure 4) (imager 2) (imaginable 1) (imaginer 49) (représentation 3)
(tableau 9))
- 1392 ((fin 13) (arrêt 1) (délicat 1) (spirituel 2) (finalement 20) (fignoleur 1) (aboutissement 1)
(chute 1) (conclusion 1) (disparition 1) (habile 3) (ingénieux 1) (intelligent 2) (malin 1)
(terme 9) (finir 29))
- 1359 ((vivre 56) (vie 74) (vivable 1) (vivant 9) (vif 1) (survivance 1) (survivant 1) (survivre 5)
(revivre 3))
- 1338 ((personne 67) (personnalité 4) (personnage 20) (gens 119) (personnellement 1) (personnel 12))
- 1336 ((représentation 3) (portrait 41) (présent 8) (image 99) (représentatif 1) (représenter 13)
(représentant 1) (exhibition 1))
- 1256 ((vie 74) (vitalité 1) (existence 13) (vécu 2) (vivable 1) (vivant 9) (vif 1) (vivre 56))
- Plusieurs des champs ont des intersections, les champs sémantiques ne sont pas étanches entre eux. L'objectif principal de la GTH est de fusionner les champs dont l'intersection est significative. L’essentiel de l'algorithme consiste donc à calculer cette significativité. Tous les champs seront comparés deux à deux. La liste des champs sémantiques (LCS) restera toujours dans l'ordre décroissant du PCS (Poids du Champ Sémantique). On comparera donc toujours un champ (CA) plus lourd à un champ égal ou moins lourd (CB). Chaque champ sera comparé successivement à tous les autres champs. Fixons les termes :
- LCS : liste de tous les champs sémantiques retenus pour la GTH;
- PCS : poids d'un champ sémantique;
- CA : champ le plus lourd des 2 champs comparés;
- CB : champ le moins lourd (ou égal à CA) des 2 champs comparés;
- INTER : intersection entre les 2 champs CA et CB;
- PCS-CA : PCS du champ CA
- PCS-CB : PCS du champ CB
- PCS-INTER : PCS de INTER
- %INTER-CA : pourcentage de PCS-INTER sur PCS-CA;
- %INTER-CB : pourcentage de PCS-INTER sur PCS-CB;
- %MOYENNE : moyenne de %INTER-CA et %INTER-CB;
- %FUSION : pourcentage devant être égalé ou battu pour qu'il y ait fusion. Ce pourcentage est calculé pour le corpus. Pour le corpus des 12p, il a été calculé à 40%. Plus le corpus est volumineux, plus il est élevé. À la limite, si le corpus était égal à l'ensemble de la langue, il aurait 100% de valeur et aucune fusion ne serait permise.
- Les champs sont comparés un à un. Le premier champ sera comparé tour à tour avec chacun des autres champs. Dans cette comparaison, on aura deux variables CA et CB qui vont se nourrir des champs de la LCS. Imaginons un exemple formel simple :
- LCS = (c1 c2 c3 c4), notre liste contient 4 champs.
- Premier tour, CA a le contenu c1 (noté : CA(c1)). On compare CA(c1) à chacun des éléments restants de la LCS (c2 c3 c4). On aura donc trois comparaisons :
- CA(c1) avec CB(c2),
- CA(c1) avec CB(c3) et
- CA(c1) avec CB(c4)
- Deuxième tour, c1 est retiré et on compare CA(c2) à chacun des éléments restants de la LCS (c3 c4). On aura donc deux comparaisons :
- CA(c2) avec CB(c3) et
- CA(c2) avec CB(c4)
- Troisième tour, c2 est retiré et on compare CA(c3) à chacun des éléments restants de la LCS (c4). On aura donc une dernière comparaison :
- La règle de fusion. Examinons la comparaison de 2 champs sémantiques, ceux des lemmes "angoisse" et "douleur". Le champ de "douleur" a un PCS de 1248 (deviendra CA) alors que celui du lemme "angoisse" a un PCS de 592 (deviendra CB).
- CA : (("angoisse" 3) ("détresse" 1) ("angoissant" 1) ("crainte" 1) ("horreur" 6) ("inquiétude" 1) ("peine" 10) ("peur" 27) ("souci" 4) ("souffrance" 41) ("torture" 2) ("trac" 7))
- PCS-CA : 104 * 12 = 1248
- CB : (("douleur" 12) ("détresse" 1) ("analgésique" 4) ("peine" 10) ("souffrance" 41) ("douloureux" 4) ("douloureusement" 1) ("malheur" 1))
- PCS-CB : 74 * 8 = 592
- INTER : (("souffrance" 41) ("peine" 10) ("détresse" 1))
- PCS-INTER : 52 * 3 = 156
- %INTER-CA : 156/1248 = 12.5%
- %INTER-CB : 156/592 = 26.35%
- %MOYENNE : (12.5% + 26.35%) / 2 = 19.45%
- Verdict : fusion rejetée
L'intersection est de 3 éléments (("souffrance" 41) ("peine" 10) ("détresse" 1)). Pour mesurer l'importance relative de cette intersection, on rapporte son PCS (156) au PCS de CA (1248) et au PCS de CB (592), puis on fait la moyenne des deux pourcentages calculés. On obtient ici 19.45%. Par la suite, on compare ce pourcentage de significativité de l'intersection entre les deux champs au pourcentage de fusion (%FUSION) nécessaire pour qu'il y ait fusion.
Si la moyenne de pourcentage observée entre les deux listes est supérieure ou égale à la variable %FUSION calculée d'après le volume textuel, la fusion a lieu. Dans notre exemple, le volume du corpus demande une moyenne de 40% ou plus. Sur cette base des comparaisons des PCS entre les 2 champs, la fusion est donc rejetée puisque 19.45% est inférieur à 40%.
Dans l'exemple suivant, la fusion sera acceptée :
- CA : (("image" 99) ("imagination" 8) ("figure" 4) ("imager" 2) ("imaginable" 1) ("imaginer" 49) ("représentation" 3) ("tableau" 9))
- PCS-CA : 175 * 8 = 1400
- CB : (("imagination" 8) ("créativité" 2) ("image" 99) ("imaginable" 1) ("imaginer" 49))
- PCS-CB : 159 * 5 = 795
- INTER : (("imaginer" 49) ("imaginable" 1) ("image" 99) ("imagination" 8))
- PCS-INTER : 157 * 4 = 628
- %INTER-CA : 628/1400 = 44.86%
- %INTER-CB : 628/795 = 78.99%
- %MOYENNE : (44.86% + 78.99%) / 2 = 61.92%
- Verdict : fusion admise
- S'il n'y a pas de fusion, on compare le CA avec le champ sémantique qui suit le CB dans la LCS; ce champ devient donc le nouveau CB.
S'il y a fusion, la liste fusionnée de CA+CB devient le nouveau CA pour la poursuite des comparaisons du tour courant. Le nouveau CA, fruit de la fusion, est comparé au CB qui suit le CB fusionné. Le CB fusionné est retiré de la LCS.
- À la fin du premier tour, le CA devient un thème de la GTH, qu'il ait fusionné ou pas. Le nom du thème est la tête du CA à laquelle on ajoute th-o ou th-c selon la GTH en construction. Le CA devient un thème à la condition que sa fréquence totale (incluant les fusions) soit égale ou supérieure à une variable fixée par un calcul relatif au volume du corpus. Le CA est retiré de la LCS et donc de toute comparaison subséquente.
Le second tour commence donc avec un CA nourri par le premier CB non retiré par fusion.
Dans notre corpus des 12p et sous la version v2 de Sémato, la GTH-O aura construit 532 thèmes, dont 189 par fusion. La GTH-C aura construit 274 thèmes dont 124 par fusion. La nouvelle sémantique de la version v3 de Sémato
- La règle d’étanchéité. La GTH peut être étanche ou non étanche. La GTH-C est étanche et la GTH-O est non étanche. Dans une GTH non étanche, des thèmes différents peuvent avoir des ingrédients identiques. La GTH-O du corpus des 12p construit 5 thèmes différents contenant l'ingrédient angoisse :
| th-o-angoisse
| 105
| angoissant, angoisse, crainte, détresse, horreur, inquiétude, lâcheté, peine, peur, souci, souffrance, torture, trac
|
| th-o-douleur
| 84
| analgésique, angoisse, détresse, douleur, douloureusement, douloureux, malheur, peine, pénible, souffrance souffrir
|
| th-o-souci
| 21
| angoisse, difficulté, ennui, inquiétude, préoccupation, souci
|
| th-o-horreur
| 14
| angoisse, antipathie, atrocité, aversion, dégoût, horreur horrible
|
| th-o-torture
| 7
| angoisse, supplice, tortionnaire, torture
|
Dans une GTH étanche (la GTH-C en l'occurrence), seul le premier thème contiendra l'ingrédient angoisse.
Voici comment sont organisés les ingrédients de l'angoisse dans la GTH-C :
| th-c-angoisse
| 105
| angoissant, angoisse, crainte, détresse, horreur, inquiétude, lâcheté, peine, peur, souci, souffrance, torture trac
|
| th-c-douleur
| 23
| analgésique, douleur, douloureusement, douloureux, malheur, pénible
|
| th-c-difficulté
| 63
| complication, difficile, difficilement, difficulté, ennui, ennuyer, ennuyeux, gêne, obstacle, problème
|
| th-c-opposition
| 46
| antipathie, conflit, contradiction, contraste, critique, différence, opposé, opposition, refus
|
La règle d’étanchéité est simple : dès qu'un thème est constitué (à la fin d'un tour), tous ses ingrédients sont retirés de tous les champs restant à être examinés. Dans cette comparaison, les lemmes et les synapsies cont considérés comme des ingrédients autonomes de la composition des thèmes. L'ingrédient photo_de_guerre n'est pas considéré comme une instance de l'ingrédient guerre ou de l'ingrédient photo.
Les synapsies dans les GTH
Des thèmes des deux GTH (GTH-C et GTH-O) peuvent contenir des synapsies. D'une première façon, une synapsie peut avoir un champ sémantique. La synapsie premier_ministre, par exemple, a le champ sémantique : (chancelier chef_du_gouvernement grand_vizir premier_ministre premier-ministre).
En second lieu, une synapsie peut rapporter d'autres synapsies à la suite d'un examen des champs sémantiques de ses constituants. On cherchera ainsi des synapsies ayant par leurs champs sémantiques une proximité entre elles. L'algorithme décompose une synapsie en ses constituants et examine les champs sémantiques de ces derniers. L'exemple qui suit est extrait d'un corpus nommé ABASCO (entrevues sur l'ABAndon SCOlaire). La GTH examine une à une toutes les synapsies trouvées au corpus. L'examen de la synapsie manque_d_aide, par exemple, va rapporter les deux champs sémantiques ci-dessous, pour les lemmes manque et aide :
- manque (8 éléments au corpus ABASCO) : (absence, déficience, pénurie, déficit, défaut, rareté, manque, manquer)
- aide (12 éléments au corpus ABASCO) : (appui, assistance, contribution, aide, aider, protection, participation, collaboration, encouragement, coopération, support, soutien)
L'algorithme va combiner deux à deux tous les éléments des deux ensembles : le champ sémantique de absence va être combiné avec chacun des 12 éléments du champ sémantique de aide (absence_d_appui, absence_d_assistance, absence_de_contribution, etc.). Puis ce sera au tour de déficience d'être combiné, et ainsi de suite pour chacun des 8 éléments du champ de manque. On aura ainsi construit une liste de 96 couples (8 * 12). On retiendra de ces couples ceux qui se réalisent dans des synapsies du corpus. Toutes ces synapsies du corpus où se réalise un élément du champ sémantique de manque avec un élément du champ sémantique de aide sont rassemblées en un nouveau thème th-o-manque_d_aide. On aura ainsi trouvé 9 synapsies ayant avec manque_d_aide une proximité sémantique.
| th-o-manque_d_aide
| 44
| manque_d_aide, manque_d_appui, manque_de_soutien, manque_de_support, manque_d_encouragement, absence_de_collaboration, absence_de_soutien, absence_de_support, absence_d_encouragement
|
Au corpus des 12p, la GTH a construit plusieurs thèmes avec ce mécanisme d'association de synapsies dont les constituants appartiennent à de mêmes champs sémantiques. Exemples :
| th-c-photo_de_guerre
| 10
| photo_de_guerre, photographe_de_guerre, photographie_de_guerre, photographier_guerre
|
| th-c-photo_de_mode
| 9
| photo_de_mode, photographe_de_Vogue, photographie_de_mode
|
| th-c-beauté_de_l_image
| 4
| beau_tableau, beauté_de_l_image belle_image
|
| th-c-travail_photographique
| 4
| travail_photographique, travailler_photo, travailler_photographe
|
La technologie linguistique de Sémato est décrite de manière plus complète dans le document suivant : Technologie Linguistique de Sémato.docx
|