| Sémato v3.0 | Projet | Thèmes | Analyses | Sondages | Entretiens | Projet : aucun |
Représentation graphique de la sémantique d'un ensemble de textesCette fonction peut être appelée depuis trois analyses :
Les graphes construits présentent les quatre principaux niveaux de la description linguistique offerte par Sémato : les lemmes, les champs sémantiques, les synapsies et les thèmes. Pour plus d'information sur ces quatre niveaux de description : La technologie linguistique de Sémato. Un champ sémantique rassemble des lemmes apparentés sémantiquement (les lemmes sont les formes génériques des mots, "manger" est le lemme de "mangerions"). Voici par exemple le champ sémantique du lemme apprentissage, dans le projet abasco :
Les synapsies représentent des unités contextuelles fortes. Voici des exemples de synapsies avec le lemme manque : manque de suivi, manque de soutien, manque de valorisation, manque de supervision... Suivez ce lien pour examiner les 68 synapsies trouvées avec le lemme manque dans le projet abasco : Les chiffres dans les noeuds indiquent la fréquence du lemme, ceux sur les liens la fréquence de la relation entre deux lemmes. Par exemple, manque apparaît 18 fois dans le contexte synaptique de soutien (comme dans manque de soutien). Le dernier niveau est celui des thèmes. Il n'est pas obligatoire d'avoir déjà des thèmes pour créer les représentations graphiques. Les thèmes sont obtenus de façon automatique par la fonction GTH (trouvée sur la page des Thèmes de Sémato), ou par vos efforts de construction assistée (avec l'AST ou Assistant Scripteur de Thèmes), ou encore de manière manuelle par des arrimages directs aux phrases ou textes du corpus. Dans cet exemple, nous utilisons les thèmes de la GTH-C. Les noms de ces thèmes commencent par les lettres th-c-. Voici le thème th-c-manque qui est composé de 7 ingrédients et qui se trouve dans 181 phrases des textes réponses aux questions ouvertes d'abasco :
Les thèmes visibles dans la représentation graphique sont assujettis aux filtres positifs et/ou négatifs qui peuvent être définis sous Sémato... Texte... Thèmes... Filtrer. Les graphes vont représenter ensemble les lemmes, les champs sémantiques, les synapsies et les thèmes. L'analyse construit des fichiers graphiques en suivant la norme graphml. Graphml est une norme de représentation universelle des graphiques. Sémato produit les fichiers graphml et vous pouvez dessiner les graphes en utilisant un éditeur compatible graphml. Nous vous recommandons yEd Graph Editor. Suivez ce lien pour en savoir plus sur ce logiciel et vous le procurer gratuitement. Le déploiement de la requêteSous Analyses... Représentation graphique de la sémantique d'un ensemble de textesUne première question permet de restreindre le corpus à une section particulière.
Section de corpus vous permettra avec des questions ultérieures de limiter le graphe aux seuls textes possédant telle ou telle valeur pour une catégorie de projet ou encore aux seuls textes qui réalisent tel ou tel thème. Dans le cas d'un sondage, la séquence : Catégories de projet - Question_ouverte permet de sélectionner des questions ouvertes particulières. Nous poursuivons en demandant une section de corpus sur la catégorie de projet identifiant le genre et par la suite, nous sélectionnons la valeur de catégorie "homme" :
Si vous commandez la requête depuis Sémato Sondage... Réseaux de similitude... puis, dans les résultats des réseaux : Portrait... Représentation graphique de la sémantique du réseau, cette question sur le sous-corpus n'est pas posée, car le Portrait sélectionné est en lui-même un ensemble de contraintes qui construit un sous-corpus (par exemple, l'ensemble des formu (répondants) formant ce réseau). Exemple de commande d'un portrait d'un réseau depuis la page résultat des réseaux de similitude. La question indique aussi qu'une section de corpus permettra le calcul de dominance. Nous décrirons ci-dessous cette fonctionnalité. Vous pouvez donc demander la construction du graphe pour tout le corpus ou pour une section de celui-ci. Une différence est importante entre cette contrainte sur la constitution même du graphe (le graphe représente-t-il tout le corpus ou une section de celui-ci), et une autre contrainte que nous examinerons maintenant et qui elle, porte sur la partie visible de la représentation visuelle du graphe. Les graphes sémantiques sont habituellement trop volumineux pour pouvoir être visualisés dans leur entièreté. Voici, par exemple, la représentation visuelle du graphe de tout le corpus d'abasco qui reste pourtant un petit projet : ![]() Version graphml du graphe entier abasco (pour ouverture avec yEd) Version PDF du graphe entier abasco Même avec un zoom, il est difficile de trouver les liens pertinents. Le réseau contient 1146 noeuds et 2428 liens. Il est quasi impossible de représenter intelligemment cette complexité. On peut réduire le graphe en exigeant une fréquence minimale pour les vocables (lemmes, liens de synapsies et thèmes) qui formeront le graphe. Sémato pose une question à cet effet :
Le temps requis pour construire les graphes peut être long en fonction de la grosseur du corpus. Cette réduction par la fréquence minimale est la stratégie la plus efficace pour réduire ce temps de construction. Le corpus étant petit, il n'est pas nécessaire de le réduire par la fréquence. On peut aussi réduire la partie visible du graphe à l'aide d'un algorithme qui ne montre que les noeuds les plus denses du réseau. Sémato poursuit la requête par une demande de spécification pour cet algorithme de densité :
Un noeud dense est un candidat intéressant à être présenté dans la partie visible du graphe. Si on fait Poursuivre sans sélectionner un maximum de noeuds denses, cela revient à obtenir la représentation visuelle totale du graphe. On choisit un maximum de 40 noeuds. Par la suite, puisque nous avons spécifié une section de corpus, Sémato demande le type de traitement de dominance (nous expliquerons ci-dessous) :
et nous obtenons finalement la page de résultats :
Trois fichiers peuvent être téléchargés sur votre ordinateur. La représentation graphique est au fichier graphML. Dans la représentation graphique, les liens en noir représentent les relations d'appartenance au même champ sémantique. Les liens en rouge marquent les relations synaptiques. Ils contiennent un chiffre qui indique le nombre de fois où les deux lemmes unis sont en relation de synapsie. Les liens en vert relient les thèmes et leurs lemmes ingrédients. Les éléments dominants apparaissent dans des formes arrondies et les fréquences des synapsies dominantes sur un fond turquoise (plutôt que blanc). Suivez ce lien pour examiner la représentation graphique des 40 noeuds les plus denses des textes écrits par les répondants hommes. Version graphml du graphe des répondants hommes (pour ouverture avec le logiciel yEd) La densité d'un noeud dans le réseau est fonction de sa fréquence et du nombre de relations qu'il a avec les autres noeuds. À la fin du calcul, on veut retrouver tous les noeuds ordonnés selon leur densité. La densité d'un noeud est la quantité de points qu'il gagne dans le réseau. Plus précisément, voici l'algorithme de calcul des points de densité. Un noeud contient soit un lemme, soit un thème. Un noeud est représenté avec sa fréquence dans la section de corpus ou au corpus entier s'il n'y avait pas de section définie. On distingue entre les noeuds trois types de relation :
Dans l'algorithme de densité, la fréquence peut être phrastique ou textuelle. Phrastique signifie le nombre de phrases qui contiennent le noeud et textuel, le nombre de textes. On rappelle que dans un Sémato sondage, chaque réponse à une question ouverte est un texte. On peut changer le type de fréquence sous Projet... Options. L'algorithme de densité permet de réduire le graphe aux noeuds les plus denses du réseau en termes de points gagnés par leurs relations et leur fréquence, pour un maximum de noeuds que vous choisissez. Sémato vous offre entre 20, 40, 60, 80, 100, 200 ou 400 noeuds. Il faut comprendre que 20 noeuds signifie que le graphe montrera les 20 noeuds les plus denses, 40 noeuds, les 40 noeuds les plus denses... Un maximum de 40 est recommandé pour conserver une lecture facile du graphe. À la limite, si le nombre maximum de noeuds programmé est égal au nombre de noeuds du graphe entier, tout se passe comme si aucun algorithme n'était appliqué. Deux fichiers tableursOn peut voir la distribution des points de densité au fichier appelé Fichier tableur des noeuds accessible à la page de résultats. Vous téléchargez ce fichier sur votre ordinateur et l'ouvrez avec un logiciel tableur (tel Excel par exemple) en indiquant que les colonnes sont séparées par des tabulations et que l'encodage est Windows Ansi. Extrait :
Tableur des noeuds (Excel) complet La première colonne donne le rang de densité obtenu par chacun des 658 noeuds du graphe des répondants hommes (notre section de corpus). La partie visible dans notre exemple de requête contiendra donc les 40 premiers noeuds de cette colonne, soit les 40 noeuds ayant obtenu le plus de points de densité. La colonne B présente chacun des noeuds muni de sa fréquence (à la section de corpus). La colonne C donne le nombre de points donnés à chaque noeud par l'algorithme de densité. La colonne D calcule ce pointage relativement au total de tous les points des 658 noeuds. Le total de la colonne C est donc égal à 100. Sémato exprimera certains pourcentages très petits avec la méthode des exposants. Dans cette représentation des nombres, il faut reculer la décimale avec autant d'emplacements que l'exposant l'indique. Par exemple, 9.2734274e-4 est égal à 0.00092734274; on a reculé le point de 4 emplacements. Notez qu'Excel fait cette conversion automatiquement. La prochaine section explique la dernière colonne sur la dominance dans la section de corpus. Indiquons déjà que la valeur 1 signifie que le noeud est dominant dans la section de corpus et la valeur 0 indique qu'il ne l'est pas. Un autre fichier de la page de résultats permet de voir les fréquences des synapsies : Fichier tableur des synapsies. Vous téléchargez ce fichier sur votre ordinateur et l'ouvrez avec un logiciel tableur (tel Excel par exemple, mêmes paramètres que pour le fichier des noeuds). Extrait (la table complète contient 476 synapsies) :
Tableur des synapsies (Excel) complet Les synapsies sont présentées par ordre de fréquence descendante. Le tableur indique à la dernière colonne si la synapsie est dominante (1) ou pas (0) dans la section de corpus. Graphes sur section de corpus : le calcul de dominancePar la seconde question de la requête, l'analyse propose de limiter le graphe à une section de corpus. Dans notre exemple, nous avons restreint le corpus aux répondants hommes.Lorsqu'un graphe est commandé sur une section de corpus, il peut être intéressant de savoir si une synapsie ou un noeud (lemme ou thème) est relativement plus fréquent dans la section de corpus programmée que dans le reste du corpus. Sémato compare la fréquence que l'élément (noeud ou synapsie) possède dans la section, à celle qu'il possède dans le reste du corpus. Cette comparaison est pondérée par le poids relatif de la section par rapport au reste du corpus. Examinons le tableau :
Dans notre exemple, nous avons utilisé les fréquences phrastiques plutôt que textuelles. Au total, la section du corpus contient 192 phrases alors que l'ensemble du corpus en contient 520. Les hommes (notre section de corpus) ont donc produit près de 37 % (0.369230769) des phrases du corpus. Pour savoir si un lemme particulier est dominant, c'est-à-dire relativement plus fréquent dans la section que dans le corpus, on comparera le rapport entre sa fréquence dans la section et celle qu'il a au corpus. Ainsi "manque", par exemple avec son rapport de 34% n'est pas dominant (34% est plus petit que 37%). Par défaut, le calcul de dominance est pondéré. On peut inhiber cette pondération par une option sous Projet... Options. Lorsque la pondération est inhibée, la fréquence d'un élément est dite dominante si elle est simplement plus élevée dans la section que dans le reste du corpus. Son rapport doit donc battre 50%. Sémato indique dans la page de résultats le pourcentage global de dominance pour les noeuds et pour les synapsies. Pour les noeuds, par exemple, 438 sont dominants (valeur 1), ce qui correspond à 38.15% de tous les noeuds du corpus. Tout le monde ayant répondu à cette question sur le genre, on peut déduire dans cet exemple que la dominance est binaire. Ce qui n'est pas dominant chez les hommes l'est chez les femmes. Cela est vrai, dans une comparaison noeud par noeud. Si "manque" n'est pas dominant chez les hommes, il l'est chez les femmes. On fera toutefois attention à la comparaison des pourcentages totaux de dominance. Le 38.15% de dominance des 658 noeuds chez les hommes ne veut pas dire que les femmes ont obtenu le parfait complément de ce pourcentage, même si la variable genre est (ici) binaire. Dans les faits, si on refait la même requête, mais en choisissant les femmes, le pourcentage total de dominance trouvé est de 57.67%. Le total des deux pourcentages donne 95.82%. Le manque à gagner vient de ce que des noeuds ont la même fréquence dans les deux sections du corpus (celle des hommes et celle des femmes), ne donnant ainsi aucun point de dominance à l'une ou l'autre des deux parties. Au niveau visuel, dans les graphes, les noeuds dominants sont présentés dans des formes arrondies (ellipse ou cercle) alors que les noeuds dominés sont présentés dans des rectangles. Les fréquences des synapsies sont présentées avec un fond turquoise lorsqu'elles sont dominantes et avec un fond blanc, lorsqu'elles ne le sont pas. La dernière question de la requête permet 1) de ne pas tenir compte du calcul de dominance, 2) de tenir compte du calcul de dominance et de présenter les deux types de formes ou enfin, 3), de tenir compte du calcul de dominance pondérée et de n'afficher que les noeuds dominants; on pourra, avec ce mode, demander éventuellement plus de noeuds visibles. Options liées à la construction des graphesDes options permettent de piloter d'autres aspects de l'obtention des graphes. Ces options sont accessibles sous Projet... Options :
|