Les réseaux de similitude sont commandés à la suite de l'obtention d'une matrice (Générateur de matrices). Toutes les matrices obtenues par le générateur de matrice peuvent être analysées par les réseaux de similitude.
Les réseaux de similitude mesurent la ressemblance entre les colonnes d'une matrice. Les réseaux de similitude utilisent les rangées de cette matrice comme des comparateurs. L'algorithme va organiser en réseaux les couples de colonnes en fonction de la ressemblance qu'elles obtiennent de la part des rangées.
Nous avons construit un corpus rassemblant 12 courts textes. Ce petit corpus nous permettra de suivre exhaustivement toutes les étapes de l'algorithme des réseaux de similitude.
Les 12 textes ont pour origine :
un article sur le médicament Ritalin,
une allocution de Lucien Bouchard (ex-premier ministre du Québec),
un article sur l'huile d'olive et
un éditorial sur la montée du dollar canadien.
De chacun de ces 4 ouvrages, nous avons extrait 3 paragraphes de longueur semblable. Nous avons ainsi un corpus constitué de 12 textes :
ritalin-1, ritalin-2 et ritalin3;
bouchard-1, bouchard-2 et bouchard-3;
huile-1, huile-2 et huile-3;
dollar-1, dollar-2 et dollar-3.
Puisque, par groupe de 3, les textes ont la même origine, nous espérons que les réseaux de similitude vont réussir à retrouver cette origine (huile, ritalin, bouchard et dollar).
Chacun des textes a reçu 3 catégories de projet :
une catégorie origine, dont les valeurs sont : ritalin, bouchard, huile et dollar;
une catégorie genre dont les valeurs sont : article, allocution et éditorial;
une catégorie document dont les valeurs sont : ritalin-1, ritalin-2, ritalin-3, bouchard-1, bouchard-2, bouchard-3, huile-1, huile-2, huile-3, dollar-1, dollar-2 et dollar-3.
Nous appelons rsdemo ce petit projet Sémato. Voici le corpus en format tableur ou en format linéaire. Examinez rapidement ce corpus dans le format qui vous est le plus familier pour mieux comprendre la suite de la présentation. Vous pouvez aussi ouvrir un projet sur la base de ce corpus et effectuer pas à pas toutes les étapes de la production des réseaux de cette présentation.
2. La production d'une matrice
Une compréhension minimale du générateur de matrices de Sémato est nécessaire à celle des réseaux de similitude. Nous utilisons toutefois des matrices élémentaires pour la présentation des réseaux. Gardez à l'esprit que toutes les matrices produites par le générateur peuvent être analysées par l'algorithme des réseaux de similitude, à l'exception des matrices pondérées, l'algorithme des réseaux de similitude possédant son propre paramètre de pondération.
Pour construire une matrice, on doit exécuter un script. La commande est sous Analyses -- Générateur de matrices -- Saisie des scripts de génération de matrices.
Un script contient l'ensemble des fonctions nécessaires à la production d'une matrice et de ses réseaux de similitude. Un script commence et se termine par une parenthèse. À l'intérieur de cette liste, chaque fonction est elle-même une liste (aussi identifiée par des parenthèses) dont le premier élément est le nom de la fonction et les autres éléments la ou les valeurs de son ou de ses arguments. Exemple :
Nous désirons ici produire une matrice dont les rangées sont les lemmes du corpus et les colonnes, les valeurs de la catégorie de projet document et commander les réseaux de similitude en analyse sur cette matrice.
Construisons cette matrice. Exécuter le script ouvre la fenêtre dans laquelle nous écrivons le script.
Les FM : rangée, colonne, cooccurrence, condition, projection, fréquence-minimum, intervalle-centiles, période-rangée, période-colonne, matrice-avec-null, construire-concordance, matrice-voir-textes, analyse.
Les VM : notxt, nophr, nopha, catgram, lexème, lemme, lemsem, synap1, synap2, thème, concordance, fréquence, décade, document, genre, origine.
Entrez ci-dessous le script d'une matrice ou la fonction multi-matrices et ses scripts comme arguments.
Voilà tout ce qu'il faut faire pour obtenir les réseaux de similitude entre les documents de rsdemo sur la base d'une comparaison des lemmes. La page des résultats est présentée ci-dessous. Vous pouvez l'examiner brièvement mais revenez ici pour comprendre l'algorithme.
3. L'algorithme des réseaux de similitude
Étape 1 - La construction d'une liste des unités comparées avec leur degré de similitude
Étape 2 - La construction séquentielle des réseaux de similitude entre les unités comparées
La construction des réseaux de similitude repose sur la matrice construite par le générateur de matrices. La table ci-dessous présente les premières rangées de cette matrice.
La matrice est triée par défaut dans l'ordre alphabétique de la première colonne. Nous l'avons triée ici par l'ordre numérique descendant de la colonne Fréquence qui rapporte dans cette matrice la fréquence totale des lemmes au corpus. Les colonnes Fréquence et Gain de similitude (nous reviendrons sur cette colonne) sont ajoutées par l'algorithme des réseaux de similitude. La matrice obtenue sans la construction des réseaux ne les contiendrait pas. Pour cette raison, le nom du fichier matriciel contient les lettres matrice-réseaux.
4. Première étape - La construction d'une liste des unités comparées avec leurs gains de similitude
Le calcul de similitude
Pour les réseaux de similitude, les colonnes de la matrice (les 12 documents dans notre exemple) sont les unités comparées et les rangées (les lemmes dans notre exemple) sont les comparateurs. Si vous désirez obtenir l'inverse (les lemmes en colonnes et les documents en rangées), vous n'avez qu'à commander une matrice en conséquence.
La matrice nous montre que le comparateur méditerranéen apparaît 12 fois, 5 fois au document huile-1, 4 fois au document huile-2 et 3 fois au document huile-3.
Les réseaux de similitude cherchent la ressemblance entre les couples d'unités comparées, dans notre exemple : la ressemblance entre les valeurs de la catégorie de projet : document. Les réseaux de similitude vont calculer la ressemblance entre chaque couple de documents. Pour ce faire, on devra commencer par examiner la ressemblance que procure chaque comparateur à chaque couple de documents.
Chaque comparateur donne à chaque couple la plus petite des deux fréquences que les membres du couple réalisent. Le principe de similitude est simple : deux unités comparées se ressemblent sur la base de la fréquence minimum du comparateur qu'ils ont en commun, on appellera ce minimum leur gain en similitude. Ainsi, le couple huile-1 huile-2, dont les deux membres réalisent respectivement 5 et 4 occurrences du comparateur méditerranéen, reçoit 4 points de similitude de cette comparaison. Le couple huile-1 huile-3 reçoit 3 points et le couple huile-2 huile-3 reçoit aussi 3 points. Le comparateur méditerranéen ne donne pas de points à d'autres documents (que des 0 dans les autres cellules de la rangée). Si la plus petite des deux valeurs est 0, le couple ne reçoit aucun point du comparateur. Au total, le comparateur méditerranéen aura donné 10 points de gain en similitude (4 + 3 + 3). Ce total se retrouve dans la dernière colonne (Gain de similitude) et on expliquera ci-dessous l'apport de cette colonne au calcul global de similitude.
L'algorithme rassemble par la suite, pour chaque couple (il y en a 55 dans notre petit corpus), tous les points donnés par les comparateurs. Par exemple, le couple huite-1 huile-3 obtient 16 points de la part de 12 comparateurs (somme de la colonne minimum) :
Comparateur
huile-1
huile-3
minimum
régime
4
3
3
méditerranéen
5
3
3
Willett
1
1
1
pyramide
1
2
1
professeur
2
1
1
présenter
1
1
1
nutrition
1
1
1
montrer
1
1
1
étude
2
1
1
année
1
1
1
alimentation
2
1
1
alimentaire
1
1
1
L'algorithme des réseaux de similitude construit ainsi une liste de tous les couples avec pour chacun le total des points de similitude que leur auront donné les comparateurs. Voici le début de cette liste pour notre exemple (la liste complète contient 55 couples) :
Unité-1
Unité-2
Gain en similitude
huile-1
huile-3
16
huile-1
huile-2
13
huile-2
huile-3
11
dollar-1
dollar-3
10
bouchard-1
bouchard-3
9
ritalin-2
ritalin-3
6
dollar-1
dollar-2
6
bouchard-1
bouchard-2
6
ritalin-1
ritalin-2
5
dollar-3
huile-1
5
dollar-2
dollar-3
5
bouchard-2
bouchard-3
5
bouchard-2
dollar-2
4
dollar-2
ritalin-3
4
ritalin-1
ritalin-3
4
bouchard-1
dollar-2
3
Cette liste ordonnée des couples d'unités comparées munis de leur gain en similitude alimentera la séquence de construction des réseaux de similitude.
5. Seconde étape - La construction séquentielle des réseaux de similitude
L'ensemble de couples et de valeurs peut être représenté comme un réseau, un ensemble de noeuds et de liens. Dans notre exemple, chaque valeur de la catégorie de projet document est un noeud et les noeuds sont liés entre eux par des liens qui ont comme valeur le résultat du calcul de similitude expliqué ci-dessus et qui relie, par exemple, les deux noeuds huile-1 et huile-3 par la valeur 16. Voici le graphe de l'ensemble des 12 valeurs de la catégorie document reliées par les points de similitude trouvés à l'étape #1 :
Comment peut-on isoler dans ce graphe les relations de ressemblance les plus fortes ? Globalement, c'est à cette question que tente de répondre l'algorithme des réseaux de similitude. Dans le réseau total, toutes les relations de similitude sont exprimées. Le réseau qui montre tous les liens entre tous les noeuds contient des relations de similitude fortes et des relations de similitude faibles. Chacun des documents du réseau total ressemble minimalement à un autre document, mais dans ce groupe de 12 textes, certains se ressemblent plus que d'autres. Peut-on trouver le seuil de ressemblance en deçà duquel deux unités comparées se dissemblent relativement plus qu'elles ne se ressemblent ? Quand on aura trouvé ce seuil, on pourra retirer les relations dont la valeur est en deçà et le graphique des réseaux ne conservera alors que les liens de ressemblance les plus significatifs. C'est ce que l'on cherche. On cherche la configuration des réseaux construits par les liens de similitude les plus forts. C'est ce qu'on appelle la configuration focus, suivant la métaphore de l'image la plus nette, de l'image nettoyée des relations faibles. La configuration focus montre le maximum de proximité dans chaque réseau pour un maximum de réseaux différents.
La configuration focus est un point de bascule, un seuil en quelque sorte. Il n'y a pas toujours de configuration focus. Cela dépend du groupe d'objets comparés et de la base de la comparaison. Nous verrons ci-dessous l'ensemble des conditions formelles requises.
Les réseaux de similitude se construisent par une séquence d'inscriptions. Une inscription est composée d'un couple d'unités comparées muni de son gain de similitude. Les inscriptions sont ordonnées par gain de similitude décroissant.
Le résultat consiste en une table où chaque rangée correspond à un couple d'unités comparées. Il y aura autant d'inscriptions dans cette table que de couples ayant reçu un degré de similitude non nul dans la liste construite à l'étape #1 (55 couples). La séquence d'inscription suit l'ordre descendant des gains de similitude.
Vous trouverez ci-dessous la page de résultats de la construction de la matrice suivie des réseaux de similitude. Cette page est le résultat global des réseaux de similitude. Elle donne accès à la matrice construite et présente l'ensemble des inscriptions. Elle informe s'il y a eu configuration focus ou non. Dans l'affirmative, un lien vous y mène directement. Examinez rapidement cette page avant de poursuivre...
Construction des réseaux de similitude sur cette matrice
L'option relativisation (sur 100) des fréquences des comparateurs est désactivée. L'option retrait progressif des comparateurs les moins discriminants est désactivée.
Nombre de comparateurs retenus pour les réseaux = 514
La fonction (analyse rs) signifie que la construction de la matrice sera suivie de l'analyse en réseaux de similitude. La valeur 3 pour action-comparateurs indique qu'aucune action n'a été programmée (la valeur 1 aurait ordonné la relativisation (sur 100) des fréquences des comparateurs et la valeur 2 le retrait progressif des comparateurs les moins discriminants. On peut lire cette page pour plus d'information sur le mode script.
Chaque expérience de construction de matrice porte un numéro. Dans notre exemple, c'est le G0196576521. Ce numéro servira à nommer des fichiers associés. Par exemple, le premier fichier accessible est celui qui contient la matrice. Dans notre exemple : G0196576521-matrice-réseaux.txt. Nous examinerons ces fichiers plus loin ci-dessous.
Résumons les éléments de définition nécessaires à la compréhension de l'algorithme des réseaux de similitude :
Noeuds : les unités comparées par l'analyse en réseaux de similitude; dans notre exemple, ce sont les 12 unités textuelles identifiées par la catégorie document. Les noeuds correspondent aux noms des colonnes de la matrice d'origine.
Liens : les liens relient les noeuds en portant pour chaque couple le nombre de points de similitude accordés par les comparateurs (les noms des rangées de la matrice d'origine).
Réseau : ensemble de noeuds reliés par des liens. Deux noeuds unis par un lien forment déjà un réseau.
Inscription : ajout dans l'espace de calcul d'un couple de noeuds avec son lien. L'inscription a un numéro. La première inscription a le numéro 1. Les numéros d'inscription sont soulignés. Ce sont des liens. Chaque lien d'inscription commande la construction de la table des comparateurs ayant octroyé les points de similitude au couple de l'inscription.
Gain : dans la table de résultat, nom de la colonne où on retrouve la valeur de chaque nouvelle inscription. Le gain est la somme des points donnés par les comparateurs au couple inscrit.
Liste des inscriptions : liste de tous les couples possibles d'unités comparées; cette liste est ordonnée par le gain descendant de similitude.
Poids d'un réseau : mesure de densité d'un réseau : somme des liens divisée par le nombre de noeuds.
Configuration des réseaux : l'ensemble des réseaux correspondant à chaque inscription.
Poids de la configuration : mesure de densité de la configuration des réseaux : somme des poids des réseaux multipliée par le nombre de réseaux.
Nombre de réseaux : nombre de réseaux constitués au moment de chacune des inscriptions.
Nombre d'inscrits : nombre de noeuds à chacune des inscriptions. Ce nombre n'augmente pas si l'inscription est un nouveau lien entre deux noeuds déjà présents.
Configuration focus : configuration de réseaux contenant minimalement 2 réseaux et correspondant au plus haut poids de configuration obtenu dans la séquence des inscriptions.
Courbe de la configuration focus : ensemble des données permettant de calculer la configuration focus.
Examinons la première inscription de la séquence :
Numéro de l'inscription et lien sur les comparateurs
Colonne #1 : Numéro de l'inscription dans la séquence. Ce numéro est aussi un lien qui commande la construction de la table des comparateurs responsables du gain obtenu par le couple inscrit.
Colonne #2 : Inscription; nouveau couple inscrit, il n'y a qu'un couple par inscription.
Colonne #3 : Gain : gain de similitude du couple inscrit. Il s'agit du gain de similitude obtenu à l'étape 1.
Colonne #4 : Configuration des réseaux. Dans cette sous-table, il y a autant de rangées que de réseaux construits au moment de cette inscription. Pour chaque rangée :
Réseau : liste des unités ou noeuds du réseau.
Poids du réseau (en détail ci-dessous).
Colonne #5 : Poids de la configuration (en détail ci-dessous).
Colonne #6 : Nombre de réseaux : nombre de réseaux distincts au moment de cette inscription.
Colonne #7 : Nombre d'inscrits : nombre d'unités comparées (les documents dans notre exemple) et nombre total possible (12 documents dans notre exemple).
La première inscription concerne le couple huile-1 et huile-3, ce couple est celui qui a gagné le plus de points de similitude (16 points). À cette étape, les autres unités comparées ne sont pas encore inscrites aux réseaux de similitude. Nous n'avons ici qu'un seul réseau : deux noeuds reliés par un lien.
Un réseau a un poids. Le poids du réseau est la somme de toutes les valeurs trouvées sur les liens du réseau, somme divisée par le nombre de noeuds du réseau. Notre premier réseau a deux noeuds et un lien dont la valeur est de 16, le poids de ce réseau est donc de (16 / 2) = 8. Le poids du réseau est une mesure de la similitude globale interne des membres (noeuds) du réseau.
Il peut y avoir plus d'un réseau qui coexiste à une étape donnée. Nous appelons configuration l'ensemble des réseaux à une étape donnée de la succession des inscriptions. Le poids d'une configuration est la somme des poids des réseaux trouvés à cette étape, multipliée par le nombre de réseaux. À cette étape-ci, puisqu'il n'y a qu'un réseau inscrit à la configuration, le poids de celle-ci est identique à celui de son réseau. L'évolution du poids de la configuration est une donnée qui permettra de déterminer l'existence ou pas d'une configuration focus. Nous y reviendrons.
Ce couple (huile-1, huile-3) constitue le premier réseau de la configuration. Une seconde inscription vient ajouter un noeud au premier réseau (huile-1, huile-2 pour un gain de 13) :
Numéro de l'inscription et lien sur les comparateurs
À la seconde inscription, il n'y a toujours qu'un seul réseau à la configuration. Il a pris du poids. Le poids du réseau est = 9.67 = ((16 + 13) / 3) ; la somme des valeurs des gains divisée par le nombre de noeuds (3). Le poids de la configuration est égal à celui de son unique réseau. Il variera lorsqu'un second réseau s'installera.
La troisième inscription viendra fermer le premier réseau: (huile-2, huile-3) avec un gain de similitude de 11. Le poids de la configuration augmente à 13.33 :
Numéro de l'inscription et lien sur les comparateurs
Le poids de la configuration est maintenant de 36.67. L'ajout d'un réseau est toujours bénéfique pour l'augmentation du poids de la configuration. En effet, le poids de la configuration est la somme des poids des réseaux multipliée par le nombre de réseaux. À l'inverse, lorsque 2 réseaux qui étaient disjoints se retrouvent liés lors d'une nouvelle inscription, le poids de la configuration chute. Voici les inscriptions #5, #6 et #7 :
Numéro de l'inscription et lien sur les comparateurs
Nous avons maintenant 4 réseaux distincts et le poids de la configuration augmentera maintenant jusqu'à l'inscription #9 grâce au resserrement interne de ces 4 réseaux. Et voici l'inscription #9 qui se verra allouer le poids le plus élevé de la construction des réseaux : 109.33. Elle sera déclarée configuration focus :
Numéro de l'inscription et lien sur les comparateurs
À l'inscription suivante (#10), deux réseaux vont se fondre (par la liaison entre dollar-3 et huile-1) et, par la suite, le poids de la configuration ne sera jamais aussi élevé :
Numéro de l'inscription et lien sur les comparateurs
Suivez ce lien pour examiner une représentation graphique des 10 premières inscriptions, suivies de la dernière inscription : #55.
Et suivez celui-ci pour examiner la courbe d'évolution du poids de la configuration au fil des inscriptions.
Nous appelons configuration focus la configuration ayant le poids le plus élevé et regroupant au minimum deux réseaux.
La configuration focus correspond au plus haut pouvoir séparateur de l'algorithme des réseaux de similitude. La configuration focus représente la partition la plus significative du réseau global des relations de ressemblance.
Dans notre exemple, les réseaux ont bien classé les 12 textes du corpus dans leur catégorie d'origine. On remarque toutefois une différence au niveau des poids des 4 réseaux. Le réseau sur l'huile est de loin le plus lourd (13.33) près de 4 fois plus lourd que celui du ritalin (3.67).
6. Les fichiers tableurs et graphiques reliés aux résultats des réseaux de similitude
À la fin de la page de résultats des réseaux de similitude, des liens sont donnés sur des fichiers que les réseaux de similitude ont déposés dans le dossier SORTIES de votre dossier projet. Les trois premiers fichiers peuvent être ouverts par un chiffrier (tel Excel) en mode texte avec tabulateurs. Dans les fichiers tableurs, Sémato représente les décimales avec un point, exemple 5.67 ; il se peut que votre tableur (Excel par exemple) préfère les virgules. Vous devrez alors remplacer tous les points de ces fichiers par des virgules ou encore, changer l'option liée à la représentation des décimales dans les préférences d'Excel.
Fichier texte #1 - Les données pour la construction de la courbe liée à la configuration des réseaux
Un fichier tableur contient toutes les données requises pour construire la courbe de la progression des poids de configurations. Nous avons examiné cette courbe et les données requises ci-dessus.
Fichier texte #2 - Les gains en similitude des différentes unités
À la fin des inscriptions, lorsque tous les noeuds ont reçu toutes les relations qui les unissent, il peut être intéressant de calculer pour un noeud donné le total de ses gains c'est-à-dire le total des valeurs trouvées sur tous les liens qui le touchent. Ce résultat est remis sur 100 et présenté sous forme de table :
Unité
Gain absolu
Gain relatif
huile-1
44
13.02
huile-3
38
11.24
dollar-3
30
8.88
bouchard-3
29
8.58
huile-2
29
8.58
dollar-2
29
8.58
ritalin-3
27
7.98
bouchard-2
26
7.69
bouchard-1
25
7.40
ritalin-2
24
7.10
dollar-1
24
7.10
ritalin-1
13
3.85
Total :
338
100
On voit que c'est le document huile-1 qui reçoit le plus de points de similitude.
Deux fichiers graphiques sont construits par les réseaux de similitude. Ces fichiers en format GraphMl peuvent être ouverts avec le logiciel yEd (gratuit).
Fichier graphml #1 - configuration focus
Ce fichier permet de dessiner la configuration focus des réseaux. Nous l'avons présenté ci-dessus.
L'analyse discriminante des comparateurs permet de forcer l'émergence d'une configuration focus. Les cas de réseaux de similitude sans configuration focus sont habituellement causés par des comparateurs très fréquents répartis dans plusieurs des unités comparées. Nous avons développé deux algorithmes dont l'objectif est de contrer les effets de ces comparateurs faiblement discriminants, qui nuisent à la création de réseaux distincts.
Le premier algorithme agit en relativisant la fréquence des comparateurs alors que le second agit en éliminant les comparateurs les moins discriminants.
Une fonction matricielle, rs-action-comparateurs, permet d'activer l'un ou l'autre de ces deux algorithmes, on aura les scripts :
((rangée lemme) (colonne document) (analyse rs) (rs-action-comparateurs 1)) 1 = relativisation de la fréquence des comparateurs
8. La relativisation des fréquences des comparateurs
La relativisation consiste à donner à chaque comparateur la même importance; chaque comparateur a 100 points à donner. Sans relativisation, le comparateur méditerranéen a 12 points à donner (5, 4 et 3 pour les 3 textes sur l'huile), alors que le comparateur ministre, par exemple, n'a que 6 points à donner. Avec la relativisation ils ont tous les deux 100 points à distribuer, ils acquièrent ainsi la même importance :
lemme/document
Fréquence
ritalin-1
ritalin-2
ritalin-3
bouchard-1
bouchard-2
bouchard-3
huile-1
huile-2
huile-3
dollar-1
dollar-2
dollar-3
méditerranéen
12
0
0
0
0
0
0
41.67
33.33
25
0
0
0
régime
9
0
0
0
0
0
0
44.44
22.22
33.33
0
0
0
premier
8
0
12.5
0
50
12.5
25
0
0
0
0
0
0
Québec
7
0
0
0
28.57
28.57
42.86
0
0
0
0
0
0
ministre
6
0
0
0
66.67
16.67
16.67
0
0
0
0
0
0
taux
5
0
0
0
0
0
0
20
0
0
0
0
80
La relativisation des fréquences permet d'augmenter la ressemblance entre deux unités qui partagent des comparateurs rares et de réduire l'importance des comparateurs très fréquents. C'est donc une forme de discrimination favorable aux comparateurs moins fréquents. Cela peut permettre l'émergence d'une configuration focus. Si une expérience sans relativisation et une autre avec relativisation donnent toutes les deux une configuration focus, la configuration focus qui a le plus haut poids est à privilégier.
9. Le retrait progressif des comparateurs les moins discriminants
Le second algorithme est appelé lorsqu'aucune configuration focus n'a été trouvée.
Notre petit projet rsdemo ne permet pas de démontrer l'algorithme de discrimination par retrait progressif des comparateurs. Nous utiliserons plutôt le projet des photographes. Il s'agit d'un corpus de 12 entrevues. Vous trouverez ici la description de ce projet de démonstration.
Nous appliquons les réseaux de similitude sur un ensemble de 20 thèmes qui agiront à titre de comparateurs. Voici ces 20 thèmes :
Attention : les liens ne sont pas fonctionnels sur cette représentation de la table des thèmes.
Chacune des 12 entrevues a reçu une catégorie document dont la valeur est le nom du photographe interviewé.
Nous commandons une matrice :
((rangée thème) (colonne document) (projet photographes))
On désire donc comparer entre eux les colonnes, c'est-à-dire les documents (12 documents, 1 par photographe) selon les thèmes qu'on y trouve.
Nous désirons savoir si des réseaux de similitude peuvent se former entre les photographes selon les thèmes retenus.
Dans un premier temps, nous demandons des réseaux de similitude sans action sur les comparateurs.
Aucune configuration focus ne sera trouvée. Page des résultats :
Construction des réseaux de similitude sur cette matrice
L'option relativisation (sur 100) des fréquences des comparateurs est désactivée. L'option retrait progressif des comparateurs les moins discriminants est désactivée.
Nombre de comparateurs retenus pour les réseaux = 20
Aucune configuration focus
Les fichiers associés aux réseaux sont accessibles au bas de cette page.
Numéro de l'inscription et lien sur les comparateurs
Construction des réseaux de similitude sur cette matrice
L'option relativisation (sur 100) des fréquences des comparateurs est désactivée. L'option retrait progressif des comparateurs les moins discriminants est activée.
Nombre de comparateurs avant réduction par l'algorithme sur les comparateurs les moins discriminants = 20 Nombre de comparateurs après réduction par l'algorithme sur les comparateurs les moins discriminants = 9 Plus haut gain de similitude admis = ≤ 246
L'algorithme de retrait progressif des comparateurs les moins discriminants s'applique sur la matrice de base construite dans un premier temps par le générateur de matrices. Ouvrons cette matrice que nous avons au préalable triée par les valeurs descendantes de la dernière colonne (Gain de similitude) :
thème/document
Fréquence
boubat
doisneau
giacomelli
hamaya
koudelka
mccullin
moon
newton
riboud
rubinstein
sieff
witkin
Gain de similitude
th-photos
818
77
67
49
41
77
60
61
80
102
82
56
66
3864
th-période
242
29
22
27
11
35
11
10
24
30
17
18
8
977
th-personne
203
17
15
7
12
28
17
3
14
16
29
25
20
815
th-travail
165
9
18
11
8
28
9
15
12
9
7
13
26
658
th-sentiment
161
6
13
16
8
7
16
16
7
30
30
8
4
566
th-vie
157
9
14
25
10
25
16
2
8
9
3
12
24
556
th-beauté
155
18
14
13
3
5
16
8
18
15
2
9
34
534
th-regard
125
13
8
18
2
21
7
7
7
7
13
10
12
489
th-vérité
117
6
11
13
3
7
7
9
8
22
7
12
12
471
th-idée
78
6
4
5
3
12
4
2
7
14
5
5
11
289
th-essentiel
77
6
5
9
3
15
1
5
5
14
6
7
1
260
th-liberté
75
1
5
6
3
15
2
9
6
12
8
7
1
246
th-passion
67
3
2
4
1
3
0
2
10
12
15
5
10
185
th-peinture
48
7
4
7
4
6
0
3
0
7
2
2
6
162
th-instant
43
3
3
6
0
2
2
8
3
3
1
6
6
146
th-angoisse
49
7
1
3
0
2
6
4
2
4
5
0
15
127
th-valeur
26
2
1
3
1
3
4
1
0
1
2
4
4
89
th-aide
37
1
0
1
1
0
6
3
4
2
5
2
12
86
th-souffrance
64
3
0
3
0
0
19
0
0
2
3
2
32
68
th-affrontement
29
1
1
1
1
0
23
0
0
1
0
0
1
21
La dernière colonne appelée Gain de similitude est ajoutée à la matrice de base par l'algorithme des réseaux de similitude. Nous avons vu qu'un couple d'unités comparées obtient des points de la part des comparateurs en fonction du minimum de leurs deux fréquences. Ainsi, th-photos donne 67 points au couple boubat-doisneau, le minimum de leurs deux fréquences, respectivement 77 et 67. Si on additionne tous les points ainsi donnés par th-photos, on obtient 3864 points. Th-photos donne plusieurs points à tous les couples. Il occurre partout dans les 12 documents. Il aura un pouvoir d'attraction élevé entre les noeuds des réseaux et empêchera l'émergence d'une configuration focus. La configuration focus cherche des réseaux distincts constitués de relations discriminantes (spécifiques à ces réseaux). Th-photos est le thème le moins discriminant des 20 thèmes. Un comparateur est discriminant dans la mesure qu'il a de s'associer significativement à peu d'unités comparées. Nous faisons l'hypothèse ici que le gain en similitude d'un comparateur est en relation inverse avec sa portée discriminante (sa "discriminance" pour utiliser un terme anglophone).
L'algorithme tente un premier essai, sans réduction aucune, pour voir s'il n'y a pas de configuration focus. Si oui, le travail est terminé; tout se passe comme si l'option de retrait progressif n'avait pas été programmée. Si non, on retire le premier comparateur de la matrice triée par Gain de similitude, th-photos (dans notre exemple) et on retente la construction des réseaux sans ce dernier. Et on recommence ainsi jusqu'à l'émergence d'une configuration focus. Si, à la fin du processus, aucune configuration focus n'a émergé, les réseaux de similitude sont construits comme si aucune réduction n'avait été programmée. Dans notre exemple, une configuration focus surviendra au gain de similitude 246 (au niveau du comparateur th-liberté), après le retrait des 11 premiers comparateurs.
Le gain en similitude est une meilleure mesure que la fréquence lorsque l'on veut juger du caractère discriminant d'un comparateur. Comparons dans la matrice ci-dessus les comparateurs th-passion et th-souffrance. Les deux thèmes ont des fréquences proches (67 et 64) mais des gains très différents (185 et 68). Th-passion est moins discriminant, car il saupoudre sa fréquence dans plusieurs documents alors que deux documents seulement absorbent 75% de la fréquence de th-souffrance.
10. Les réseaux de similitude sur les matrices de cooccurrences
Au moment de construire la matrice, si vous choisissez une même VM (variable matricielle) sémantique (thème, lemme ou lemsem) en rangée et en colonne, vous pouvez opter pour l'obtention d'une matrice de cooccurrences et ceci, soit dans les phrases, soit dans les textes (voir : Générateur de matrices - Les cooccurrences)).
Une fonction matricielle, rs-gain-cooccurrence, permet d'indiquer de quelle manière les cooccurrents gagneront-ils leurs points. On aura les scripts :
((rangée thème) (colonne thème) (cooccurrence nopha) (analyse rs) (rs-gain-cooccurrence 1)) 1 = par la stricte fréquence des cooccurrences
((rangée thème) (colonne thème) (cooccurrence nopha) (analyse rs) (rs-gain-cooccurrence 2)) 2 = seulement par les points obtenus des comparateurs
((rangée thème) (colonne thème) (cooccurrence nopha) (analyse rs) (rs-gain-cooccurrence 3)) 3 = par l'addition de la fréquence des cooccurrences et des points des comparateurs
Et nous obtenons la page de résultats avec (rs-gain-cooccurrence 3) :
Construction des réseaux de similitude sur cette matrice
Le gain correspond à l'addition de la fréquence de cooccurrence des unités comparées et de la contribution des comparateurs des unités comparées. L'option relativisation (sur 100) des fréquences des comparateurs est désactivée. L'option retrait progressif des comparateurs les moins discriminants est désactivée.
Nombre de comparateurs retenus pour les réseaux = 20
Aucune configuration focus
Les fichiers associés aux réseaux sont accessibles au bas de cette page.
Numéro de l'inscription et lien sur les comparateurs
La question peut être reformulée ainsi : qu'est-ce qui fait que deux unités cooccurrentes se ressemblent ? Une première réponse est la fréquence de cooccurrence. Plus les deux unités se retrouvent dans les mêmes phrases (ou textes, dépendant de la matrice programmée), plus elles gagnent de points de similitude. Une seconde option est de considérer que les deux membres d'un couple de cooccurrents cooccurrent aussi avec un autre comparateur, celui-ci procure aussi des points de similitude, à la hauteur minimale de cette cooccurrence.
Examinons la matrice de cooccurrences pour comprendre cette contribution.
thème/thème
Fréquence
th-affrontement
th-aide
th-angoisse
th-beauté
th-essentiel
th-idée
th-instant
th-liberté
th-passion
th-peinture
th-période
th-personne
th-photos
minimum entre th-personne et th-photos
th-regard
th-sentiment
th-souffrance
th-travail
th-valeur
th-vérité
th-vie
Gain de similitude
th-affrontement
28
0
0
0
0
0
1
0
1
0
0
3
1
12
1
1
2
3
0
0
2
2
63
th-aide
37
0
0
1
1
0
0
1
1
0
2
3
2
11
2
3
3
3
4
1
0
1
135
th-angoisse
36
0
1
0
2
1
0
1
1
1
0
3
3
9
3
3
2
4
2
1
0
2
152
th-beauté
107
0
1
2
0
2
2
2
2
4
3
15
8
28
8
5
8
3
4
1
8
9
439
th-essentiel
69
0
0
1
2
0
2
4
0
2
0
8
7
26
7
3
5
1
2
0
0
6
189
th-idée
55
1
0
0
2
2
0
1
1
1
1
2
9
18
9
0
2
1
3
0
4
7
168
th-instant
48
0
1
1
2
4
1
0
1
1
0
8
3
11
3
1
4
0
2
1
1
6
181
th-liberté
57
1
1
1
2
0
1
1
0
1
0
10
2
17
2
4
1
0
7
1
2
5
183
th-passion
55
0
0
1
4
2
1
1
1
0
0
4
5
23
5
2
4
3
1
0
0
3
159
th-peinture
27
0
2
0
3
0
1
0
0
0
0
3
0
10
0
1
0
0
4
1
1
1
62
th-période
197
3
3
3
15
8
2
8
10
4
3
0
8
60
8
12
17
2
13
1
7
18
821
th-personne
174
1
2
3
8
7
9
3
2
5
0
8
0
66
0
14
10
8
9
1
6
12
661
th-photos
479
12
11
9
28
26
18
11
17
23
10
60
66
0
0
33
40
11
40
7
27
30
2726
th-regard
107
1
3
3
5
3
0
1
4
2
1
12
14
33
14
0
6
3
6
0
2
8
383
th-sentiment
127
2
3
2
8
5
2
4
1
4
0
17
10
40
10
6
0
5
5
1
5
7
506
th-souffrance
58
3
3
4
3
1
1
0
0
3
0
2
8
11
8
3
5
0
4
1
3
3
280
th-travail
121
0
4
2
4
2
3
2
7
1
4
13
9
40
9
6
5
4
0
4
4
7
514
th-valeur
23
0
1
1
1
0
0
1
1
0
1
1
1
7
1
0
1
1
4
0
1
1
94
th-vérité
80
2
0
0
8
0
4
1
2
0
1
7
6
27
6
2
5
3
4
1
0
7
267
th-vie
135
2
1
2
9
6
7
6
5
3
1
18
12
30
12
8
7
3
7
1
7
0
636
108
Nous avons mis en gras les colonnes th-personne et th-photos (déplacez le curseur latéral vers la droite). Nous avons ajouté à la matrice, pour la démonstration, une colonne minimum entre th-personne et th-photos. Cette colonne sert à expliquer les points donnés à th-personne et th-photos par les autres comparateurs. Th-affrontement, par exemple, cooccurre 1 fois avec th-personne et 12 fois avec th-photos. Il donnera donc 1 point (minimum entre 1 et 12) au couple th-personne th-photos. Au total, les comparateurs donneront 108 points de similitude au couple th-personne th-photos. C'est ce qu'on a appelé la contribution des comparateurs. Les deux thèmes th-personne et th-photos cooccurrent 66 fois (cellules au croisement des 2 thèmes). Puisque nous avons choisi d'additionner les deux contributions, le total du gain obtenu par les deux thèmes est de 174 (66 + 108). Ils construisent le premier réseau de similitude enregistré. Si on clique sur le numéro de l'inscription (#2) de ces deux thèmes, Sémato ouvrira la page qui montre la table de la collaboration des comparateurs :
Points des comparateurs aux 2 unités : th-personne et th-photos
Total des points gagnés par les 2 unités comparées (somme de minimum) = 108