Sémato v3.0 | Projet | Thèmes | Analyses | Sondages | Entretiens | Projet : aucun |
Tableur textes, catégories et thèmesCette analyse crée un fichier tableur de tous les textes du projet en fonction des catégories de projet et de thèmes choisis. Elle produit de plus des statistiques descriptives sur ces données. Sémato crée un fichier en mode texte que l'on importera sur son ordinateur et qui pourra être ouvert avec Excel (ou tout autre gestionnaire de base de données), ou encore avec un logiciel d'analyse statistique.Voici une séquence sur le projet photographes.
Nous commandons l'analyse sur tout le corpus.
Nous ne fusionnons pas les textes sur la base d'une catégorie de projet. Le tableur contiendra ainsi autant de rangées qu'il y a de textes au corpus (851). La question qui suit porte sur la sélection des thèmes qui apparaîtront au tableur :
Le tableur contiendra tous les thèmes colligés filtrés (positivement et/ou négativement), si des filtres sont définis. La prochaine question permettra de détailler les statistiques descriptives pour les thèmes. Seules les catégories de projet non numériques sont admises.
Suivez ce lien pour examiner la page de résultat. La page de résultats contient trois sections. La première section contient un lien vers le fichier tableur que vous pouvez télécharger sur votre ordinateur. Le tableur contient autant de rangées que de textes (851) et autant de colonnes que de catégories de projet et de thèmes colligés retenus par la question ci-dessus sur la sélection des thèmes. Ce fichier est construit pour exporter vos données vers d'autres logiciels. Ce lien ouvre le fichier tableur complet en Excel. L'analyse produit aussi des statistiques descriptives sur les données du tableur. Trois tableaux de statistiques sont produits sur la page de résultat, l'un pour les catégories de projet (seconde section) et les deux autres pour les thèmes (troisième section). Les catégories de projet, en Sémato, sont de deux types : symboliques ou numériques. Lorsqu'elles sont symboliques, on trouve, pour chacune de celles-ci, la distribution des valeurs trouvées, en pourcentage. Par exemple, ci-dessus, on peut lire à la rangée document, par exemple, que le document Witkin contient 12.81% de l'ensemble des unités textuelles, ou que les hommes (à la catégorie sexe) rapportent 85.43% des unités textuelles. Pour les catégories numériques, telle naissance, par exemple, on donnera la moyenne des valeurs trouvées pour chacun des textes : 1928.57 et la médiane de la liste des valeurs de naissance trouvées sur chacun des textes : 1930 (la valeur médiane est la valeur à laquelle 50% des valeurs observées sont inférieures). Attention, cela ne veut pas dire que les photographes sont, en moyenne, nés en 1928.57; pour avoir la naissance moyenne des photographes, il faudra fusionner le tableur sur la catégorie document, nous verrons ci-dessous ce cas de figure. Les deux tableaux de la troisième section de la page de résultats portent sur les thèmes. Examinons le premier tableau. On y apprend, par exemple, que th-angoisse rapporte 35 textes soit 4.1128% (appelé le pourcentage global) des 851 unités textuelles du corpus ((35 / 851) * 100 = 4.1128). Dans les textes rapportés, la fréquence moyenne du thème est de 2.9167 (35 / 12 documents). Par la suite, pour chaque document, on donne la fréquence absolue du thème, l'écart entre cette fréquence et la moyenne des fréquences ainsi qu'un chi2. Ainsi, pour Boubat, on a une fréquence de 4, pour un écart positif à la moyenne de 1.0833 et un chi2 de 0.7805. Ce tableau présente un test de chi2 d'indépendance. On trouvera une présentation sommaire de ce test sur ce site. Le chi2 ou (chi-carré ou encore khi-deux) permet de mesurer la dépendance entre les variables. Dans notre tableau sur les thèmes, il indique quels thèmes sont associés le plus spécifiquement à la valeur d'une variable. Attention, le chi2 ne donne pas le sens de cette association. Un chi2 élevé peut vouloir dire que le thème est significativement élevé dans ce document, ou à l'inverse, significativement bas, pour ce document. Pour connaître le sens de la relation, il faut observer l'écart à la moyenne. Si l'écart à la moyenne est positif, un chi2 élevé révèle une association significative, si l'écart est négatif, le chi2 révèle une non-association significative. Parmi tous les thèmes présents, c'est le thème th-beauté qui est le plus associé à Boubat. Le chi2 est un test relatif à l'ensemble du tableau. Pour une même variable, il changera si le nombre de thèmes change. À la suite du tableau, on trouvera des informations générales sur l'application du test d'indépendance : Chi2 théorique : 243.73 La somme de tous les chi2 trouvés (475.9397) est comparée à celle d'un chi2 théorique que l'on obtiendrait étant donné, un nombre de degrés de liberté (209 dans ce tableau) et une marge d'erreur de 5% (fixée par Sémato). Le nombre de degrés de liberté est obtenu en multipliant le nombre de valeurs de la catégorie de projet (ici 12) -1, par le nombre de thèmes (ici 20) -1, ce qui donne ((12-1) * (20-1)) = 209. Si la somme des chi2 trouvés est supérieure au chi2 théorique, on rejette l'hypothèse d'indépendance globale des variables pour ce tableau. C'est ce qui se produit pour notre expérience. Les thèmes permettent en quelque sorte de différencier les photographes entre eux. On considère ainsi globalement que ces 20 thèmes rendent plus compte des spécificités des photographes que de leurs ressemblances. Les 20 thèmes et les 12 photographes ont, globalement, des relations de dépendance. Effectuons une autre expérience, où l'on considère deux thèmes très fréquents, on remarquera que le chi2 observé est inférieur au chi2 théorique. Ces deux thèmes (th-photos et th-période) ne permettent pas de rejeter l'hypothèse d'indépendance globale des variables, autrement dit, ces deux thèmes ne permettent pas de différencier les documents entre eux, d'une manière significative. Voici la section 3 de cette expérience :
La section 3 sur les thèmes présente toujours deux tableaux. Le second tableau est en quelque sorte l'inverse symétrique du premier. Il présente en rangées les valeurs de la catégorie de détail des thèmes (document dans notre exemple) et en colonnes, les thèmes. Comme le précédent, on peut le trier en cliquant sur un en-tête de colonne; on peut donc ainsi, grâce à ce tableau inversé, savoir rapidement quel document est le plus associé à un thème choisi. La fusion des rangées textesAu moment de remplir la requête, on a fait Poursuivre directement à la question sur la fusion des rangées. Reprenons la requête, mais cette fois, en sélectionnant document, pour cette question :
Suivez ce lien pour examiner la page de résultat. Au tableur accessible dans la première section, il y a autant de rangées que de valeurs à la catégorie document. C'est-à-dire que tous les textes ont été fusionnés par document. La première colonne contient le nombre de textes ayant été fusionnés. La seconde colonne contient tous les textes fusionnés. Dans cette colonne, les textes fusionnés sont séparés entre eux par la séquence : ¦¦¦ . Les statistiques de la seconde section (tableau sur les catégories de projet) sont donc des statistiques par document. Il y a 12 documents (12 photographes). Ainsi, 33% des origines sont de France (il y a en effet 4 France sur les 12 origines). Dans le tableau des thèmes (troisième section), les statistiques sont aussi présentées par document. Le thème th-angoisse apparaît dans 83.33% des documents (dans 10 documents sur 12), pour une fréquence moyenne de 0.8333. Les chi2 sont éloquents. Il est évident que les thèmes ne servent plus à distinguer les documents entre eux puisqu'on ne compte plus les fréquences internes. Tous les photographes ou presque font usage de chacun des thèmes au moins une fois. Le chi2 total est très largement inférieur au chi2 théorique, ce qui indique que l'hypothèse d'indépendance ne peut pas être levée : autrement dit, les thèmes ne montrent plus les différences entre les documents. |