Sémato v3.0 Projet  Thèmes Analyses Sondages Entretiens Projet :
aucun




Pages d'arrimage

Le concept primitif de stockage des données dans Sémato est le texte ou unité textuelle. Quelle que soit la méthode utilisée pour téléverser vos données vers Sémato, vous avez eu à définir les unités textuelles de votre corpus. Il peut s'agir de chacune des questions et des réponses dans un corpus d'entrevues, de chacune des prises de parole dans un focus groupe, de chacun des paragraphes dans un article de journal... ou encore de chacune des réponses aux questions ouvertes dans le cas d'un projet Sémato Sondage.

Au moment de l'indexation des données, chaque texte devient une unité de la base de connaissances que Sémato construit pour votre projet. Chaque texte hérite des valeurs des catégories de projet qui lui sont associées. Voici, par exemple, pour le projet de démonstration photographes les premières 8 rangées ou premiers 8 textes de la base de connaissances (le premier texte a le numéro 0):


On repère que chaque texte a reçu les valeurs des catégories de projet associées à son auteur (document, origine, sexe...) ainsi que le typeqr qui indique si ce texte était une question ou une réponse.

Voici un second exemple extrait d'un Sémato Sondage, le projet de démonstration abasco:


Ici, chaque texte est une réponse à une question ouverte. Chaque texte a hérité de toutes les valeurs associées au questionnaire spécifique dont il est extrait.

Ainsi, dans la base de connaissances de votre projet, construite au moment de l'indexation, chaque texte a reçu un numéro. De plus, Sémato a découpé chacun des textes en phrases, donnant aussi un numéro à chacune de celles-ci, numéro qui indique son emplacement dans le texte. Dans cette ordonnancement en phrases, le numéro 0 a la fonction de représenter le texte en entier. Comme on le verra, cet artifice permet de décider si on désire catégoriser une phrase particulière du texte ou ce dernier dans son entièreté. Le tableau suivant représente le texte #6 texte de la base des photographes. Ce texte a 4 phrases :


Les phrases sont les unités minimales de catégorisation par les thèmes. On peut associer (nous dirons arrimer) un thème à une phase ou encore à l'ensemble du texte (la phrase 0).

En Sémato nous appelons thèmes les unités de catégorisation sémantique de vos données textuelles. Les thèmes sont automatiques, manuels ou mixtes.

Un thème automatique est un script qui cherche des phrases à partir d'une liste de vocables (mots ou expressions). Cette liste de vocables, vous la construisez à l'aide de différents outils trouvés sur la page des thèmes dont principalement l'AST (Assistant Scripteur de Thèmes). Un thème automatique est toujours associé à une phrase précise et non au texte entier (ou phrase 0). La vérification et la correction des thèmes automatiques s'effectue dans les pages d'arrimage.

Un thème manuel est associé, selon votre décision, soit à une phrase particulière (phrase 1, 2, 3...) soit au texte entier (phrase 0). L'arrimage des thèmes manuels s'effectue dans les pages d'arrimage.

Un thème mixte est un thème qui trouve automatiquement certaines phrases à l'aide de son script de recherche et qui, par ailleurs a été arrimé manuellement à d'autres phrases, par vos soins.

Le nom d'un thème commence toujours par les caractères th- . Il est intéressant de faire suivre ces 3 caractères de quelques lettres qui marqueront l'appartenance de ce thème à un regroupement quelconque. Par exemple th-gr4-beauté.

Les pages WEB qui vous permmettent de vérifier (voire corriger) les thèmes automatiques et qui vous permettent d'ajouter des thèmes manuellement sont appelées des pages d'arrimage. Les pages d'arrimage sont construites dynamiquement par Sémato à la suite de requêtes variées.

Pour poursuivre la description des pages d'arrimage, imaginons un thème portant sur l'inattendu (dans le projet photographes), Table des thèmes colligés (sous Thèmes) :


On accède aux pages d'arrimage depuis différentes fonctions du logiciel; la majorité des accès se fait toutefois depuis la page de résultats des requêtes. En cliquant sur le bouton cible associé au thème th-inattendu, nous obtenons la page de résultats suivante où nous avons commenté les différents liens permettant d'ouvrir des pages d'arrimage :


Et voici la page d'arrimage ouverte par le lien central sur th-inattendu (extrait, l'image ne montre que les 3 premières phrases sur les 25 phrases rapportées par ce thème) :


Dans cette page, les liens permettent d'ouvrir d'autres pages d'arrimage associées à chacun des textes. Une telle page présente alors toutes les phrases de ce texte.

Voici un autre exemple de page d'arrimage : la page d'arrimage ouverte en cliquant sur le lien du texte 703-sieff-réponse, lien trouvé sur la page de résultats du thème th-inattendu :


Dans cette page d'arrimage, la première rangée nous présente le texte en entier. Les 3 rangées suivantes correspondent au découpage en phrases. Le thème a été associé automatiquement à la phrase #3 à cause du vocable accident qui est l'un des éléments du script de notre thème th-inattendu.

Voici les actions qui peuvent être entreprises sur une page d'arrimage :
  1. Thèmes manuels. Catégoriser manuellement consiste à ajouter le nom d'un thème dans la colonne Thèmes manuels. On peut faire la catégorisation dans la rangée 0 ce qui reviendra à catégoriser l'ensemble du texte ou dans une rangée spécifique associée à une phrase, pour catégoriser cette seule phrase. La décision de catégoriser l'ensemble du texte ou l'une ou l'autre de ses phrases vous appartient. Cela dépend de la nature de vos catégories. Les thèmes déjà définis au projet sont inscrits dans les menus des cellules de cette colonne :


    À la suite de la sélection d'un thème au menu, le nom du thème ajouté viendra s'écrire dans la case associée. Pour défaire cette action, on n'a qu'à effacer cette écriture puis à cliquer dans une case voisine pour enregistrer la modification. Si on veut inscrire un thème non encore défini (dont le nom n'apparaît pas encore au menu), on écrit son nom directement dans la cellule :


    Pour enregistrer ce nouvel arrimage, on clique illico dans une cellule voisine. Le nouveau thème sera disponible dans les prochaines pages d'arrimage ou même dans la page courante après avoir fait actualiser (reload) la page. Il n'est pas nécessaire de cliquer pour enregistrer lorsque vous avez catégorisé à l'aide du menu, l'action d'enregistrement est automatique. Si vous désirez retirer un thème ajouté manuellement, vous n'avez qu'à effacer son nom de la cellule et à enregistrer votre modification en cliquant dans une cellule voisine.

  2. Exceptions thèmes automatiques. Cette colonne ne concerne que les thèmes qui ont été ajoutés automatiquement. Par exemple, dans la troisième rangée, on pourrait, dans cette colonne, retirer l'arrimage du thème th-inattendu:


    Au menu de cette cellule, seul ce thème est disponible. Si on sélectionne le nom du thème dans ce menu, il viendra s'inscrire dans la cellule associée au menu. Tant que le nom de ce thème sera inscrit dans cette cellule, ce thème automatique ne pourra pas rapporter cette phrase. Si on désire de nouveau que le thème ait la capacité de rapporter cette phrase, on n'a qu'à effacer son nom de cette cellule (et cliquer illico dans une cellule voisine pour enregistrer cette modification). Les mises en exception ne seront effectives que dans les futures requêtes mettant en cause les thèmes automatiques concernés.

  3. Les mémos analytiques. La dernière colonne permet d'ajouter des mémos analytiques. Ces notes vous servent à préparer vos catégorisations ou à laisser des indications à vos collaborateurs :



  4. Les boutons cibles. Les boutons cibles sont associés aux contenus textuels. Ils permettent de lancer des requêtes avec le contenu de la cellule où ils sont logés. Ainsi, si on clique sur le bouton cible d'une phrase, Sémato va exécuter cette phrase en requête de recherche textuelle et rapporter, dans une page de résultat, tous les textes par ordre de ressemblance avec cette phrase de départ.

  5. Page d'arrimage d'un bloc de textes. Dans les pages d'arrimage ouvertes pour un bloc de textes, la rangée de la phrase 0 qui correspond au texte entier ne montre pas le contenu ce dernier pour ne pas alourdir indûment l'ensemble de la page. Un lien est toutefois déposé à la place et ce lien ouvre la page d'arrimage de ce texte en entier. On peut modifier le nombre de textes ouverts à la fois par les blocs de texte. Par défaut, 20 textes sont ouverts à la fois. On peut changer cette valeur sur la page des options.

  6. Thèmes visibles. Les thèmes visibles dans les différentes colonnes et les menus sont les seuls thèmes rendus visibles suite à l'application du jeu des filtres; voir la fonction Filtrer à la page des thèmes.

  7. Les catégories de projet. Lorsque vous ouvrez une page d'arrimage à la suite d'un lien sur le nom d'un texte, la page présente deux tables. La première contient le texte déployé en chacune de ses phrases et la seconde, la liste des catégories de projet et leurs valeurs associées à ce texte.

  8. Les mots clés. Une option (lien pour ouvrir la page des options) permet d'afficher ou ne pas afficher les mots-clés dans la rangée des textes complets, lorsque la page d'arrimage présente un bloc de textes. Les mots-clés sont des vocables dépistés comme importants ou significatifs pour chacun des textes. Les mots-clés sont trouvés au niveau de chacun des textes par un algorithme statistico-linguistique. Le système trouve jusqu'à 25 mots-clés par texte; certains textes trop petits peuvent ne pas fournir de mots-clés. Les mots-clés permettent une lecture rapide des pages d'arrimage.

  9. Page d'arrimage sur mesure. Des options permettent de modifier les colonnes affichées des pages d'arrimage. Suivez ce lien pour en prendre connaissance.
Résumé des actions pouvant être entreprises depuis une page d'arrimage :





Poursuite au #3 :
  1. Une requête en repérage
  2. Les pages d'arrimage
  3. Un thème en catégorisation manuelle
  4. La technologie linguistique de Sémato
  5. La table des thèmes
  6. Le thème en requête repérage
  7. La GTH (Génération de THèmes)
  8. Stratégies de la GTH