Sémato v3.0 Projet  Thèmes Analyses Sondages Entretiens Projet :
aucun




Catégories de projet

Les catégories de projet sont apprises au moment de l'indexation des textes. Elles correspondent aux variables descriptives de propriétés des textes du corpus. On aura par exemple l'auteur du texte, l'année de parution, le domaine, etc. Les catégories de projet, comme outil de repérage servent à identifier des textes (par exemple tous les textes qui ont telle valeur pour telle catégorie) et comme outil de construction de sous-corpus à restreindre le corpus aux seuls textes qui ont telle valeur pour telle catégorie.

Exemple d'une requête de type Repérage et Catégories de projet, projet Nouv (projet de démonstration).

Dans certains dialogues, il est possible de cocher Mode ET. Ce mode indique de considérer tous les éléments cochés du dialogue comme obligatoires pour que la requête rapporte des textes. Si ce mode n'est pas coché, les éléments de la requête fonctionnent en disjonction (en OU plutôt qu'en ET).

La requête effectuée ci-dessus donnera le résultat :

Le premier tableau est un récapitulatif de la requête. Celle-ci rapporte 1224 textes. Par la suite, une série de blocs de texte vous permet d'ouvrir autant de Pages d'arrimage. Par défaut, chaque bloc de texte contien 20 textes; une option vous permet toutefois de changer cette valeur.

Les noms des textes sont rassemblés dans le second tableau. La colonne appelée Saillance donne le score sur 100 (le total de cette colonne est 100) de chacun des textes. Les textes ont tous ici la même saillance : 100 divisé par 1224 : 0.08% . Ils ont tous, et de façon égale, la propriété d'avoir la valeur Pq pour la catégorie de projet Parti.


Catégories numériques

Le traitement des catégories numériques est différent en requête de celui des catégories symboliques. Les catégories numériques donnent lieu à un calcul arithmétique (=, <, >, etc.).

Lorsque la catégorie est numérique, Sémato pose une question du type :

Dans la case de saisie textuelle, on écrit à la fois un nombre (ou deux pour l'opérateur entre) et un opérateur numérique. Voici les différents opérateurs numériques :

  1. > Plus grand, ex. : >23
  2. < Plus petit, ex. : <23
  3. ! Entre, ex. : 15!38 signifie entre 15 et 38 (les valeurs 15 et 38 sont incluses).
  4. ± Plus ou moins, ex. : ±12 donnera le plus de points à 12 et de moins en moins de points en s'éloignant de 12 (sur Macintosh, le caractère ± est obtenu en faisant Shift+Option L, sur PC, en faisant Ctrl+Alt 1).
  5. Aucun opérateur : la requête rapporte les éléments ayant la valeur numérique donnée.
Attention, au moment de l'indexation, la valeur d'une catégorie ne peut être tantôt numérique et tantôt symbolique. Âge, par exemple, ne peut à la fois contenir des chiffres et des mots (*âge=32 et *âge=jeune dans le même projet est interdit).


Catégories dates

On peut donner une date à un texte. Le format des catégories dates est année-mois-jour, le 12 février 2004, par exemple, doit s'écrire 2004-02-12 . On devra respecter ce format au moment des requêtes.

Les requêtes sur les catégories dates peuvent profiter des mêmes opérateurs numériques que ceux présentés ci-dessus dans la section des catégories numériques.

Lorsque la catégorie est de type date, Sémato pose une question telle :

Dans la case de saisie textuelle, on écrit à la fois une date (ou deux pour l'opérateur entre) et un opérateur de date. Voici les différents opérateurs de date :

  1. > Après, ex. : >2004-03-12 (après le 12 mars 2004)
  2. < Avant, ex. : <2004-03-12 (avant le 12 mars 2004)
  3. ! Entre, ex. : 2004-03-12!2004-05-12 signifie entre le 12 mars 2004 et le 12 mai 2004 (les deux dates sont incluses).
  4. ± Autour, ex. : ±2004-03-12 donnera le plus de points à la date 2004-03-12 et de moins en moins de points en s'éloignant de 2004-03-12 (sur Macintosh, le caractère ± est obtenu en faisant Shift+Option L).
  5. Aucun opérateur : la requête rapporte les éléments ayant la date donnée.
Attention, au moment de l'indexation, la valeur d'une catégorie ne peut être tantôt date, tantôt numérique ou tantôt symbolique. Cela provoquera un arrêt de l'indexation.


Catégorie Séquence

Une catégorie est automatiquement ajoutée aux Catégories de projet : la catégorie Séquence. La catégorie Séquence est de nature numérique, elle prend pour valeur un entier entre 0 et 9 (inclus). Cette valeur indique l'emplacement d'un texte dans le fichier qui le contenait. Prenons pour exemple le projet Nouv. Dans ce projet, 36 fichiers correspondent aux 36 discours d'inauguration des sessions parlementaires du gouvernement du Québec. Chaque fichier contient plusieurs textes car les paragraphes ont servi à la définition des textes (un paragraphe = un texte). Chaque texte reçoit la catégorie Séquence selon son emplacement relatif dans le continu textuel du fichier. Les premiers textes ont la valeur 0 et les derniers la valeur 9. On peut ainsi, à l'aide ce cette catégorie, analyser l'évolution chronologique des Thèmes ou des Catégories de projet dans le flux discursif.