Indexation - Méthode fichier tableur

La méthode tableur

La méthode tableur pour la préparation des données textuelles consiste à inscrire celles-ci dans un fichier tableur.

Le fichier tableur est préparé sur votre ordinateur à l'aide d'un gestionnaire de tableur tel Excel par exemple. Le fichier tableur contiendra une première colonne contenant obligatoirement les textes que l'on veut indexer. Toutes les autres colonnes contiendront les catégories associées à ces textes dans votre projet. Exemple d'un tel tableur :

A B C D E
1 texte auteur atmosphère genre âge
2 Je crois que cette réunion ne mènera nulle part. Je ne sais pas encore pourquoi
j'ai accepté cette rencontre avec vous. Jean tendue masculin 32
3 Moi, c'est un peu comme pour Jean. Toutefois, je n'irai pas contre le groupe.
Ça ne peut pas me faire de mal. Il faut se réunir semble-t-il. Claire tendue féminin 29
4 Je ne vous comprends pas tous les deux. Moi, j'ai confiance dans le groupe,
on va passer au travers. Pierre tendue masculin 23
5 Je vais raconter mon histoire si vous voulez bien. Pour moi, tout a commencé
l'été dernier. Pauline relax féminin 27

On imagine ici le début d'une discussion entre quatre personnes. La première colonne contient les textes transcrits et les autres colonnes des catégories caractérisant les textes (auteur et atmosphère) ou caractérisant les auteurs des textes (genre et âge). L'ensemble de ces catégories sont appelées dans Sémato les catégories de projet.

Dans le tableur des textes, la première rangée contient obligatoirement le nom des catégories. La première cellule de cette première rangée contient obligatoirement le mot texte. La première rangée ne doit pas être répétée à l'intérieur du tableur. On peut par ailleurs construire autant de fichiers tableurs que l'on veut. Gardez à l'esprit toutefois que vous devrez les téléverser un à un vers Sémato.

Si vos textes de départ sont en Word, vous pouvez procéder de la manière suivante : assurez-vous que chaque texte est séparé du suivant par un seul retour à la ligne, puis copiez tout le contenu de ce document Word dans la colonne A d'une nouvelle feuille d'un classeur Excel. Votre première colonne textuelle est terminée, elle contient un texte par cellule; il ne vous reste qu'à ajouter une première rangée qui contiendra le nom des catégories puis à catégoriser les textes à l'aide des autres colonnes du tableur.

La méthode tableur couplée avec un fichier de méga-catégories

Dans notre exemple, les catégories auteur et atmosphère ont des valeurs qui varient selon le texte. Les catégories genre et âge, par ailleurs, varient selon la catégorie auteur. Ce n'est pas le premier texte qui a 32 ans, c'est son auteur Jean. Il sera possible de faire l'économie de ces deux colonnes âge et genre en associant au fichier tableur un fichier de méga-catégories. Ce fichier de méga-catégories contiendra une seule fois les valeurs des catégories âge et genre associées à chaque auteur.

Une méga-catégorie est une catégorie qui rassemble d'autres catégories, quel que soit son emplacement dans les textes. La catégorie auteur rassemble toujours les mêmes valeurs pour les catégories genre et âge et ceci, pour tous les textes du projet. Pour plus de détails sur les méga-catégories, voir la cette section de la documentation.

Ainsi, on aura le choix entre deux façons de faire, soit avec un seul fichier tableur qui contiendra les textes et toutes les catégories (le tableur ci-dessus avec 5 colonnes), soit avec deux fichiers, l'un qui contiendra le tableur des textes et des catégories qui varient selon ceux-ci (auteur et atmosphère dans notre exemple) plus un fichier de méga-catégories où l'on retrouve en première colonne la catégorie auteur et deux autres colonnes genre et âge dont les valeurs varient selon l'auteur :

Premier fichier ne contenant que les catégories sensibles à l'emplacement dans les textes :

A B C
1 texte auteur atmosphère
2 Je crois que cette réunion ne mènera nulle part. Je ne sais pas encore pourquoi
j'ai accepté cette rencontre avec vous. Jean tendue
3 Moi, c'est un peu comme pour Jean. Toutefois, je n'irai pas contre le groupe.
Ça ne peut pas me faire de mal. Il faut se réunir semble-t-il. Claire tendue
4 Je ne vous comprends pas tous les deux. Moi, j'ai confiance dans le groupe,
on va passer au travers. Pierre tendue
5 Je vais raconter mon histoire si vous voulez bien. Pour moi, tout a commencé
l'été dernier. Pauline relax

Et un fichier de méga-catégories non sensibles à l'emplacement dans les textes :

A B C
1 auteur genre âge
5 Claire féminin 29
2 Jean masculin 32
4 Pauline féminin 27
3 Pierre masculin 23

Catégories à multiples valeurs avec la méthode tableur

Il est possible d'utiliser une catégorie qui accepte de multiples valeurs. Il faudra pour cela ajouter un + collé à la fin du nom de cette catégorie. Dans les cellules de cette colonne, les multiples valeurs sont séparées entre elles par un espace (seulement un espace, pas de virgule). Dans le prochain exemple, la catégorie atmosphère+ accepte de multiples valeurs :

A B C
1 texte auteur atmosphère+
2 Je crois que cette réunion ne mènera nulle part. Je ne sais pas encore pourquoi
j'ai accepté cette rencontre avec vous. Jean tendue
3 Moi, c'est un peu comme pour Jean. Toutefois, je n'irai pas contre le groupe.
Ça ne peut pas me faire de mal. Il faut se réunir semble-t-il. Claire tendue angoisse
4 Je ne vous comprends pas tous les deux. Moi, j'ai confiance dans le groupe,
on va passer au travers. Pierre tendue
5 Je vais raconter mon histoire si vous voulez bien. Pour moi, tout a commencé
l'été dernier. Pauline relax humour camaraderie

La méthode tableur multitextes (section avancée)

La méthode tableur multitextes est une variante de la méthode tableur. Elle est principalement utilisée pour les projets d'analyses prototypiques.

Certains corpus de données textuelles ont la forme suivante : plusieurs individus ont répondu à un nombre déterminé de questions identiques. Par exemple, on demande à des individus de fournir des mots (ou courtes phrases) en association avec des mots inducteurs. On aurait ainsi une entrée tableur du type :

A B C D
1 UMT/inducteur boire manger dormir
2 individu-1 lait trois fois par jour la nuit
3 individu-2 soif faim sommeil
4 individu-3 il fait chaud bonne santé fatigué

À la condition de mettre dans la première case la catégorie UMT, qui signifie Unité MultiTextes (en minuscules ou en majuscules), suivie d'une barre oblique (non entourée d'espaces) puis du nom de la catégorie qui nommera les colonnes qui suivent, Sémato va traiter ces données comme si elles avaient été entrées avec la méthode tableur de la manière suivante :

A B C
1 Texte UMT inducteur
2 lait individu-1 boire
3 trois fois par jour individu-1 manger
4 la nuit individu-1 dormir
5 soif individu-2 boire
6 faim individu-2 manger
7 sommeil individu-2 dormir
8 il fait chaud individu-3 boire
9 bonne santé individu-3 manger
10 fatigué individu-3 dormir

Revenons au premier tableau. La catégorie UMT (obligatoire en première cellule) va commander à Sémato de considérer toutes les cellules, sauf celles de la première colonne et de la première rangée, comme étant des unités textuelles. Chaque rangée va donner à ces textes une valeur à la catégorie UMT (individu-1, individu-2 et individu-3 dans notre exemple). Sémato va de plus construire la catégorie dont le nom suivait UMT/ (inducteur dans l'exemple) et qui recevra comme valeurs les éléments de la première rangée, situés à la droite de UMT/inducteur (boire, manger et dormir dans notre exemple). Il est donc très important de donner à ces éléments la bonne syntaxe des valeurs de catégories (pas d'espace, pas de diacritique, etc.).

Ainsi, vous préparez vos données sous la forme UMT, avec Excel ou tout autre gestionnaire de bases de données, et vous téléversez votre ou vos fichiers dans le dossier INPUT-TABLEURS de votre projet. C'est uniquement la présence du mot UMT (suivi de la barre oblique et d'un nom catégorie), en première cellule qui va indiquer à Sémato que vos données sont de type Unités MultiTextes. Les catégories UMT et inducteur sont des catégories de projet comme les autres et peuvent faire l'objet d'attributions par des méga-catégories.

Vous devez enregistrer, sur votre ordinateur, le tableur UMT en mode texte (.txt) avec tabulations pour séparer les colonnes, exactement comme pour les autres fichiers préparés par la méthode tableur. Les fichiers tableurs UMT doivent être téléversés au dossier INPUT-TABLEURS de votre projet. Vous pouvez téléverser autant de fichiers UMT que vous désirez.