View on GitHub

Introduction à la fouille de textes

Contenus pour le cours « Introduction à la fouille de textes » du master Plurital.

Projet Fouille de textes 2021

Objectif : entraîner des classifieurs par apprentissage automatique et comparer les performances de différents algorithmes de classification sur une tâche de votre choix et un corpus que vous aurez constitué

Consignes

Le rendu devra comporter :

Pour nous faciliter la vie à toustes

Conseils

Ressources linguistiques

Pour constituer vos corpus de travail

Outils

Script de vectorisation

Un script de vectorisation basique vous est fourni pour générer des fichiers ARFF. Il se lance avec

python3 vectorisation.py chemin/du/corpus chemin/du/fichier/de/sortie

chemin/du/corpus est le chemin vers un dossier contenant un sous-dossier par classe, chaque sous-dossier contenant un fichier par document de cette classe (avec l’extension .txt). Par exemple

mon_corpus
├── culture
│   ├── t1.txt
│   ├── t2.txt
│   ├── t3.txt
│   └── t4.txt
└── societe
    ├── t5.txt
    ├── t6.txt
    └── t7.txt

Pour vectoriser un corpus en utilisant un vocabulaire prédéfini (par exemple pour vectoriser le corpus de test à partir du corpus d’entraînement), utilisez l’option --lexicon comme ceci

python3 vectorisation.py --lexicon chemin/vers/train.arff chemin/vers/corpus/test chemin/du/fichier/de/sortie

Vous pouvez aussi voir le détail des options disponibles en lançant vectorisation.py --help.

N’hésitez pas à adapter ce script pour l’adapter à vos besoins : une meilleure segmentation, un calcul des fréquences relatives ou des TF⋅IDF…

Autres resources

Exemples de sujets

Un exemple de dossier complet est disponible pour vous donner une idée de ce qui est attendu. Il ne s’agit que d’un exemple et vous êtes parfaitement libre de présenter vos résultats autrement, de faire des expériences différentes…