python-im

Python courses for M2 IM (INaLCO)

View the Project on GitHub LoicGrobol/python-im

Projets Python 2018

Consignes

Le rendu devra comporter :

  1. une documentation du projet traitant les points suivants :
    • Les objectifs du projet
    • Les données (origine, format, statut juridique) et les traitements opérés sur celles-ci
    • La méthodologie (comment vous vous êtes répartis le travail, comment vous avez identifié les problèmes et les avez résolus, différentes étapes du projet, …)
    • L’implémentation ou les implémentations (modélisation le cas échéant, modules et/ou API utilisés, différents langages le cas échéant)
    • Les résultats (fichiers output, visualisations, …) et une discussion sur ces résultats (ce que vous auriez aimé faire et ce que vous avez pu faire par exemple) On attend de la documentation technique, pas une dissertation. Elle pourra prendre la format d’un ou plusieurs fichiers, d’un site web, d’un notebook de démonstration, à votre convenance
  2. le code Python et les codes annexes (JS par ex.) que vous avez produit. Le code doit être commenté. Des tests ce serait bien. Évitez les notebooks, préférez les interfaces en ligne de commande ou web (ou graphiques si vous êtes très motivé⋅e⋅s)

  3. les données en input et en output (ou un échantillon si le volume est important)

Conseils

Sujets

Au choix, orienté traitement de données ou TAL. Il serait bon d’exploiter au moins une source de données (corpus, ressource linguistique, base de données…). N’hésitez pas à choisir un sujet en lien avec d’autres cours ou projets et des domaines pour lesquels vous avez un intérêt particulier ou des compétences particulières.

Accès aux données

Réaliser une interface pour exploiter une ressource (linguistique ou autre).

Conception de ressources

Créer une ressource et en proposer des exploitations simples : par exemple, autour des midterms 2018, un jeu de données mettant en relation les sondages, les résultats et l’activité sur Twitter

Scorers

Implémenter un scorer pour une mesure intéressante : CER, LAS/UAS, accords inter-annotateurs…

Conversion

Conversion entre formats de données pour le TAL

Ressource lexicale

Créer un lexique intentionnel que l’on pourra enrichir (“règles” pour créer des entrées depuis un lemme).

Tagger 1

Créer un POS tagger basé sur le LeFFF.

Classifieur 1

Créer un classifieur de documents pour retrouver les catégories thématiques d’articles wikinews.