Python courses for M2 IM (INaLCO)
Le rendu devra comporter :
le code Python et les codes annexes (JS par ex.) que vous avez produit. Le code doit être commenté. Des tests ce serait bien. Évitez les notebooks, préférez les interfaces en ligne de commande ou web (ou graphiques si vous êtes très motivé⋅e⋅s)
Écrivez ! Tenez un carnet : vos questions, un compte-rendu de vos discussions, les problèmes rencontrés, tout est bon à prendre et cela vous aidera à rédiger la documentation finale.
Données géo-localisées Il existe beaucoup de choses pour travailler avec des données géo-localisées. Allez voir en vrac : Geo-JSON, uMap pour créer facilement des cartes en utilisant les fonds de carte d’OpenStreetMap, leaflet une lib JS pour les cartes interactives, overpass turbo pour interroger facilement les données d’OpenStreetMap (il y a une api !).
Ressources linguistiques N’hésitez pas à aller fouiller dans Ortolang ou Clarin des ressources linguistiques exploitables librement et facilement. Vous pouvez aussi aller voir du côté de l’API twitter pour récupérer des données (qui ne sont pas nécessairement uniquement linguistiques)
Open Data Quelques sources : Paris Open Data, data.gouv.fr, Google dataset search
Web avec Python Bye bye CGI. Utilisez un framework : Flask, Bottle, Tornado, Django si vous utilisez une BD relationnelle. J’ai une préférence pour Flask mais vous êtes libres d’en choisir un autre si le cœur vous en dit.
Au choix, orienté traitement de données ou TAL. Il serait bon d’exploiter au moins une source de données (corpus, ressource linguistique, base de données…). N’hésitez pas à choisir un sujet en lien avec d’autres cours ou projets et des domaines pour lesquels vous avez un intérêt particulier ou des compétences particulières.
Réaliser une interface pour exploiter une ressource (linguistique ou autre).
Créer une ressource et en proposer des exploitations simples : par exemple, autour des midterms 2018, un jeu de données mettant en relation les sondages, les résultats et l’activité sur Twitter
Implémenter un scorer pour une mesure intéressante : CER, LAS/UAS, accords inter-annotateurs…
Conversion entre formats de données pour le TAL
Créer un lexique intentionnel que l’on pourra enrichir (“règles” pour créer des entrées depuis un lemme).
Créer un POS tagger basé sur le LeFFF.
Créer un classifieur de documents pour retrouver les catégories thématiques d’articles wikinews.