Quelques rappels bien voyants, pour ne pas que vous les manquiez
Vous travaillerez avec le fichier
Vous produirez un script ou un notebook Python compatible avec Python 3.9
Votre script ou notebook devra :
fr_sequoia-ud-train.conllu
et
fr_sequoia-sud-train.conllu
,
supposés se trouver dans le même dossier que lui et représentant le sous-ensemble d'entraînement
du corpus Sequoia, respectivement dans sa version Universal Dependencies
2.9 et SUD
2.9.print
) une ligne et une seule par question.days
contient 7
, répondez avec print(days)
.print
et un seul par question, que vous rendiez un script ou un notebook.Votre rendu ne doit comporter qu'un seul fichier, nommé {prénom}_{nom}.py
ou
{prénom}_{nom}.ipynb
, le prénom et le nom étant ceux sous lesquels vous êtes inscrit⋅e, en
minuscules, sans diacritiques et le cas échéant transcrit en alphabet latin. Par exemple, en ce qui
me concerne, ce serait loic_grobol.py
.
Vous pouvez utiliser tous les modules de la bibliothèque standard, tous les modules listés dans
requirements.txt
. Vous pouvez aussi utiliser n'importe quel autre module
disponible sur PyPI (ce n'est pas nécessaire, ni utile à mon avis, mais si vous
le faites, pensez à l'indiquer dans un commentaire ou une cellule markdown).
Une fois terminé, envoyez ce script à lgrobol@parisnanterre.fr avec en objet Examen données
structurées
ou appelez-moi pour que je le récupère directement sur clé USB.
Pour les questions auxquelles vous n'aurez pas fourni de réponse (et donc affiché une ligne vide), vous pouvez indiquer dans votre script des éléments de réponse partiels par des fragments de code ou des commentaires. Dans ce cas, assurez-vous que vous n'affichez bien qu'une ligne vide en réponse à cette question.
Commandes pour télécharger les treebanks :
# !wget -nc "https://raw.githubusercontent.com/UniversalDependencies/UD_French-Sequoia/r2.9/fr_sequoia-ud-train.conllu" -O "fr_sequoia-ud-train.conllu"
# !wget -nc "https://sharedocs.huma-num.fr/wl/?id=lpoZ2kAIwONHyAD3tyS9pfE3Jl464Zlp&download=1" -O "fr_sequoia-sud-train.conllu"
Loïc Grobol
.fr_sequoia-ud-train.conllu
?76
.fr_sequoia-sud-train.conllu
et quelle est la longueur (en nombre
de mots, pas de tokens) du plus long ?|
, par exemple 1024|31
.annodis.er_00008
dans fr_sequoia-ud-train.conllu
sous la forme
d'un dictionnaire dont les clés sont les dépendants et les valeurs sont les gouverneurs.1
est la racine et dont les arcs sont 1→4
, 4→2
et 4→3
,
afficher {1: 0, 2: 4, 3: 4, 4: 1}
.annodis.er_00008
dans fr_sequoia-ud-train.conllu
sous la forme
d'un dictionnaire dont les clés sont les gouverneurs et les valeurs sont les listes des
dépendants.1
est la racine et dont les arcs sont 1→4
, 4→2
et 4→3
{1: [4], 2: [], 3: [], 4: [2, 3]}
.annodis.er_00008
dans fr_sequoia-ud-train.conllu
sous la
forme d'un dictionnaire dont les clés sont les gouverneurs et les valeurs sont les listes des
descendants.1
est la racine et dont les arcs sont 1→4
, 4→2
et 4→3
,
afficher {1: [2, 3, 4], 2: [], 3: [], 4: [2, 3]}
.fr_sequoia-ud-train.conllu
et fr_sequoia-sud-train.conllu
.|
, par exemple 10.05|11.22
.On dit qu'un arbre syntaxique en dépendances est projectif s'il n'a pas d'arcs qui se
croisent quand les mots sont alignés dans leur ordre d'apparition dans la phrase. Afficher la
proportion d'arbres projectifs dans les corpus fr_sequoia-ud-train.conllu
et
fr_sequoia-sud-train.conllu
.
|
, par exemple 98.05%|90.22%
.Pour les cracks :
Étant donné un arbre syntaxique en dépendances $A$ de $n$ mots et un entier $i$ tel que $1⩽i<n$,
on appelle taille du flux de dépendances à la position $i$ le nombre $f_i(A)$ d'arcs $a⟷b$
(peu importe la direction) de cet arbre tel que $a⩽i<b$, et on note $f(A)=\max_i f_i(A)$ la
valeur maximale de cette taille. Calculer les valeurs moyennes de $f$ pour les arbres du corpus
fr_sequoia-ud-train.conllu
et du corpus fr_sequoia-sud-train.conllu
.
Afficher le résultat sous forme de deux nombres arrondis à deux chiffres après la virgule et
séparés par |
, par exemple 5.32|8.27