Extraction des « mots » en fonction :
Beaucoup de bruit :
token : chaîne de caractères délimitée par des espaces
Exemple :
Quand le mystère est trop impressionnant, on n’ose pas désobéir
Exercice : compter les bigrammes dans la phrase suivante :
Longtemps je me suis couché de bonne heure
Permet de faire des requêtes dans Google Books :
Exemple : « vélocipède » vs « vélo » vs « bicyclette »
→ L’évolution des fréquences relatives des n-grammes dans le corpus
« the United States are » ou « the United States is »
Utiliser les opérateurs *
et /
:
ouvrier,travailleur,(prolétaire*10)
(ouvrier/10),(travailleur/10),prolétaire
Parenthèses obligatoires !
Sans surprise avec +
et -
:
Avec _{CATEGORIE}
, par exemple
salarié_NOUN
Code | Catégorie |
---|---|
NOUN | nom |
VERB | verbe |
ADJ | adjectif |
ADV | adverbe |
PRON | pronom |
DET | déterminant |
ADP | adposition |
NUM | chiffre |
CONJ | conjonction |
PRT | particule |
Pour les linguistes : c’est un sous-ensemble des Universal Part of Speech.
Un autre usage de *
: remplacer n’import quel mot.
Exemple : une colère *
donne les fréquences de trigrammes dont les deux premiers mots sont
« une » et « colère »
y => x
permet de savoir à quelle fréquence un mot x
(« tigré », « roux » ou « noir ») modifie un mot y (« chat »)
chat=>noir,chat=>roux,chat=>tigré
Le concept de dépendance syntaxique est en fait plus vaste que ça :
regardez par exemple parle=>je,je parle,je * parle
.
Voir la doc
_INF
: formes fléchies d’un verbe > ex : manger_INF
*
avant une catégorie grammaticale : remplace n’importe
quel mot de cette catégorie*_ADJ
renvoie n’importe quel adjectif (les 10 plus fréquents sont
renvoyés)_START_
: début de la phrase_END_
: fin de la phrase_ROOT_
: racine de l’arbre de dépendance de la
phraseCertaines de ces fonctionnalités sont diponibles en accédant au catalogue de Gallica via Gallicagram
Pour les versions précédentes de ce cours que nous avons construit au fil des années, merci à Isabelle Tellier, Kim Gerdes, Serge Fleury, Yoann Dupont, Pablo Ruiz Fabo, Marine Delaborde et Mathilde Regnault.