Librement adapté du tutoriel d’Aurélien Berra
Voyant Tools est un environnement d’analyse, de lecture et de visualisation de textes numériques. (Rockwell et Sinclair, 2016)
Voyant Tools is a web-based text analysis, reading and visualization environment. Developed by a small team of digital humanities scholars led by Stéfan Sinclair and Geoffrey Rockwell, Voyant Tools is designed for a very wide range of applications and users, from students to researchers and journalists to market analysts. It strives to balance user-friendliness with a range of analytic and interpretive functions.
(Readme de l’entrepôt GitHub contenant le code de Voyant Tools)
Analytical tools are instantiations of interpretive methods that can be woven closely into other hermeneutical things, like text (Rockwell et Sinclair, 2016)
Observez le nuage de mots précédent et disponible également à https://page.hn/fwxr07.
Quand vous aurez réfléchi à ces questions, manipulez les paramètres du nuage :
Termes
/Terms
Observez :
Contextes
/Contexts
Le concordancier (du type Keyword in Context, KWIC).
Pour observer plus méthodiquement l’environnement de travail complet, suivez le lien vers le corpus de Shakespeare.
La configuration par défaut de Voyant combine un ensemble de modules complémentaires et parfois coordonnés. Des panneaux supplémentaires sont présents lorsque vous travaillez sur une collection de textes, comme c’est le cas dans cette série de pièces.
Principe des vues :
Voyant Tools propose actuellement 24 outils en ligne (voir la documentation) :
Testez les fonctions d’export, qui dépendent de l’outil concerné. Elles peuvent fournir :
Quelles sont les fonctions des outils suivants ?
Résumé
/Summary
Documents
Syntagmes
/Phrases
Tendances
/Trends
Corrélations
/Correlations
Collocations
/Collocates
Liens
/Links
Nuage de points
/Scatter plot
Thèmes
/Topics
Voyant vous autorise à créer un corpus de plusieurs manières :
Voici quelques exemples, à l’occasion desquels je précise certains points. Les fichiers mentionnés sont disponibles dans le dossier data de ce même entrepôt (pour les télécharger, faites un clic droit, CTRL-clic ou un clic à deux doigts, en fonction de la configuration de votre système).
La page de Wikipédia réputée la plus longue
Cette page requiert clairement la liste de mots vides « Multilingue », pourquoi ?
Français moderne : Lautréamont, Les Chants de Maldoror
Moyen français : Rabelais, Pantagruel
Latin : César, La Guerre des Gaules (fichier)
Sélectionnez bien sûr les mots vides de la liste « Latin ». Voyez que, faute de lemmatisation, les formes du nom de César (« caesar, caesarem ») ou des mots signifiant « camp » et « ennemis » (« castra, castris » et « hostium, hostes, hostibus ») sont distinguées.
Latin : César, La Guerre des Gaules, texte lemmatisé (fichier)
Sans être parfaite, la lemmatisation suffit ici pour constater la différence avec le texte précédent. Pour vous en assurer, vous pouvez charger les textes dans deux fenêtres et exporter certaines vues ou listes.
Français, espagnol et anglais : Digital Humanities Quarterly 12.1, numéro de revue sur les humanités numériques hispanophones et francophones, en accès libre (licence CC-BY-ND) à charger en version nettoyée depuis le dépôt