https://www.corpusthomisticum.org/it/index.age
De quoi s’agit-il ?
Roberto Busa (1913 — 2011) était un prêtre jésuite italien spécialiste de Thomas d’Aquin
According to the scholarly practices, I first > searched through tables and subject indexes for the words of praesens and praesentia. I soon learned that such words in Thomas Aquinas are peripheral: his doctrine of presence is linked with the preposition in. My next step was to write out by hand 10 000 3”×5” cards, each containing a sentence with the word in or a word connected with in. Grand games of solitaire follow. (Busa, 1980)
Réalisation immédiate : la tâche est trop vaste pour être faite sans assistance
Il se met donc en quête de « machinerie » pour l’aider
any gadget that might help (Busa, 1980)
Il parvient à obtenir l’aide gracieuse d’IBM pour le réaliser
Le projet a duré 30 ans, pour produire une transcription complète de 179 ouvrages en forme lisible par des machines de l’époque (des cartes perforées !), et une lemmatisation semi-automatique.
On identifie souvent l’index thomisticus comme le premier travail d’humanités numériques mené à terme, même si Busa suggère que d’autres initiatives plus anciennes ont existé.
Quoi qu’il en soit, c’est un travail d’une ampleur exceptionnelle pour l’époque qui a eu une influence considérable sur le développement des HN et du TAL en montrant que ce genre d’entreprise était possible.
Revenons sur la thèse de Busa
Le lecteur ne doit pas simplement attacher ses propres significations aux mots qu’il lit, mais il doit aussi rechercher les significations que les mots ont pour l’auteur lui-même.
Elle reflète entre autres les idées dites du tournant linguistique en philosophie.
Par ailleurs tous les mots fonctionnels et grammaticaux (qui dans mon esprit ne sont pas vides du tout mais au contraire très riche sur le plan philosophique) manifestent la logique la plus profonde de l’être qui génère les structures de base du discours humain ». (Busa, 1980)
La notion de statistiques textuelles est antérieure à Busa et se développe parallèlement à ses travaux Lebart et Salem (, 1994).
On parle autour des années 80 de lexicométrie, puis autour des années 2000 de textométrie, pour rendre plus explicite qu’on ne se limite pas au simple lexique (Pincemin, 2020).
Ces évolutions vont de pair avec
L’intérêt grandissant pour les méthodes de statistiques textuelles va aussi de pair avec la création de logiciels permettant à des non-informaticien⋅ne⋅s de les mettre en œuvre :
Premières initiatives :
En français :