HAL Id: hal-03016322
https://hal.parisnanterre.fr//hal-03016322
Submitted on 20 Nov 2020
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-
entic research documents, whether they are pub-
lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destinée au dépôt et à la diusion de documents
scientiques de niveau recherche, publiés ou non,
émanant des établissements d’enseignement et de
recherche français ou étrangers, des laboratoires
publics ou privés.
Le logiciel Prospéro à l’épreuve d’un corpus de résumés
sociologiques
Patrick Trabal
To cite this version:
Patrick Trabal. Le logiciel Prospéro à l’épreuve d’un corpus de résumés sociologiques. Bulletin de
Méthodologie Sociologique / Bulletin of Sociological Methodology, SAGE Publications, 2005, 85, p.10-
43. �hal-03016322�
Le logiciel Prospéro à l'épreuve d'un
corpus de résumés sociologiques
Patrick Trabal
1 Lors du premier congrès de l’Association Française de Sociologie (AFS), fut distribué un
ouvrage contenant les résumés des 1068 communications annoncées dans quelque 43
réseaux thématiques
1
. Ce rassemblement apparaît comme une opportunité sans
précédent d’avoir un état de la sociologie française, même si demeurent des incertitudes
quant à la représentativité de ce corpus par rapport à la discipline.
2 Voici, à première vue, un corpus typique de ceux que l’on analyse à l’aide du logiciel
Prospéro : il s’agit d’un grand nombre de textes, tous écrits dans la même langue, par des
acteurs de la même discipline, partageant un vocabulaire et des concepts communs même
si leurs préoccupations diffèrent. On peut donc soumettre cet ensemble à des opérations
comparatives et faire apparaître des différences selon les auteurs ou leurs appartenances
institutionnelles, ainsi que des rapprochements autour de certains objets, certaines
questions, certains concepts. Deux propriétés fondamentales des séries textuelles à
l’analyse desquelles est voué le logiciel sont cependant absentes de cette collection de
résumés :
•
L’articulation autour d’un même objet ou d’une problématique commune aux différents auteurs,
sur la nature, l’importance, la réalité, les enjeux desquels on cherche à produire un accord :
en effet, Prospéro a vocation à aider le chercheur à identifier des propriétés sur des objets
d’alertes et de controverses, sur la construction des jugements et sur les argumentations
déployées dans des dossiers marqués par de longues séries de textes et de discours
hétérogènes
2
. Or, les résumés présentés au colloque de l’AFS, rédigés sans référence les uns
aux autres, ne visent pas à argumenter autour d’un objet de dispute, mais à présenter des
travaux réalisés séparément – qui plus est sous une forme résumée ou programmatique,
c’est-à-dire dans un format qui s’exprime notamment par une contrainte de longueur et se
prête donc peu au déploiement d’argumentations caractérisant les dossiers habituellement
étudiés à l’aide du logiciel.
•
L’épaisseur temporelle de la collection : nombreuses sont les fonctions du logiciel qui visent à
voir apparaître, disparaître ou se transformer des personnages et des objets dans le dossier dont
rend compte la série textuelle, et à décrire la façon dont les arguments y sont repris et
critiqués, les accords remis en question ou au contraire renégociés, les preuves rediscutées
ou stabilisées. Or, dans notre collection de résumés, la production des discours est non
seulement indépendante, mais en outre simultanée.
3 Que Prospéro peut-il alors apporter au chercheur dés
ireux d’analyser ce corpus ?
3
Si l’on
veut mobiliser dans les meilleures conditions ce logiciel sur cet ensemble de textes, il est
nécessaire de construire un objet se rapprochant de ceux qui préoccupent les
développeurs-utilisateurs de Prospéro. Dans cette perspective, on va regarder le corpus
comme un dossier, c’est-à-dire comme un ensemble de textes dans lesquels se discutent
des notions, s’opposent des points de vue et se déploient des argumentations.
4 Sans proposer une histoire de ce congrès, il est san
s doute utile de préciser qu’il fut
précédé de différentes réunions au cours desquelles des réseaux thématiques en
formation (RTF) furent constitués. En tenant compte de cette phase au cours de laquelle
les sociologues se sont regroupés, on identifie un autre moment, antérieur à la rédaction
des résumés, celui qui a débouché sur la rédaction des « appels à communication » de
chaque RTF. On peut formuler l’hypothèse selon laquelle ces « appels » ont pesé sur les
sociologues dans la rédaction des résumés sous des formes différentes. Il s’agissait en
effet de rédiger leur texte en s’ajustant au mieux à la présentation du réseau choisi pour
que la proposition de communication soit acceptée. Même si cela n’est qu’une formalité
pour les sociologues confirmés, la soumission d’un texte dans un RTF, plutôt que dans un
autre où la même proposition aurait pu être acceptée, peut être sujette à des incertitudes
et à desenjeux. Ceux-ci peuvent porter sur la notoriété du RTF, liée en partie aux
animateurs du groupe, ou sur le public escompté : faut-il assurer une communication
dans un RTF où « l’on connaît bien les gens », ou faut-il au contraire essayer de se faire
connaître ou reconnaître dans un réseau dans lequel il y aura X ou Y ? On peut donc
penser ce corpus comme un ensemble de productions d’acteurs tentant de franchir une
épreuve, de difficulté variable selon les personnes, pour être retenus dans le réseau de
leur choix. Joindre à ce corpus de résumés les appels à communication qui, pourrait-on
dire, les ont générés, permet alors d’introduire une variabilité portant non seulement sur
la forme (le texte d’un appel à communiquer est rédigé généralement de façon
œcuménique afin d’obtenir de nombreuses réponses), mais aussi sur le moment de
rédaction.
5 Nous chercherons donc à évaluer ces effets d’ajustement auxappels à communication – ce
qui nous conduira à recenser la proximité entre les différents textes – et, d’une façon plus
générale, à repérer les contraintes et les ressources des auteurs dans l’écriture de leurs
propositions. Mais auparavant, il semble utile de rendre compte du travail nécessaire
pour utiliser le logiciel.
Travailler avec le logiciel Prospéro
6 Le logiciel fonctionne à partir des textes en langag
e naturel. Parce que le chercheur
bénéficie des dictionnaires et autres ressources des précédents utilisateurs, l'on peut
immédiatement recenser des listes d'éléments présents dans le corpus. Notre attention
est alors portée sur les objets dont les poids sont importants. Le tableau des premiers
éléments de la liste des entités de notre série de résumés figure en annexe (Tableau 1). On
voit qu’il est avant tout question de travail, d’analyse et de sociologie… On pourrait se
contenter de noter cela, en remarquant que ces mots traduisent assez correctement notre
activité. Toutefois, il est clair que le mot « travail » peut intervenir dans des expressions
comme « sociologie du travail », expression que l’on peut construire pour la distinguer de
celle-ci : « travail en sociologie ». Cette activité de codage des expressions est une des
modalités centrales du travail avec le logiciel. Il fonctionne en effet sur l'idée selon
laquelle le chercheur doit assumer la responsabilité des opérations de codage et
d'interprétation, et que ce travail se réalise tout au long de l'exploration du corpus et
non, comme le suggère une tradition de l'analyse des données, à l'issue du calcul
informatique.
Tableau 1 : Liste des 30 premières entités, obtenue avant la construction des expressions
ENTITE
Poids
Q:!Ja
d'occurrences)
travail
621
analyse
501
sociologie
382
processus
355
femmes
341
commwùcation
336
recherche
320
étude(s)
306
acteurs
306
question
271
formes
271
LA-FRANCE@
261
---i=e
iations
259
Jeunes
252
rapports
239
-· . -
. - - ---
Tableau 1 (suite)
7 Cette position, largement développée par Francis Chateauraynaud dans son ouvrage sur
Prospéro
4
, apparaît en rupture avec les attentes habituellement générées par
l'informatique. En effet, l'on attribue souvent à la machine une mission d'objectivation et
une capacité d'administration de la preuve. Cela revient symétriquement à assigner au
chercheur un rôle subalterne alors que plusieurs traditions (en particulier
compréhensive, pragmatique, phénoménologique et ethno-méthodologique) invitent à
penser qu'il n'y a guère de textes sans lecteurs et de lectures sans interprétations.
Toutefois, confier au chercheur le soin de fixer ce qui fait sens, selon lui, dans un
ensemble de textes, ne conduit pas pour autant à une forme de relativisme. En effet, le
logiciel est un moyen d'éprouver ses lectures, d'en suggérer d'autres, de réformer les
interprétations qui ne résistent pas à la confrontation avec les éléments présents ou
absents dans le corpus, et de faire des expériences sur les textes pour enrichir l'analyse.
8 Inutile donc de mobiliser ici les algorithmes visant à établir des co-occurrences entre les
éléments du tableau 1 pour coder des expressions comme "sociologie du travail". Doter le
chercheur de cette capacité à coder "sociologie du travail" pose néanmoins une série de
problèmes. Il s'agit, à un premier niveau, de réserver le même sort à la "sociologie de
l'éducation", la "sociologie de la famille", la "sociologie des religions"… Pour s'assurer de
ne pas en oublier, on peut rechercher à l’aide de formules, des segments du type
< « sociologie » - quelques mots outils (comme « de », « du », « des », « de la ») – n’importe
quelle entité >. Dans le corpus des résumés du congrès de l’AFS, cette requête donne 136
occurrences sous 57 formes différentes, présentées dans le tableau 2. Cette liste fait
apparaître que c’est la sociologie de la connaissance qui réalise le meilleur score (19
apparitions réparties dans 11 textes), alors que la sociologie du travail n’arrive qu’en
deuxième position avec 15 occurrences
5
. D’une façon plus générale, si cette liste donne à
lire les principaux objets de la discipline (au moins pour les formes ayant reçu plus d’une
ETAT-CENTRAL@
233
TRA
V AILLEURS@
233
CHERCHEURS-ENSEIGNANTS@
229
ENFANTS@
227
LA-PLANETE@
225
construction
224
action
217
cadre
201
EUROPE@
196
objet
193
ECOLE@
189
..
vie
189
professionnels
186
production
184
rapport
183