Traitement des interactions langagiŁresdans les collectifs humains mØdiatisØsUne approche par les actes de dialogueGabriel RipocheLIMSI-CNRS18 novembre 2002à–Projet « Organizational Dynamics of Software Problems »CollaborateursLes Gasser – ISRL, University of IllinoisWalt Scacchi ISR, University of CaliforniaJean-Paul Sansonnet et Bill Turner LIMSIObjectifs du projet tudier la gestion collectiv e des problŁmes logicielsL objectif est de comprendre comment l es problŁmes logiciels sont gØrØs collectivement au sein de projets importants, en basant les recherches sur l Øtude d une base empirique de grande envergure. Le but de ces recherches est de contribuer l Ølaboration d une thØorie de la gestion de problŁmes logiciels.DØvelopper de nouveaux outils de supportUne thØorie de la gestion de problŁmes logiciels permettrait de concevoir de nouveaux outils intØgrant les concepts de socio-informatique mis en relief dans l Øtape prØcØdente. Au del des outils, ce sont les pratiques qui pourraient bØnØficier d une mei lleure comprØhension des processus impliquØs dans la gestion de problŁmes logiciels.Approche LIMSI tudier les in teractions collectivesL approche du LIMSI consiste s intØresser plus spØcifiquement l in teraction prenant place au sein du collectif et identifier le r l e qu ell e joue dans la construction et dans l Øvoluti on des pratiques collectives distribuØes.ModØliser les pratiquesUn des ØlØments clØ dans l Ølaboration d une ...
Traitement des interactions langagières dans les collectifs humains médiatisés
Une approche par les actes de dialogue
Gabriel Ripoche LIMSI-CNRS
18 novembre 2002
Projet « Organizational Dynamics of Software Problems »
Collaborateurs Les Gasser ISRL, University of Illinois Walt Scacchi ISR, University of California Jean-Paul SansonnetetBill Turner LIMSI
Objectifs du projet Étudier la gestion collective des problèmes logiciels Lobjectif est de comprendre comment les problèmes logiciels sont gérés collectivement au sein de projets importants, en basant les recherches sur létude dune base empirique de grande envergure. Le but de ces recherches est de contribuer à lélaboration dune théorie de la gestion de problèmes logiciels. Développer de nouveaux outils de support Une théorie de la gestion de problèmes logiciels permettrait de concevoir de nouveaux outils intégrant les concepts de socio-informatique mis en relief dans létape précédente. Au delà des outils, ce sont les pratiques qui pourraient bénéficier dune meilleure compréhension des processus impliqués dans la gestion de problèmes logiciels.
Approche LIMSI Étudier les interactions collectives Lapproche du LIMSI consiste à sintéresser plus spécifiquement à linteraction prenant place au sein du collectif et à identifier le rôle quelle joue dans la construction et dans lévolution des pratiques collectives distribuées. Modéliser les pratiques Un des éléments clé dans lélaboration dune théorie des PCD consiste à concevoir un modèle offrant un cadre formel aux différentes études de linteraction qui vont être menées. Ce modèle doit permettre de décomposer les pratiques en éléments plus facilement manipulables et de servir de lien entre les différents niveaux danalyse.
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
2
Le collectif étudié : Bugzilla
Communautés Open Source Modèle de PCD Les communautés open source fonctionnent selon le modèle du Bazaar (décrit par Eric S. Raymond) dont les principales caractéristiques en font un sujet détude idéal pour les PCD :peu de structure hiérarchique, participation spontanée,forte distribution des ressources(géographiques, techniques, logistiques, etc.). Facilité détude Une très grande majorité des interactions au sein de ces communautés se font sousforme électronique du fait de la forte distribution géographique principalement, mais également afin de constituer une base de connaissances pour la communauté et les archives sontaccessibles librement.
Mozilla 5 ans dactivité Grand nombre de participants14 000 rapporteurs, 800 développeurs. Projet dune grande complexité 1 projet principal (navigateur Internet) et plusieurs projets annexes (constituants ou facilitateurs).
Bugzilla Système de gestion de bugs Visualisation et recherche de rapports de bugs; aide à la mise en place dune collaboration efficace. Taille importante 150 000 rapports de bugs et environ 1 500 000 commentaires langagiers. Représentation de Mozilla Bugzilla capture la quasi totalité des interactions liées à la gestion des problèmes dans le collectif Mozilla. De ce point de vue, ce système fait office de représentation du collectif dans le contexte des activités liées à la gestion des problèmes. Il est donc possible, à partir du « corpus Bugzilla », détudier les pratiques à luvre dans ce contexte.
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
3
Le corpus Bugzilla
: des rapports de bugs
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
4
Pertinence de létude et du traitement des interactions langagières
Pourquoi les interactions ? Représentativité Les interactions tiennent lieu de représentation indirecte des actions intervenant au sein du collectif. Linteraction parle de(action passée ou future) ouporte sur(action présente) une action spécifique. Persistance Les interactions sont les seules« traces » persistantesde lactivité dun collectif. Ce sont donc les uniques données qui peuvent être obtenues et analysées en dehors dune étude « sur le vif ».
Pourquoi la langue naturelle ? Dominance Contrairement au paradigme classique de la communication Homme-Machine où il est aisé (voire nécessaire) de formaliser linteraction, la communication Homme-Homme (médiatisée par la machine) est largement dominée par les interactions enlangue naturelle. Sémantique Les aspects langagiers apportent unsupportaux éléments plus formels en permettant lajustificationdes états et des actions représentés par ces éléments. Ils sont donc porteurs dusensqui explique lévolution du collectif.
Pourquoi un traitement automatique ? Quantité Étant donnée limportance des corpus dinteractions, les méthodes danalyse manuelles sont inappropriées et seul un traitement automatiquepeut mener à des résultats significatifs dans des temps raisonnables. Spécificité Lobjectif principal est de se faire comprendre par tout le monde, doù unestandardisationdu langage (qui est dautant plus importante que le collectif est fortement distribué et donc disparate au niveau linguistique). Par ailleurs, la forte spécialisation de la tâche conduit à une sorte de «langage métier». Extraction Lobjectif nest pas de comprendre lintégralité des interactions ayant lieu au sein du collectif mais seulement dextraireles informations nécessaires à la modélisation des pratiques collectives distribuées.
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
5
Définition dune taxonomie dactes de dialogue pour linteraction collective
Utilisation de l'existant De nombreux travaux ont été effectués dans le domaine de la modélisation des conversations. Ces taxonomies ont servi de base au développement dune taxonomie adaptée aux spécificités des interactions collectives. La taxonomie résultante reste par ailleurs compatible avec les différents concepts introduits dans ces taxonomies (niveaux de tâche, topic, etc.) même sils nont pas été utilisés dans ce travail. Adaptation au corpus La définition de la taxonomie est également basée sur une pré-étude dun sous-ensemble du corpus Bugzilla (environ 20 rapports de bugs). Les messages ont été annotés manuellement et la taxonomie a été élaborée selon un processus de raffinements successifs.
Autres Acknowledge Request attention Sorry Thanks Copy Semi-formal Data Unknown
ack attreq sor thx cop semf dat ukn
Répartition par catégories Lobjectif principal est de développer un outil permettant dobserver «ce que les gens font» au sein du collectif. Les actes de dialogue ont donc été répartis selon le type de contribution quils représentent. Pas de structure a priori La plupart des taxonomies existantes imposent une structure de dialogue en définissant des mécanismes darticulation régissant les actes de dialogue (ex.: fonctions avant et arrières). Cette taxonomie considère que ces mécanismes sont despropriétés implicitesdes différents types dactes de dialogue et quil nest pas nécessaire de les annoter explicitement. Ce choix allège aussi le processus dannotation.
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
6
Développement dun outil dannotation assistée
Caractéristiques Fichier de définition des balises Utilisation simultanée de plusieurs sets de balises Relations (hyperliens) entre actes de dialogue Commentaires attachés aux balises Fonctions de visualisation (filtrage, coloration)
Propriétés annotées Actes de dialogue Relations entre actes de dialogue
Bugzilla database
Bug report
Zentag (GUI)
Annotated database
Annotated report
Scripts
Zentag (engine)
------ Additional Comment #1 From Actor-2 2001-10-12 20:35 -----Actor-1 -<opireq id=17>any ideas where this should go?</opireq> <sug id=18>Netwerking or event handling?</sug>
------ Additional Comment #2 From Actor-1 2001-10-13 13:02 -----<act id=19 ref=17>over to Editor first</act>. <inf id=20>Confirmed</inf> <cnd id=21 ref=20>with 081108 on NT</cnd>
------ Additional Comment #3 From Actor-3 2001-10-16 06:36 -----<act id=22>moving to networking</act>,<jst id=23 ref=22>this is not an editor issue</jst>
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
7
Zentag : un outil pour lannotation assistée dinteractions langagières
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
8
Analyse des données annotées
Rapports annotés Nombre de messages Actes de dialogue Relations
58 579 3161 880
Taxonomie pertinente Catégories principales : 85% / Inconnus : 3,13% (les catégories principales (64,5%) sont : Action, Information et Opinion, auxquelles se rajoute la valeur informative ou suggestive de la classe des Modificateurs (20,5%))
Importance de linformation 55% des actes ont une valeur informative (en considérant la valeur informative des Modificateurs) Une grande partie de lactivité du collectif a pour objectif de construire uneconnaissance collectivedu problème, de ses symptômes et des informations utiles à sa résolution.
Structure du dialogue clairsemée 10% des actes liés (les relations « modificatrices » ne sont pas prises en compte car elles nexpriment pas la structure mais un processus de raisonnement) La structure apparaît très faiblement au niveau des actes de dialogue. Cela peut provenir du mode de fonctionnement du collectif ou du niveau de représentation.
Peu dinteractions directes 7% de requêtes dont 30% sont liées Indique une grandespontanéitéet une bonneautonomie: le fonctionnement du collectif est appris et les membres se prennent en charge et contribuent deux-mêmes sans que cela leur soit demandé explicitement. Dautre part, peu de requêtes sont directement abordées, ce qui peut sexpliquer par le fait que seuls sexpriment les individus ayant une réponse (les gens ne sachant pas ne disent rien plutôt que dencombrer la discussion).
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
9
Hypothèses sur le fonctionnement du
collectif Bugzilla
Modèle du blackboard Brainstorming Les caractéristiques observées (peu dinteraction directes, importance de linformation, peu dactes liés) indiquent un comportement où tout le monde contribue de linformation sans trop sarticuler avec les autres contributions. Le mode de fonctionnement nest donc pas Individu-Individu (SMA) mais Individu-Collectif (blackboard). Interactions anonymes et publiques Lensemble du collectif a toujours « droit de regard et daction » sur les interactions (même si le destinataire est explicitement nommé). Lobjectif final dune contribution est de compléter la connaissance de lensemble du collectif. Limportance nest pas la personne qui contribue mais ce quelle contribue.
Modèle de lheuristique collective
Blackboard = « carte » dun problème Interactions = construction de la carte Un problème peut être considéré comme un espace de recherche (une carte) qui va être peuplé par les contributions du collectif. Dans ce contexte, un problème sera défini par latopologiede son espace de recherche que les interactions définiront par lapport dinformations telles que : symptômes, contraintes, procédures applicables, etc. Adifférentes classesde problèmes correspondrontdifférentes heuristiquesde définition de la topologie.
Heuristiques collectives = pratiques collectives distribuées On peut alors définir une pratique collective par une ou plusieurs heuristiques particulières, cest-à-dire un type de comportement adapté à la résolution dune classe de problèmes (et par extension : adapté à une activité spécifique).
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés
10
Conclusions sur la représentation des interactions collectives
Limites de lapproche par les actes de dialogue Références manquantes aux niveaux supérieurs Il se peut quun acte fasse référence à lintégralité dun message, ou à une activité ayant lieu au sein du collectif. Une représentation au niveau des actes de dialogue ne permettra pas de faire apparaître ce type de référence. Représentation insuffisante de la structure de linteraction Les actes de dialogue ne permettent pas de rendre compte des relations qui articulent les activités entre elles. La plupart des contributions se font dans le cadre dune activité et pas en relation avec un acte de dialogue spécifique. Il est donc impossible de justifier une action à un instant précis sans connaître lactivité en cours.
Comment modéliser linteraction et les pratiques collectives distribuées ?
Dialogue
Action
Activité
Quelles sont les valeurs illocutoires du message ? Quelles relations les actes de dialogue entretiennent-t-ils entre eux ? Dans quel but la personne envoie-t-elle ce message ? Quelle est linfluence sur les messages précédents / suivants ? Quelles sont les motivations du collectif ? Quel rôle ce message joue-t-il dans la chaîne des activités ? une première tentative de modélisation hiérarchique des PCD
Quel modèle adopter ? Il apparaît que le choix dun modèle permettant de représenter les mécanismes à luvre dans les PCD nest pas chose facile. Dune part il sagit de définir quels sont les apports dun modèle particulier pour létude des pratiques, ce qui pose le problème de lévaluation du modèle ; et dautre part il sagit darticuler les différents niveaux de représentation entre eux, ce qui implique de mieux connaître les mécanismes en jeu. Quelles relations entre action et interaction ? Il sagit de définir la position de linteraction (représentation de laction) par rapport à lactivité du collectif. Peut-on considérer que linteraction sert de base à un modèle hiérarchique des PCD ou doit on considérer quelle est parallèle à cette activité, ce qui permet détudier les apports de linteraction à chaque niveau du modèle ?
Gabriel Ripoche Traitement des interactions langagières dans les collectifs humains médiatisés