ApprentissageStatistique & Datamining PHILIPPE BESSE Version Octobre 2006 InstitutdeMathematiques´ deToulouse ´LaboratoiredeStatistiqueetProbabilites—UMRCNRSC5583 InstitutNationaldesSciencesAppliquees´ deToulouse—31077–Toulousecedex4.2Chapitre1 Introduction 1 Objectif L’objetdececoursestd’introduire,sousuneformehomogene` etsynthetique,´ lestechniquesdemodelisation´ ´ ´statistique et issues de la theorise de l’apprentissage utilisees le plus couramment en fouille de donnees´ ou data mining dans des champs d’applications tres` divers : industriels, marketing, ou encore en relation avec ´desthematiques´ derechercheenBiologie,Epidemiologie...´ Lapremiere` partieoupremierobjectifd’unetelledemarche´ :l’explorationstatistiqueetlarecherchede classesestdev´ eloppee´ dansunautredocument(BaccinietBesse2000).Cecourssefocalisesurledeuxieme` objectif de la fouille de donnees´ qui est la recherche d’informations pertinentes (de pepites´ d’information) pourl’aidea` ladecision´ etlaprevision.´ Lasection2suivantedecechapitreintroduita` la fouille de donnees´ tandisquelasection3reprendces objectifs dans le cadre gen´ eral´ de la modelisation´ afin d’en elar´ gir les champs d’application. La section 4 decrit´ la strategie´ tres` gen´ eralement´ mise en place pour optimiser choix de methodes´ et choix de modeles` ; lasection5decrit´ briev` ementquelquesexemplesd’applicationetnotammentceuxutilises´ pourillustrerce cours.Enfin,lasection6listerapidementlesmethodes´ quisontabordees´ ...
ApprentissageStatistique
&
Datamining
PHILIPPE BESSE
Version Octobre 2006
InstitutdeMathematiques´ deToulouse
´LaboratoiredeStatistiqueetProbabilites—UMRCNRSC5583
InstitutNationaldesSciencesAppliquees´ deToulouse—31077–Toulousecedex4.2Chapitre1
Introduction
1 Objectif
L’objetdececoursestd’introduire,sousuneformehomogene` etsynthetique,´ lestechniquesdemodelisation´
´ ´statistique et issues de la theorise de l’apprentissage utilisees le plus couramment en fouille de donnees´ ou
data mining dans des champs d’applications tres` divers : industriels, marketing, ou encore en relation avec
´desthematiques´ derechercheenBiologie,Epidemiologie...´
Lapremiere` partieoupremierobjectifd’unetelledemarche´ :l’explorationstatistiqueetlarecherchede
classesestdev´ eloppee´ dansunautredocument(BaccinietBesse2000).Cecourssefocalisesurledeuxieme`
objectif de la fouille de donnees´ qui est la recherche d’informations pertinentes (de pepites´ d’information)
pourl’aidea` ladecision´ etlaprevision.´
Lasection2suivantedecechapitreintroduita` la fouille de donnees´ tandisquelasection3reprendces
objectifs dans le cadre gen´ eral´ de la modelisation´ afin d’en elar´ gir les champs d’application. La section 4
decrit´ la strategie´ tres` gen´ eralement´ mise en place pour optimiser choix de methodes´ et choix de modeles` ;
lasection5decrit´ briev` ementquelquesexemplesd’applicationetnotammentceuxutilises´ pourillustrerce
cours.Enfin,lasection6listerapidementlesmethodes´ quisontabordees´ etlesraisonsquiontconduita` ce
choix.
2 Motivationsdu data mining
2.1 Origine
Le dev´ eloppement des moyens informatiques et de calcul permet le stockage (bases de donnees),´ le
traitement et l’analyse d’ensembles de donnees´ tres` volumineux. Plus recemment,´ le perfectionnement des
logicielsetdeleursinterfacesoffrentauxutilisateurs,statisticiensounon,despossibilites´ demiseenœuvre
tres` simplesdecesmethodes.´ Cetteev´ olution,ainsiquelapopularisationdenouvellestechniquesalgorith
miques (reseaux´ de neurones, support vector machine...) et outils graphiques, conduit au dev´ eloppement
et a` la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) integrant´ un
sous ensemble de m ethodes´ statistiques et algorithmiques utilisees´ sous la terminologie de Data Mining
gen´ eralement´ traduit par fouille de donnees´ (voir Tuffery´ 2007 pour un expose´ plus complet et detaill´ e).´
Cette approche, dont la presentation´ est principalement issue du marketing specialis´ e´ dans la gestion de
la relation client (GRC) (client relation management ou CRM), trouve eg´ alement des dev´ eloppements et
applications industrielles en controleˆ de qualite´ ou memeˆ dans certaines disciplines scientifiques des` lors
quelesingenieurs´ etchercheurssontconfrontes´ a` unvolumededonnees´ important.L’accrochepublicitaire
souventcitee´ parlesediteurs´ delogiciels(SAS)est:
Comment trouver un diamant dans un tas de charbon sans se salir les mains.
Nousproposonsd’ev´ alueretd’experimenter´ larealit´ e´ decetteannoncequis’adressea` unmarche´ enpleine
expansion. Les entreprises sont en effet tres` motivees´ pour tirer parti et amortir, par une aide a` la decision´
quantifiee,´ lescoutsˆ destockagedesterasoctetsqueleurserviceinformatiques’emploiea` administrer.
34 Chapitre1. Introduction
2.2 Environnement
Le contexte informationnel de la fouille de donnees´ est celui des data wharehouses. Un entrepotˆ de
donnees,´ dont la mise en place est assure´ par un gestionnaire de donnees´ (data manager) est un ensemble
debasesrelationnellesextraitesdesdonnees´ brutesdel’entrepriseetrelativesa` uneproblematique´ :
• gestion des stocks (flux tendu), des ventes d’un groupe afin de prev´ oir et anticiper au mieux les
´tendancesdumarche,
• suivi des fichiers clients d’une banque, d’une assurance, associes´ a` des donnees´ socio economiques´
(INSEE), a` l’annuaire, en vue de la constitution d’une segmentation (typologie) pour cibler des
operations´ de marketing ou des attributions de credit.´ La gestion de la relation client (GRC ou
CRM) vise a` une individualisation ou personnalisation de la production et de la communication afin
d’ev´ acuerlanotionde client moyen.
• recherche,specification´ puisciblagedenichesdemarche´ lesplusprofitables(banque)ouaucontraire
lesplusrisquees´ (assurance);
• suivi en ligne des parametres` de production (trac¸abilite)´ en controleˆ de qualite´ pour detecter´ au plus
vitel’origined’unedef´ aillance;
• prospectiontextuelle(text mining)etveilletechnologique;
• web miningetcomportementdesinternautes;
• ...
Cetenvironnementsecaracterise´ par
• une informatique het´ erog´ ene` faisant intervenir des sites distants (Unix, Dos, NT, VM...) a` travers
le reseau´ de l’entreprise (intranet) ou memeˆ des acces` exterieurs´ (internet). Des contraintes d’effica
cite,´ de fiabilite´ ou de securit´ e´ conduisent a` repartir´ , stocker l’information a` la source plutotˆ qu’a` la
dupliquersystematiquement´ oua` lacentraliser.
• L’incompatibilite´ logiquedesinformationsobservees´ surdesechantillons´ differents´ nepresentant´ pas
lesmemesˆ strates,lesmemesˆ codifications.
• Desvolumesetfluxconsiderables´ dedonnees´ issuesdesaisiesautomatisees´ etchiffres´ entera octets.´
• Contrairement a` une demarche´ statistique traditionnelle (planification de l’experience),´ les donnees´
´ ´ ` ´ ˆ ´ `analyseessontstockeesad’autresfins(comptabilite,controledequalite...)etsontdonc prealables´ a
l’analyse.
• La necessit´ e´ de ne pas exclure a priori un traitement exhaustif des donnees´ afin de ne pas lais
ser echapper´ , a` travers le crible d’un sondage, des groupes de faibles effectifs mais a` fort impact
economique.´
3 Apprentissagestatistique
Un peu de recul permet d’inscrire la demarche´ de la fouille de donnees´ dans un contexte plus large et
doncpotentiellementpluspropicea` d’autresdomainesd’application.
3.1 Objectifgen´ eral´
Des` qu’unphenom´ ene,` qu’ilsoitphysique,biologiqueouautre,esttropcomplexeouencoretropbruite´
´ ` ´ ´ ´pouraccederaunedescriptionanalytiquedebouchantsurunemodelisationdeterministe,unensembled’ap
proches ont et´ e´ elabor´ ees´ afin d’en decrire´ au mieux le comportement a` partir d’une serie´ d’observations.
Citons la reconnaissance de la parole ou de caracteres` manuscrits, l’imagerie medicale´ ou satellitaire, la
prevision´ d’une grandeur climatique ou economique,´ du d’un client...la plupart des disci
plinesscientifiquessontconcernees.´ Historiquement,laStatistiques’estbeaucoupdev´ eloppee´ autourdece
typedeproblemes` etapropose´ desmodeles` incorporantd’unepartdesvariablesexplicativesoupredictives´
et,d’autrepart,unecomposantealeatoire´ oubruit.Ils’agitalorsd’estimerlesparametr` esdumodele` a` par
tirdesobservationsencontrolantˆ aumieuxlespropriet´ es´ etdonclecomportementdedelapartiealeatoire.´
Danslamemeˆ situation,lacommunaute´ informatiqueparleplutotˆ d’apprentissagevisantlememeˆ objectif.
Apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les
principauxmots clefs.
3.2 Problematiques´3. Apprentissage statistique 5
Supervise´ vs. non supervis e´
Distinguonsdeuxtypesdeproblemes` :lapresence´ ounond’unevariablea` expliquerY oud’uneforme
a` reconnaˆıtrequia et´ e,´ conjointementavecX,observee´ surlesmemesˆ objets.Danslepremiercasils’agit
bien d’un probleme` de modelisation´ ou apprentissage supervise´ : trouver une fonction φ susceptible, au
mieuxselonuncritere` a` definir´ ,dereproduireY ayantobserve´ X.
Y =φ(X)+ε
ou` ε symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive.
Encasd’erreurmultiplicative,unetransformationlogarithmiqueramene` auprobleme` prec´ edent.´
`Dans le cas contraire, en l’absence d’une variable a expliquer, il s’agit alors d’apprentissage dit non
supervise. L’objectif gen´ eralement´ poursuivi est la recherche d’une typologie ou taxinomie des observa ´
tions:commentregroupercelles cienclasseshomog enes` maislesplusdissemblablesentreelles.C’estun
probleme` declassification(clustering).
Attention,l’anglaisclassificationsetraduitplutotˆ enfranc¸aispardiscriminationouclassement(appren
tissage supervise)´ tandis que la recherche de classes (clustering) (apprentissage non supervis e)´ fait appel
a` des methodes´ de classification ascendante hierarchique´ ou a` des algorithmes de reallocation´ dynamique
(k means)oudecartesauto organisatrices(Kohonen).Cesm ethodes´ declassificationouclusteringnesont
pasabordees´ ici,ellesontet´ e´ regroupees´ aveclestechniquesexploratoires(BaccinietBesse2000).
Modelisation´ vs. apprentissage
Tout au long de ce document, les termes de modelisation´ et d’apprentissage sont utilisees´ comme
des synonymes ce qui est abusif tant que les objectifs d’une etude´ n’ont pas et´ e´ clairement explicites.´
Dans la tradition statistique, la notion de modele` est centrale surtout avec une finalite´ explicative. Il s’agit
alors d’approcher la realit´ e,´ le vrai modele,` suppose´ exister, ev´ entuellement base´ sur une theorie´ physique,
economique...´ sous jacente.Lechoixdumod ele` (cf.ci dessous)estalorsguid e´pardescriteres` d’ajustement
etlesdecisions´ devalidite,´ depresence´ d’effets,basees´ surdestestsreposanteux m emesˆ surdeshypotheses`
probabilistes.L’interpretation´ duroleˆ dechaquevariableexplicativeestprepond´ erante´ danslademarche.´
Enrevanche,sil’objectifestessentielment` predictif´ ,ilapparaˆıtquelemeilleurmodele` n’estpasnecessairement´
celui qui ajusterait le mieux le vrai modele.` La theorie´ de l’apprentissage (Vapnik, 1999) montre alors que
le cadre theorique´ est different´ et les majorations d’erreur requierent` une autre approche. Les choix sont
bases´ surdescriteres` dequalite´ deprevision´ visanta` larecherchedemodeles` parcimonieux,c’est a dire` de
complexite´ (nombredeparametres` ouflexibilite´ limitee)´ dontl’interpretabilit´ e´ passeaudeuxieme` plan.La
deuxieme` devisedesShadoks(voirfiguredevshad)n’estpasuneref´ erence´ a` suivreenStatistique!
Discriminationvs. regr´ ession
Le type des variables stat