Apprentissage Statistique & Data mining

Thaum

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

128 pages

Catalan

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Sujets

ApprentissageStatistique & Datamining PHILIPPE BESSE Version Octobre 2006 InstitutdeMathematiques´ deToulouse ´LaboratoiredeStatistiqueetProbabilites—UMRCNRSC5583 InstitutNationaldesSciencesAppliquees´ deToulouse—31077–Toulousecedex4.2Chapitre1 Introduction 1 Objectif L’objetdececoursestd’introduire,sousuneformehomogene` etsynthetique,´ lestechniquesdemodelisation´ ´ ´statistique et issues de la theorise de l’apprentissage utilisees le plus couramment en fouille de donnees´ ou data mining dans des champs d’applications tres` divers : industriels, marketing, ou encore en relation avec ´desthematiques´ derechercheenBiologie,Epidemiologie...´ Lapremiere` partieoupremierobjectifd’unetelledemarche´ :l’explorationstatistiqueetlarecherchede classesestdev´ eloppee´ dansunautredocument(BaccinietBesse2000).Cecourssefocalisesurledeuxieme` objectif de la fouille de donnees´ qui est la recherche d’informations pertinentes (de pepites´ d’information) pourl’aidea` ladecision´ etlaprevision.´ Lasection2suivantedecechapitreintroduita` la fouille de donnees´ tandisquelasection3reprendces objectifs dans le cadre gen´ eral´ de la modelisation´ aﬁn d’en elar´ gir les champs d’application. La section 4 decrit´ la strategie´ tres` gen´ eralement´ mise en place pour optimiser choix de methodes´ et choix de modeles` ; lasection5decrit´ briev` ementquelquesexemplesd’applicationetnotammentceuxutilises´ pourillustrerce cours.Enﬁn,lasection6listerapidementlesmethodes´ quisontabordees´ etlesraisonsquiontconduita` ce choix. 2 Motivationsdu data mining 2.1 Origine Le dev´ eloppement des moyens informatiques et de calcul permet le stockage (bases de donnees),´ le traitement et l’analyse d’ensembles de donnees´ tres` volumineux. Plus recemment,´ le perfectionnement des logicielsetdeleursinterfacesoffrentauxutilisateurs,statisticiensounon,despossibilites´ demiseenœuvre tres` simplesdecesmethodes.´ Cetteev´ olution,ainsiquelapopularisationdenouvellestechniquesalgorith miques (reseaux´ de neurones, support vector machine...) et outils graphiques, conduit au dev´ eloppement et a` la commercialisation de logiciels (Enterprise miner, Clementine, Insightfull miner...) integrant´ un sous ensemble de m ethodes´ statistiques et algorithmiques utilisees´ sous la terminologie de Data Mining gen´ eralement´ traduit par fouille de donnees´ (voir Tuffery´ 2007 pour un expose´ plus complet et detaill´ e).´ Cette approche, dont la presentation´ est principalement issue du marketing specialis´ e´ dans la gestion de la relation client (GRC) (client relation management ou CRM), trouve eg´ alement des dev´ eloppements et applications industrielles en controleˆ de qualite´ ou memeˆ dans certaines disciplines scientiﬁques des` lors quelesingenieurs´ etchercheurssontconfrontes´ a` unvolumededonnees´ important.L’accrochepublicitaire souventcitee´ parlesediteurs´ delogiciels(SAS)est: Comment trouver un diamant dans un tas de charbon sans se salir les mains. Nousproposonsd’ev´ alueretd’experimenter´ larealit´ e´ decetteannoncequis’adressea` unmarche´ enpleine expansion. Les entreprises sont en effet tres` motivees´ pour tirer parti et amortir, par une aide a` la decision´ quantiﬁee,´ lescoutsˆ destockagedesterasoctetsqueleurserviceinformatiques’emploiea` administrer. 34 Chapitre1. Introduction 2.2 Environnement Le contexte informationnel de la fouille de donnees´ est celui des data wharehouses. Un entrepotˆ de donnees,´ dont la mise en place est assure´ par un gestionnaire de donnees´ (data manager) est un ensemble debasesrelationnellesextraitesdesdonnees´ brutesdel’entrepriseetrelativesa` uneproblematique´ : • gestion des stocks (ﬂux tendu), des ventes d’un groupe aﬁn de prev´ oir et anticiper au mieux les ´tendancesdumarche, • suivi des ﬁchiers clients d’une banque, d’une assurance, associes´ a` des donnees´ socio economiques´ (INSEE), a` l’annuaire, en vue de la constitution d’une segmentation (typologie) pour cibler des operations´ de marketing ou des attributions de credit.´ La gestion de la relation client (GRC ou CRM) vise a` une individualisation ou personnalisation de la production et de la communication aﬁn d’ev´ acuerlanotionde client moyen. • recherche,speciﬁcation´ puisciblagedenichesdemarche´ lesplusproﬁtables(banque)ouaucontraire lesplusrisquees´ (assurance); • suivi en ligne des parametres` de production (trac¸abilite)´ en controleˆ de qualite´ pour detecter´ au plus vitel’origined’unedef´ aillance; • prospectiontextuelle(text mining)etveilletechnologique; • web miningetcomportementdesinternautes; • ... Cetenvironnementsecaracterise´ par • une informatique het´ erog´ ene` faisant intervenir des sites distants (Unix, Dos, NT, VM...) a` travers le reseau´ de l’entreprise (intranet) ou memeˆ des acces` exterieurs´ (internet). Des contraintes d’efﬁca cite,´ de ﬁabilite´ ou de securit´ e´ conduisent a` repartir´ , stocker l’information a` la source plutotˆ qu’a` la dupliquersystematiquement´ oua` lacentraliser. • L’incompatibilite´ logiquedesinformationsobservees´ surdesechantillons´ differents´ nepresentant´ pas lesmemesˆ strates,lesmemesˆ codiﬁcations. • Desvolumesetﬂuxconsiderables´ dedonnees´ issuesdesaisiesautomatisees´ etchiffres´ entera octets.´ • Contrairement a` une demarche´ statistique traditionnelle (planiﬁcation de l’experience),´ les donnees´ ´ ´ ` ´ ˆ ´ `analyseessontstockeesad’autresﬁns(comptabilite,controledequalite...)etsontdonc prealables´ a l’analyse. • La necessit´ e´ de ne pas exclure a priori un traitement exhaustif des donnees´ aﬁn de ne pas lais ser echapper´ , a` travers le crible d’un sondage, des groupes de faibles effectifs mais a` fort impact economique.´ 3 Apprentissagestatistique Un peu de recul permet d’inscrire la demarche´ de la fouille de donnees´ dans un contexte plus large et doncpotentiellementpluspropicea` d’autresdomainesd’application. 3.1 Objectifgen´ eral´ Des` qu’unphenom´ ene,` qu’ilsoitphysique,biologiqueouautre,esttropcomplexeouencoretropbruite´ ´ ` ´ ´ ´pouraccederaunedescriptionanalytiquedebouchantsurunemodelisationdeterministe,unensembled’ap proches ont et´ e´ elabor´ ees´ aﬁn d’en decrire´ au mieux le comportement a` partir d’une serie´ d’observations. Citons la reconnaissance de la parole ou de caracteres` manuscrits, l’imagerie medicale´ ou satellitaire, la prevision´ d’une grandeur climatique ou economique,´ du d’un client...la plupart des disci plinesscientiﬁquessontconcernees.´ Historiquement,laStatistiques’estbeaucoupdev´ eloppee´ autourdece typedeproblemes` etapropose´ desmodeles` incorporantd’unepartdesvariablesexplicativesoupredictives´ et,d’autrepart,unecomposantealeatoire´ oubruit.Ils’agitalorsd’estimerlesparametr` esdumodele` a` par tirdesobservationsencontrolantˆ aumieuxlespropriet´ es´ etdonclecomportementdedelapartiealeatoire.´ Danslamemeˆ situation,lacommunaute´ informatiqueparleplutotˆ d’apprentissagevisantlememeˆ objectif. Apprentissage machine (ou machine learning), reconnaissance de forme (pattern recognition) en sont les principauxmots clefs. 3.2 Problematiques´3. Apprentissage statistique 5 Supervise´ vs. non supervis e´ Distinguonsdeuxtypesdeproblemes` :lapresence´ ounond’unevariablea` expliquerY oud’uneforme a` reconnaˆıtrequia et´ e,´ conjointementavecX,observee´ surlesmemesˆ objets.Danslepremiercasils’agit bien d’un probleme` de modelisation´ ou apprentissage supervise´ : trouver une fonction φ susceptible, au mieuxselonuncritere` a` deﬁnir´ ,dereproduireY ayantobserve´ X. Y =φ(X)+ε ou` ε symbolise le bruit ou erreur de mesure avec le parti pris le plus commun que cette erreur est additive. Encasd’erreurmultiplicative,unetransformationlogarithmiqueramene` auprobleme` prec´ edent.´ `Dans le cas contraire, en l’absence d’une variable a expliquer, il s’agit alors d’apprentissage dit non supervise. L’objectif gen´ eralement´ poursuivi est la recherche d’une typologie ou taxinomie des observa ´ tions:commentregroupercelles cienclasseshomog enes` maislesplusdissemblablesentreelles.C’estun probleme` declassiﬁcation(clustering). Attention,l’anglaisclassiﬁcationsetraduitplutotˆ enfranc¸aispardiscriminationouclassement(appren tissage supervise)´ tandis que la recherche de classes (clustering) (apprentissage non supervis e)´ fait appel a` des methodes´ de classiﬁcation ascendante hierarchique´ ou a` des algorithmes de reallocation´ dynamique (k means)oudecartesauto organisatrices(Kohonen).Cesm ethodes´ declassiﬁcationouclusteringnesont pasabordees´ ici,ellesontet´ e´ regroupees´ aveclestechniquesexploratoires(BaccinietBesse2000). Modelisation´ vs. apprentissage Tout au long de ce document, les termes de modelisation´ et d’apprentissage sont utilisees´ comme des synonymes ce qui est abusif tant que les objectifs d’une etude´ n’ont pas et´ e´ clairement explicites.´ Dans la tradition statistique, la notion de modele` est centrale surtout avec une ﬁnalite´ explicative. Il s’agit alors d’approcher la realit´ e,´ le vrai modele,` suppose´ exister, ev´ entuellement base´ sur une theorie´ physique, economique...´ sous jacente.Lechoixdumod ele` (cf.ci dessous)estalorsguid e´pardescriteres` d’ajustement etlesdecisions´ devalidite,´ depresence´ d’effets,basees´ surdestestsreposanteux m emesˆ surdeshypotheses` probabilistes.L’interpretation´ duroleˆ dechaquevariableexplicativeestprepond´ erante´ danslademarche.´ Enrevanche,sil’objectifestessentielment` predictif´ ,ilapparaˆıtquelemeilleurmodele` n’estpasnecessairement´ celui qui ajusterait le mieux le vrai modele.` La theorie´ de l’apprentissage (Vapnik, 1999) montre alors que le cadre theorique´ est different´ et les majorations d’erreur requierent` une autre approche. Les choix sont bases´ surdescriteres` dequalite´ deprevision´ visanta` larecherchedemodeles` parcimonieux,c’est a dire` de complexite´ (nombredeparametres` ouﬂexibilite´ limitee)´ dontl’interpretabilit´ e´ passeaudeuxieme` plan.La deuxieme` devisedesShadoks(voirﬁguredevshad)n’estpasuneref´ erence´ a` suivreenStatistique! Discriminationvs. regr´ ession Le type des variables stat