Sujet thèse AOC-2009

Thiwyer - Bougha

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

2 pages

Español

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

A propos
Informations
Extrait

Description

Informations

Publié par	Thiwyer
Nombre de lectures	25
Langue	Español

Extrait

Titre:AppariementsémantiquededocumentsXMLMots‐clés:recherched’information,XML,théoriedesgraphes,documentshétérogènes,appariementsémantiqueCesujetdethèserentredanslecontextedelarecherched’information,ets’intéresseparticulièrementàlarecherched’informationdanslesdocumentssemi‐structurésdetypeXML.Laproblématiqueengendréeparcetypededocumentestliéeàlanaturedeleurcontenu.Eneffet,commecesdocumentscomportentdel'information(dutexte)etdescontraintesstructurelles(desbalises),ilsnepeuventpasêtreefficacementexploitésparlestechniquesclassiquesdeRI,quiconsidèrentledocumentcommeungranuled'informationindivisible.Ledéfiàreleverestalorsd'arriveràidentifierautomatiquementl'unitéd'information,enl'occurrenceunélémentdudocumentXML,répondantàlarequêtedel'utilisateur.Denombreusesapprochesontétéproposéesdanslalittératurepourpermettrederenvoyerauxutilisateurscesunitéspertinentes[FLMK2005],[FLT06],[FKLT07].Cesapprochessesontappliquéesàrenvoyerdespartiesdedocumentsrépondantdemanièrespécifiqueetexhaustiveaubesoineninformationdel’utilisateur,exprimésousformederequête.Desreprésentationsàbasedegraphesouplusparticulièrementd’arbressontsouventutilisées,maislathéoriedesgraphessous‐ jacenteestpeuexploitée.Cettedernièrenepermeteneffetquedesprocessusd’appariementdocuments‐requêtesbaséssurdespropriétésdestructure.DanslecasderecherchedansdescorpusdedocumentsXML,ilestnécessaired’yadjoindreunereprésentationcomplémentairedansunautreformalisme,cequipermettraitdeprendreencomptelasémantiquedesdocumentsetrendraitl’appariementcomplexeetimprécis.Lathéoriedesgraphespourraitpourtantêtreuneaideprécieusepourl’appariementdestructures,aided’autantplusnécessairelorsquelesdocumentsàtraiterfontpartiedecorpushétérogènes.L’hétérogénéitédesdocumentspeuteneffetportersurplusieurspoints:leurtailleouleurcontenu,maisaussileurstructure.Danslecasdecollectionsforméesdedocumentspossédantdestaillesetdescontenusdifférents,lesméthodesproposéesdanslalittératurenes’appliquentpasdemanièreoptimale.Eneffet,lesévaluationsdepertinencedesélémentsnepeuventpass’effectuerdelamêmemanièrequandundocumentfaitquelquesKoetqu’ilpossèdeuneunitésémantique(iltraited’unmêmethème,aussigénéralistesoit‐il)quelorsqu’ilfait300Moetqu’ilestconçucommeuncataloguededonnées.Desméthodesdecorrespondanced’arbresdoiventêtredéveloppées,etuneréflexiondoitêtremenéesurletraitementparallèledesdocumentsorientésdonnéesetdesdocumentsorientéscontenu.Considéronsmaintenantl’hétérogénéitéstructurelle.UnecollectionpossèdedesstructureshétérogèneslorsquelesdocumentsquilacomposentsuiventdesDTDsdifférentes.Alorsquelesapprochesproposéesdanslalittératurepourl’interrogationdecorpuspossédantdesdocumentssuivantlamêmeDTDcherchentàvérifierdescorrespondancessyntaxiquesentrelesarbresdelarequêteetdesdocuments,lesapprochespourlescorpushétérogènesdoiventchercherquantàellesàvérifierdescorrespondancessémantiquesetpermettrel’interrogationgénériquedescorpus:lesconditionsdestructuresexpriméesparlesutilisateursdanslarequêtenecorrespondentpasforcémentexactementauxschémasouDTDdesdocumentsprésentsdanslecorpus,maiscesdernierspourraientpourtantêtrepertinentspourl'utilisateur.Plusieurspistesderecherchessontpossibles.Unepremièresolutionestd'utiliserunlexique,unthésaurusouuneontologiepourfairecorrespondrelesconditionsdestructuresexpriméesdanslarequêteaveclestypesd'élémentseffectivementprésentsdanslacollection[ThWe02].D'autresapproches,commecelleproposéeparDenoyeretal.dans[DeWG04]ouAbitebouletal.dans[AMNP04]visentàproposerunformatmédiandanslequeltouslesdocumentsducorpus(et

éventuellementlesrequêtes)peuventêtretransforméspourensuiteappliquerdestechniquestraditionnellesdetraitementdesrequêtesstructurées.Touslesdocumentsdevrontcependantêtretransformésseloncettestructuregénérique,aurisquedeperdrequelquepeudelasémantiqueportéeparleurstructure.PourconstruireetinterrogerdescollectionsXMLhétérogènes,l’apprentissageautomatiquedesrelationsentrelesdifférentsformatsetdestransformationsentrelesdifférentsdocumentsestunainsiproblèmeimportant.Laclassification,leclusteringetlacorrespondancedestructuressontdoncdesdéfismajeursàreleverpourlagestiondesdocumentssemi‐structurés.Lespropositionseffectuéesdanslecadredecettethèsevisantdoncàs’appuyersurdesoutilsdelathéoriedesgraphespourlaRIstructuréedanslescorpushétérogènes,pourrontêtreévaluéesgrâceàlacampagned’évaluationINEX,quifournituncadregénériquepourl’évaluationdelarecherched’informationstructurée:collections,requêtes,jugementsdepertinenceetmétriques.Plusprécisément,lestâcheshétérogènesetdedocumentminingpermettrontsepositionnerlesalgorithmesproposésparrapportàd’autressystèmesdel’étatdel’art.CesujetdethèseestfinancédanslecadreduprojetANRAOC(Appariementd’ObjetsComplexes).Plusd’informationssur:http://www.irit.fr/AOC[AMNP04]:AbiteboulS.,ManolescuI.,NguyenB.,PradaN.,AtestplatformfortheINEXheterogeneoustrack,ProceedingsofINEX2004,Dagstuhl,Allemagne,2004.[DeWG04]DenoyerL.,WisniewskiG.,GallinariP.,DocumentStructurematchingforheterogeneouscorpora,ProceedingsofXMLandIRworkshop,SIGIR2004,Sheffield,England,2004.[FLMK05]:N.Fuhr,M.Lalmas,S.MalikandG.Kazai,INEX2005WorkshopProceedings,Dagstuhl,Germany,2005.[FLT06]:NorbertFuhrMouniaLalmasAndrewTrotman(Eds.).ComparativeEvaluationofXMLInformationRetrievalSystems.5thInternationalWorkshopoftheInitiativefortheEvaluationofXMLRetrieval,INEX2006DagstuhlCastle,Germany,December17‐20,2006.RevisedandSelectedPapers[FKLT07]:NorbertFuhr,JaapKamps,MouniaLalmas,AndrewTrotman(Eds.).FocusedAccesstoXMLDocuments.6thInternationalWorkshopoftheInitiativefortheEvaluationofXMLRetrieval,INEX2007.DagstuhlCastle,Germany,December17‐19,2007.RevisedandSelectedPapers[SaBC06]SauvagnatK.,BoughanemM.,ChrismentC.,Answeringcontent‐and‐structure‐basedqueriesonXMLdocumentsusingrelevancepropagation,InformationSystems,SpecialIssueSPIRE2004,volume31,p.621‐635,janvier2006.[ThWe02]TheobaldA.,WeikumG.,TheIndex‐BasedXXLSearchEngineforQueryingXMLDatawithRelevanceRanking,EDBT2002,8thInternationalConferenceonExtendingDatabaseTechnology,Prague,CzechRepublic,p.477‐495,2002.Equipederecherche:IRIT–SIG/RFIDirecteurderecherche:MohandBoughanembougha@irit.frTel:0561557416Encadrement:KarenPinel‐Sauvagnatsauvagna@irit.frTel:0561557441

Univers
Ebooks
Livres audio
Presse
Podcasts
BD
Documents

Sujet thèse AOC-2009

YouScribe

Le catalogue

Le service

Les conditions