Sujet thèse AOC-2009
2 pages
Español

Sujet thèse AOC-2009

-

Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres
2 pages
Español
Le téléchargement nécessite un accès à la bibliothèque YouScribe
Tout savoir sur nos offres

Description

Titre : Appariement sémantique de documents XML      Mots‐clés  :  recherche  d’information,  XML,  théorie  des  graphes,  documents  hétérogènes, appariement sémantique   Ce  sujet  de  thèse  rentre  dans  le  contexte  de  la  recherche  d’information,  et  s’intéresse particulièrement à la recherche d’information dans les documents semi‐structurés de type XML. La problématique engendrée par ce type de document est liée à la nature de leur contenu.  En effet, comme ces documents comportent de l'information (du texte) et des contraintes structurelles (des balises), ils ne peuvent pas être efficacement exploités par les techniques classiques de RI, qui considèrent le document comme un granule d'information indivisible. Le défi à relever est alors d'arriver  à  identifier  automatiquement  l'unité  d'information,  en  l'occurrence  un  élément  du document XML, répondant à la requête de l'utilisateur. De nombreuses approches ont été proposées dans la littérature pour permettre de renvoyer aux utilisateurs ces unités pertinentes [FLMK 2005], [FLT 06], [FKLT 07]. Ces approches se sont appliquées à renvoyer des parties de documents répondant de manière spécifique et exhaustive au besoin en information de l’utilisateur, exprimé sous forme de requête. Des représentations à base de graphes ou plus particulièrement d’arbres sont souvent utilisées, mais la théorie des graphes sous‐jacente est peu exploitée ...

Informations

Publié par
Nombre de lectures 25
Langue Español

Extrait

Titre:AppariementsémantiquededocumentsXMLMotsclés:recherched’information,XML,théoriedesgraphes,documentshétérogènes,appariementsémantiqueCesujetdethèserentredanslecontextedelarecherched’information,ets’intéresseparticulièrementàlarecherched’informationdanslesdocumentssemistructurésdetypeXML.Laproblématiqueengendréeparcetypededocumentestliéeàlanaturedeleurcontenu.Eneffet,commecesdocumentscomportentdel'information(dutexte)etdescontraintesstructurelles(desbalises),ilsnepeuventpasêtreefficacementexploitésparlestechniquesclassiquesdeRI,quiconsidèrentledocumentcommeungranuled'informationindivisible.Ledéfiàreleverestalorsd'arriveràidentifierautomatiquementl'unitéd'information,enl'occurrenceunélémentdudocumentXML,répondantàlarequêtedel'utilisateur.Denombreusesapprochesontétéproposéesdanslalittératurepourpermettrederenvoyerauxutilisateurscesunitéspertinentes[FLMK2005],[FLT06],[FKLT07].Cesapprochessesontappliquéesàrenvoyerdespartiesdedocumentsrépondantdemanièrespécifiqueetexhaustiveaubesoineninformationdel’utilisateur,exprimésousformederequête.Desreprésentationsàbasedegraphesouplusparticulièrementd’arbressontsouventutilisées,maislathéoriedesgraphessousjacenteestpeuexploitée.Cettedernièrenepermeteneffetquedesprocessusd’appariementdocumentsrequêtesbaséssurdespropriétésdestructure.DanslecasderecherchedansdescorpusdedocumentsXML,ilestnécessaired’yadjoindreunereprésentationcomplémentairedansunautreformalisme,cequipermettraitdeprendreencomptelasémantiquedesdocumentsetrendraitl’appariementcomplexeetimprécis.Lathéoriedesgraphespourraitpourtantêtreuneaideprécieusepourl’appariementdestructures,aided’autantplusnécessairelorsquelesdocumentsàtraiterfontpartiedecorpushétérogènes.L’hétérogénéitédesdocumentspeuteneffetportersurplusieurspoints:leurtailleouleurcontenu,maisaussileurstructure.Danslecasdecollectionsforméesdedocumentspossédantdestaillesetdescontenusdifférents,lesméthodesproposéesdanslalittératurenes’appliquentpasdemanièreoptimale.Eneffet,lesévaluationsdepertinencedesélémentsnepeuventpass’effectuerdelamêmemanièrequandundocumentfaitquelquesKoetqu’ilpossèdeuneunitésémantique(iltraited’unmêmethème,aussigénéralistesoitil)quelorsqu’ilfait300Moetqu’ilestconçucommeuncataloguededonnées.Desméthodesdecorrespondanced’arbresdoiventêtredéveloppées,etuneréflexiondoitêtremenéesurletraitementparallèledesdocumentsorientésdonnéesetdesdocumentsorientéscontenu.Considéronsmaintenantl’hétérogénéitéstructurelle.UnecollectionpossèdedesstructureshétérogèneslorsquelesdocumentsquilacomposentsuiventdesDTDsdifférentes.Alorsquelesapprochesproposéesdanslalittératurepourl’interrogationdecorpuspossédantdesdocumentssuivantlamêmeDTDcherchentàvérifierdescorrespondancessyntaxiquesentrelesarbresdelarequêteetdesdocuments,lesapprochespourlescorpushétérogènesdoiventchercherquantàellesàvérifierdescorrespondancessémantiquesetpermettrel’interrogationgénériquedescorpus:lesconditionsdestructuresexpriméesparlesutilisateursdanslarequêtenecorrespondentpasforcémentexactementauxschémasouDTDdesdocumentsprésentsdanslecorpus,maiscesdernierspourraientpourtantêtrepertinentspourl'utilisateur.Plusieurspistesderecherchessontpossibles.Unepremièresolutionestd'utiliserunlexique,unthésaurusouuneontologiepourfairecorrespondrelesconditionsdestructuresexpriméesdanslarequêteaveclestypesd'élémentseffectivementprésentsdanslacollection[ThWe02].D'autresapproches,commecelleproposéeparDenoyeretal.dans[DeWG04]ouAbitebouletal.dans[AMNP04]visentàproposerunformatmédiandanslequeltouslesdocumentsducorpus(et
éventuellementlesrequêtes)peuventêtretransforméspourensuiteappliquerdestechniquestraditionnellesdetraitementdesrequêtesstructurées.Touslesdocumentsdevrontcependantêtretransformésseloncettestructuregénérique,aurisquedeperdrequelquepeudelasémantiqueportéeparleurstructure.PourconstruireetinterrogerdescollectionsXMLhétérogènes,l’apprentissageautomatiquedesrelationsentrelesdifférentsformatsetdestransformationsentrelesdifférentsdocumentsestunainsiproblèmeimportant.Laclassification,leclusteringetlacorrespondancedestructuressontdoncdesdéfismajeursàreleverpourlagestiondesdocumentssemistructurés.Lespropositionseffectuéesdanslecadredecettethèsevisantdoncàs’appuyersurdesoutilsdelathéoriedesgraphespourlaRIstructuréedanslescorpushétérogènes,pourrontêtreévaluéesgrâceàlacampagned’évaluationINEX,quifournituncadregénériquepourl’évaluationdelarecherched’informationstructurée:collections,requêtes,jugementsdepertinenceetmétriques.Plusprécisément,lestâcheshétérogènesetdedocumentminingpermettrontsepositionnerlesalgorithmesproposésparrapportàd’autressystèmesdel’étatdel’art.CesujetdethèseestfinancédanslecadreduprojetANRAOC(Appariementd’ObjetsComplexes).Plusd’informationssur:http://www.irit.fr/AOC[AMNP04]:AbiteboulS.,ManolescuI.,NguyenB.,PradaN.,AtestplatformfortheINEXheterogeneoustrack,ProceedingsofINEX2004,Dagstuhl,Allemagne,2004.[DeWG04]DenoyerL.,WisniewskiG.,GallinariP.,DocumentStructurematchingforheterogeneouscorpora,ProceedingsofXMLandIRworkshop,SIGIR2004,Sheffield,England,2004.[FLMK05]:N.Fuhr,M.Lalmas,S.MalikandG.Kazai,INEX2005WorkshopProceedings,Dagstuhl,Germany,2005.[FLT06]:NorbertFuhrMouniaLalmasAndrewTrotman(Eds.).ComparativeEvaluationofXMLInformationRetrievalSystems.5thInternationalWorkshopoftheInitiativefortheEvaluationofXMLRetrieval,INEX2006DagstuhlCastle,Germany,December1720,2006.RevisedandSelectedPapers[FKLT07]:NorbertFuhr,JaapKamps,MouniaLalmas,AndrewTrotman(Eds.).FocusedAccesstoXMLDocuments.6thInternationalWorkshopoftheInitiativefortheEvaluationofXMLRetrieval,INEX2007.DagstuhlCastle,Germany,December1719,2007.RevisedandSelectedPapers[SaBC06]SauvagnatK.,BoughanemM.,ChrismentC.,AnsweringcontentandstructurebasedqueriesonXMLdocumentsusingrelevancepropagation,InformationSystems,SpecialIssueSPIRE2004,volume31,p.621635,janvier2006.[ThWe02]TheobaldA.,WeikumG.,TheIndexBasedXXLSearchEngineforQueryingXMLDatawithRelevanceRanking,EDBT2002,8thInternationalConferenceonExtendingDatabaseTechnology,Prague,CzechRepublic,p.477495,2002.Equipederecherche:IRITSIG/RFIDirecteurderecherche:MohandBoughanembougha@irit.frTel:0561557416Encadrement:KarenPinelSauvagnatsauvagna@irit.frTel:0561557441
  • Univers Univers
  • Ebooks Ebooks
  • Livres audio Livres audio
  • Presse Presse
  • Podcasts Podcasts
  • BD BD
  • Documents Documents