présentée à L’UNIVERSITE DE VERSAILLES SAINT-QUENTIN-EN-YVELINES
pour obtenir le titre de
DOCTEUR EN INFORMATIQUE
soutenue par Dimitre Kostadinov
Titre Personnalisation de l’information : une approche de gestion de profils et de reformulation de requêtes
Data Personalization: an approach for profile management and query reformulation
Jury
Jean-Marc Petit Professeur des Universités, INSA Rapporteur Daniel Rocacher Maître de Conférence, HDR, ENSSAT Rapporteur Mohand Boughanem Professeur des Universités, Toulouse Examinateur Michel Scholl Professeur des Universités, CNAM Paris Examinateur Stéphane Lopes Maître de Conférence, UVSQ Examinateur Mokrane Bouzeghoub Professeur des Universités, UVSQ Directeur de thèse i Remerciements Je souhaite remercier très particulièrement mon directeur de thèse Monsieur Mokrane Bouzeghoub. Je le remercie de m’avoir fait confiance et de m’avoir fourni les meilleures conditions de travail possibles. Les discussions et le temps qu’il m’a accordés tout au long de ma thèse m’ont permis d’avancer dans mon travail et ont contribué à améliorer mes connaissances. Ses remarques ont toujours été claires et précises ce qui a facilité le processus d’apprentissage du métier. Ses conseils aussi bien sur le plan professionnel que personnel m’ont toujours été d’une grande aide. Pour tout ce que vous avez fait pour moi, merci du fond du cœur ! Je voudrais également remercier ...
THESE
présentée à
L’UNIVERSITE DE VERSAILLES
SAINT-QUENTIN-EN-YVELINES
pour obtenir le titre de
DOCTEUR EN INFORMATIQUE
soutenue par
Dimitre Kostadinov
Titre
Personnalisation de l’information : une approche de gestion de profils
et de reformulation de requêtes
Data Personalization: an approach for profile management and query
reformulation
Jury
Jean-Marc Petit Professeur des Universités, INSA Rapporteur
Daniel Rocacher Maître de Conférence, HDR, ENSSAT Rapporteur
Mohand Boughanem Professeur des Universités, Toulouse Examinateur
Michel Scholl Professeur des Universités, CNAM Paris Examinateur
Stéphane Lopes Maître de Conférence, UVSQ Examinateur
Mokrane Bouzeghoub Professeur des Universités, UVSQ Directeur de thèse
i Remerciements
Je souhaite remercier très particulièrement mon directeur de thèse Monsieur Mokrane
Bouzeghoub. Je le remercie de m’avoir fait confiance et de m’avoir fourni les meilleures
conditions de travail possibles. Les discussions et le temps qu’il m’a accordés tout au long de
ma thèse m’ont permis d’avancer dans mon travail et ont contribué à améliorer mes
connaissances. Ses remarques ont toujours été claires et précises ce qui a facilité le processus
d’apprentissage du métier. Ses conseils aussi bien sur le plan professionnel que personnel
m’ont toujours été d’une grande aide. Pour tout ce que vous avez fait pour moi, merci du fond
du cœur !
Je voudrais également remercier Stéphane Lopes avec qui nous avons beaucoup
collaboré durant ma thèse. Les discussions que nous avons eues m’ont permis d’avancer plus
rapidement dans mon travail.
Je remercie mes rapporteurs Jean-Marc Petit et Daniel Rocacher pour la rapidité avec
laquelle ils ont lu et évalué mon manuscrit ainsi que pour l’intérêt qu’ils ont porté à mon
travail. Leurs remarques ont été très constructives et m’ont aidé à améliorer mon mémoire. Je
souhaite également remercier les autres membres du jury de ma thèse Michel Scholl et
Mohand Boughanem d’avoir accepté de juger ce travail.
Je tiens à remercier tous les autres membres de l’équipe dans laquelle j’ai travaillé
durant ma thèse Zoubida Kedad et Daniela Grigori ainsi que tous mes collègues qu’ils soient
actuels ou ex : Xiaohui Xue, Veronika Peralta, Assia Kadi, Juan-Carlos Corales et Sofiane
Abbar. Ils m’ont reçu très chaleureusement et m’ont permis de travailler dans une ambiance
très amicale et accueillante.
Je voudrais remercier l’administration de l’université de Versailles qui m’a guidé dans
mes démarches administratives.
Je souhaite exprimer toute ma gratitude envers ma famille, mon père David Kostadinov,
ma mère Zhana Kostadinova et ma sœur Irena Kostadinova ainsi que ma compagne Petia
Nikolova pour m’avoir été d’un grand soutien moral durant toute ma thèse.
Je remercie également tous mes amis avec qui j’ai passé de très agréables moments de
détente.
ii iii
Résumé
Cette thèse contient deux parties. La première est orientée vers l’étude de l’état de l’art
sur la personnalisation et la définition d’un modèle de profil utilisateur. La seconde partie se
focalise sur la reformulation de requêtes guidée par le profil utilisateur.
La personnalisation a pour objectif de faciliter l’expression du besoin utilisateur et de
rendre l’information sélectionnée intelligible à l’usager et exploitable. Elle se définit, entre
autres, par un ensemble de préférences individuelles représentées par des couples (attribut,
valeur), par des ordonnancements de critères ou par des règles sémantiques spécifiques à
chaque utilisateur ou communauté d’utilisateurs. Ces modes de spécification servent à décrire
le centre d’intérêt de l’utilisateur, le niveau de qualité des données qu’il désire ou des
modalités de présentation de ces données. L’ensemble de ces informations est représenté dans
un modèle d’utilisateur appelé souvent profil. Le premier travail de cette thèse est de proposer
un modèle ouvert de profil capable d’acquérir toutes les informations décrivant l’utilisateur.
La personnalisation de l’information intervient à toutes les étapes du cycle de vie d’une
requête. La seconde contribution de cette thèse est l’étude de deux approches de reformulation
de requêtes basées sur des techniques de réécriture et d’enrichissement existants et la
proposition d’une approche de reformulation avancée qui alterne des étapes d’enrichissement
et de réécriture. Les trois approches sont évaluées sur un benchmark défini dans la thèse.
Abstract
This thesis contains two parts. The first one is a study of the state of the art on data
personalization and a proposition of a user profile model. The second one is a focus on a
specific problem which is the query reformulation using profile knowledge.
The goal of personalization is to facilitate the expression of the need for a particular
user and to enable him to obtain relevant information when he accesses an information
system. The relevance of the information is defined by a set of criteria and preferences
specific to each user or community of users. These criteria describe the user’s domain of
interest, the quality level of the data he is looking for or the modalities of the presentation of
this data. The data describing the users is often gathered in the form of profiles. In this thesis
we propose a generic and extensible model of profile, which enables the classification of the
profile’s contents.
Personalization may occur in each step of the query life cycle. The second contribution
of this thesis is the study of two query reformulation approaches based on algorithms for
query enrichment and query rewriting and the proposition of an advanced query reformulation
approach. The three reformulation approaches are evaluated on a benchmark described in the
thesis.
iv v Table des matières
CHAPITRE 1. INTRODUCTION..................................................................................................................1
1. PROBLEMATIQUE ET MOTIVATIONS............................................................................................................1
2. CONTEXTE DE LA THESE .............................................................................................................................2
3. OBJECTIFS DE LA THESE..............................................................................................................................4
4. RESUMES DES CHAPITRES ET CONTRIBUTIONS ..........................................................................................5
CHAPITRE 2. ETAT DE L’ART...................................................................................................................9
1. INTRODUCTION............................................................................................................................................9
2. APPLICATION DOMAINS AND TYPES OF PERSONALIZATION SYSTEMS.....................................................10
2.1 Examples of personalized applications............................................................................................11
2.2 Main features of a personalization system ......................................................................................15
3. DEFINITION AND REPRESENTATION OF USER PROFILES...........................................................................17
3.1 Examples of user profiles..................................................................................................................17
3.2 Types of user preference...................................................................................................................19
3.3 User Profile and Preferences Formalisms ......................................................................................21
3.3.1 Weighted Keyword Profile ........................................................................................................................ 21
3.3.2 Formula-based Profile................................................................................................................................ 22
3.3.3 Weighted predicates profile....................................................................................................................... 25
3.3.4 Multidimensional user profiles.................................................................................................................. 26
3.3.5 Ontological User Profiles........................................................................................................................... 28
4. CONSTRUCTION OF USER PROFILES ..........................................................................................................29
4.1 Real-time aspect ................................................................................................................................30
4.2 Implication of the user ......................................................................................................................30
4.3 Data sources......................................................................................................................................31
4.4 Construction methods and algorithms:............................................................................................33
4.4.1 Machine learning approaches .................................................................................................................... 33
4.4.2 Graph theory ............................................................................................................................................... 35
4.4.3 Weighted terms........................................................................................................................................... 35
4.4.4 Fuzzy approaches .......................................................................................................................