7 jours d'essai offerts
Cet ouvrage et des milliers d'autres sont disponibles en abonnement pour 8,99€/mois

Compartir esta publicación



UNIVERSIDAD CARLOS III DE MADRID
ESCUELA POLITÉCNICA SUPERIOR

Ingeniería en Informática
Proyecto Fin de Carrera


CREACIÓN DE MODELOS DE PREDICCIÓN
ORIENTADOS A LAS APUESTAS EN
EVENTOS DEPORTIVOS




Autor: D. José Ángel Vivar Angulo
Director: Prof. Agapito Ledezma Espino Junio, 2010






A mis padres, Paz y José Pedro
A mis hermanas, Paz y Ana
A mi novia, Begoña






AGRADECIMIENTOS

AGRADECIMIENTOS
A mis padres que con sus consejos y apoyo constante me han ayudado a
formarme como persona y académicamente. Gracias por todos los esfuerzos que
habéis tenido que realizar para que pudiera hacer lo que me gusta en todo momento.
Gracias por guiarme por el camino correcto y corregirme cuando perdía su senda y me
desviaba por rutas erróneas. Gracias en definitiva por todo.
A mis hermanas por su cariño en todo momento y por aguantarme sobre todo en
los meses de vacaciones en los que les daba la tabarra más de la cuenta.
A mi novia por estar ahí a lo largo de todos estos años, por hacerme compañía
en todo momento y soportarme en las largas épocas de exámenes. Por animarme
cuando más lo necesitaba y creer siempre en mí ayudándome a superar los momentos
más difíciles.
A mi tutor Agapito por aceptar dirigirme el proyecto, por las horas dedicadas a él
y por todos los consejos proporcionados para poder llevarlo a cabo.
A todos los miembros de mi familia que me han apoyado a lo largo de todos
estos años lejos de casa. A mis abuelos Chelo, Maruja, Pepe y Ángel, a mis tías, tíos,
primas y primos por ayudarme siempre que lo he necesitado.
A mis compañeros de universidad con los que tantos momentos de angustia he
compartido a la hora de entregar cada una de las prácticas y trabajos llevados a cabo
a lo largo de la carrera.
A mis amigos por hacerme pasar tantos buenos ratos y estar ahí siempre que les
he necesitado.
A Quico, integrante del grupo Los Pelayos por haberme aconsejado, guiado y
por proporcionarme parte de los datos necesarios para llevar a cabo este proyecto.
En definitiva gracias a todos los que me han ayudado a lo largo de estos años
universitarios que tan deprisa han pasado.


Creación de modelos de predicción orientados a las apuestas en eventos deportivos I ÍNDICE
ÍNDICE
AGRADECIMIENTOS .................................................................................................... I
ÍNDICE DE FIGURAS ... V
ÍNDICE DE TABLAS .... VI
Capítulo 1: INTRODUCIÓN .......................................................................................... 1
1.1 Objetivos del proyecto ......................... 2
1.2 Estructura y contenido del documento ................................. 2
Capítulo 2: ESTADO DEL ARTE .................................................................................. 4
2.1 Minería de datos y CRISP-DM ............ 4
2.1.1 CRISP-DM .................................................................................................... 5
2.1.2 Paso de modelos genéricos a especializados ............... 7
2.1.3 Modelo de referencia de CRISP-DM ............................. 8
2.1.4 Tipos de problemas de la minería de datos ................................................. 14
2.2 Historia de las apuestas .................................................... 18
2.2.1 Casas de intercambio de apuestas ............................................................. 19
2.2.2 Apuestas en el tenis .................... 20
Capítulo 3: ANÁLISIS DEL PROBLEMA ..................................... 22
3.1 Objetivos del negocio ........................................................................................ 22
3.2 Evaluación de la situación ................. 23
3.2.1 Recursos disponibles .................. 23
3.2.2 Riesgos y contingencias ............................................................................. 25
3.2.3 Presupuesto ................................ 26
3.2.4 Cronograma del proyecto ............ 34
3.3 Objetivos de la minería de datos ....................................................................... 36
3.4 Plan del proyecto ............................................................... 37
Capítulo 4: COMPRENSIÓN DE LOS DATOS............................................................ 39

Creación de modelos de predicción orientados a las apuestas en eventos deportivos II ÍNDICE
4.1 Recolección inicial de datos .............................................................................. 39
4.2 Descripción de los datos iniciales ...... 40
4.2.1 Datos de OnCourt ....................... 40
4.2.2 Datos de Betfair .......................................................................................... 42
4.3 Verificación de la calidad de los datos ............................... 44
Capítulo 5: PREPARACIÓN DE LOS DATOS ............................ 47
5.1 Selección de los datos ....................................................................................... 47
5.2 Limpieza de los datos ........................ 49
5.3 Construcción de los datos ................. 50
5.4 Integración de los datos .................................................................................... 51
5.5 Formato de los datos ......................... 59
Capítulo 6: MODELADO ............................. 61
6.1 Selección de las técnicas de modelado ................................ 61
6.1.1 Clasificación ................................................................ 63
6.1.2 Selección de atributos ................................................................................. 65
6.2 Generación del diseño del experimento ............................ 67
6.3 Construcción de los modelos ............. 71
6.3.1 Experimento 1: Sólo datos estadísticos ...................................................... 71
6.3.2 Experimento 2: Sólo apuestas en vivo ........................ 78
6.3.3 Experimento 3: Sólo apuestas pre inicio ..................... 82
6.3.4 Experimento 4: Experimento 1 y Selección de atributos .............................. 88
6.3.5: Experimento 5: Estadísticas completas y apuestas .................................... 97
6.3.6: Experimento 6: Estadísticas enfrentadas y apuestas ............................... 104
6.3.7 Experimento 7: Simulación real ................................. 111
6.4 Evaluación de los modelos .............................................. 115
Capítulo 7: EVALUACIÓN ........................................................ 117
7.1 Sistemas de apuestas ..................... 117
7.1.1 Apuesta fija ............................................................... 117
7.1.2 Basado en la cuota justa ........................................... 118
7.1.3 El criterio de Kelly ..................................................... 118
7.1.4 Martingale ................................................................. 119
7.1.5 Apuesta proporcional ................................................ 120
7.2 Evaluaciones ................................... 120
7.2.1 Experimento 1 ........................................................... 120
7.2.2 Experimento 2 121
7.2.3 Experimento 3 ................................ 122

Creación de modelos de predicción orientados a las apuestas en eventos deportivos III ÍNDICE
7.2.4 Experimento 4 ........................................................................................... 122
7.2.5 Experimento 5 123
7.2.6 Experimento 6 123
7.2.7 Experimento 7 ........................................................................................... 123
7.3 Evaluación final ............................... 144
Capítulo 8: DESPLIEGUE ......................... 150
Capítulo 9: CONCLUSIONES Y TRABAJOS FUTUROS ........................................ 152
9.1 Conclusiones ................................................................... 152
9.2 Trabajos futuros .............................. 154
GLOSARIO DE ACRÓNIMOS .................................................................................. 156
BIBLIOGRAFÍA ......................................... 157
ANEXOS ................... 159
Anexo A: Tablas de la base de datos .................................................................... 159
Anexo B: Atributos del Experimento 1 ... 167
Anexo C: Atributos del Experimento 2 ... 174
Anexo D: Atributos del Experimento 3 ................................................................... 175
Anexo E: Atributos del Experimento 5 ... 175
Anexo F: Atributos del Experimento 6 ... 176
Anexo G: Resultados de las evaluaciones con el criterio de Kelly ......................... 180



Creación de modelos de predicción orientados a las apuestas en eventos deportivos IV ÍNDICE DE FIGURAS
ÍNDICE DE FIGURAS
Figura 1: Desglose de la metodología CRISP-DM en 4 niveles. ................................... 6
Figura 2: Fases del modelo de referencia CRISP-DM. .................. 9
Figura 3: Cronograma del proyecto en formato diagrama de Gantt. ............................ 35
Figura 4: Tablas de la base de datos original de OnCourt. ......................................... 41
Figura 5: Tablas seleccionadas de la base de datos de OnCourt. .............................. 48
Figura 6: Diseño final de la base de datos .................................. 58


Creación de modelos de predicción orientados a las apuestas en eventos deportivos V ÍNDICE DE TABLAS
ÍNDICE DE TABLAS
Tabla 1: Dimensiones de contextos de minería de datos y ejemplos. ........................... 8
Tabla 2: Riesgos y contingencias del proyecto. .......................................................... 26
Tabla 3: Sueldo por hora de los diferentes profesionales implicados en el proyecto. .. 27
Tabla 4: Relación de actividades del proyecto y duración de las mismas. .................. 27
Tabla 5: Asignación de actividades por roles y cálculo de horas dedicadas. ............... 30
Tabla 6: Recopilación de horas y costes por rol del personal. ..................................... 30
Tabla 7: Costes del hardware. .................................................... 31
Tabla 8: Costes del software. ...................................................... 32
Tabla 9: Costes material fungible. ............... 33
Tabla 10: Resumen de costes del presupuesto. ......................... 34
Tabla 11: Correspondencia rol-identificador ................................................................ 37
Tabla 12: Plan del proyecto. ....................................................... 38
Tabla 13: Árboles generados con el algoritmo AdaBoostM1 en el experimento 1. ..... 75
Tabla 14: Árboles generadel algoritmo Bagging en el experimento 1. ........... 76
Tabla 15: Resumen de resultados del experimento 1. ................................................ 77
Tabla 16: Árboles generados con el algoritmo Bagging en el experimento 2. ........... 81
Tabla 17: Resumen de resultados del experimento 2. ................ 82
Tabla 18: Árboles generados con el algoritmo AdaBoostM1 en el experimento 3. ..... 86
Tabla 19: Árboles generadel algoritmo Bagging en el experimento 3. ........... 87
Tabla 20: Resumen de resultados del experimento 3. ................................................ 88
Tabla 21: Árboles generados con el algoritmo C4.5 en el experimento 4. .................. 93
Tabla 22: Árboles generadel algoritmo AdaBoostM1 en el experimento 4. ..... 94
Tabla 23: Árboles generados con el algoritmo Bagging en el experimento 4. ........... 95
Tabla 24: Resumen de resultados del experimento 4. ................................................ 96
Tabla 25: Comparación de resultados por subconjuntos del experimento 5. ............. 102
Tabla 26: Comparación de resultados de datos con cuotas vs. sin cuotas del
experimento 5. .......................................................................... 103
Tabla 27: Resumen de resultados del experimento 5. .............................................. 104
Tabla 28: Comparación de resultados por subconjuntos del experimento 6. ............. 109
Tabla 29: Resumen de resultados del experimento 6. .............. 110
Tabla 30: Comparación de los resultados de los experimentos 5 y 6. ....................... 110
Tabla 31: Comparación de los métodos de búsqueda con DecisionTable para el
subconjunto C. .......................................................................................................... 112

Creación de modelos de predicción orientados a las apuestas en eventos deportivos VI ÍNDICE DE TABLAS
Tabla 32: Resultados medios de los métodos de búsqueda para el subconjunto C. 113
Tabla 33: Resumen de resultados del experimento 7. .............................................. 114
Tabla 34: Resultados medios del experimento 7. ...................... 114
Tabla 35: Mejores resultados en los experimentos sólo con datos estadísticos de los
jugadores. ................................................................................. 115
Tabla 36: Mejores resultados de los experimentos con datos estadísticos y de cuotas.
................................................................................................................................. 116
Tabla 37: Comparación del experimento 7 con los experimentos precedentes. ........ 116
Tabla 38: Resultado de la evaluación del experimento 7 A con el sistema de apuestas
fijas. .......................... 124
Tabla 39: Resultado de la evaluación del experimento 7 A con el sistema de apuestas
basado en la cuota justa. ................................................................ 125
Tabla 40: Comparación de los balances con los distintos multiplicadores en el sistema
de apuestas basado en la cuota justa del experimento 7 A....................................... 125
Tabla 41: Evolución de la rentabilidad en función del multiplicador aplicado en el
experimento 7 A con el sistema de apuestas basado en la cuota justa. .................... 126
Tabla 42: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 A. ................................ 127
Tabla 43: Resultado de la evaluación del experimento 7 B con el sistema de apuestas
fijas. .......................................................................................................................... 128
Tabla 44: Resultados de la evaluación del experimento 7 B con el sistema de apuestas
basado en la cuota justa. 129
Tabla 45: Comparación del balance con los distintos multiplicadores con el sistema de
apuestas basado en la cuota justa del experimento 7 B y con las apuestas realizadas a
la cuota media. ......................................................................................................... 130
Tabla 46: Comparación del balance con los distintos multiplicadores con el sistema de
apuestas basado en la cuota justa del experimento 7 B y con las apuestas realizadas a
la cuota máxima. ....... 130
Tabla 47: Comparación del balance con los distintos multiplicadores con el sistema de
apuestas basado en la cuota justa del experimento 7 B y con las apuestas realizadas a
la última cuota........................................................................................................... 131
Tabla 48: Evolución de la rentabilidad en función del multiplicador aplicado en el
experimento 7 B con el sistema de apuestas basado en la cuota justa. .................... 132
Tabla 49: Evolución de la rentabilidad en función del multiplicador aplicado en el
experimento 7 B con el sistema de apuestas basado en la cuota justa para las
apuestas realizadas a la última cuota y a la cuota media. ......................................... 133
Tabla 50: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 B para la cuota media. 134
Tabla 51: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 B para la última cuota. 134
Tabla 52: Comparación del balance con los distintos multiplicadores que obtienen
resultados positivos utilizando como sistema de apuestas el criterio de Kelly en el
experimento 7 B para la última cuota. ....................................................................... 135
Tabla 53: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 B para la cuota máxima.
................................................................. 135

Creación de modelos de predicción orientados a las apuestas en eventos deportivos VII