Creación de modelos de predicción orientados a las apuestas de eventos deportivos

De
Publicado por


El estudio expuesto en este documento lleva a cabo un proceso de descubrimiento de conocimiento mediante técnicas de inteligencia artificial en el dominio de las apuestas en eventos deportivos. En concreto el estudio se centra en el tenis masculino e individual. Para realizar dicho estudio se siguió la metodología CRISP-DM y se tuvieron como principales objetivos los siguientes: Aplicar distintas técnicas de minería de datos, para analizar el gran volumen de datos disponible de tenistas, sus partidos y los movimientos que estos generan en el mercado de las apuestas deportivas. Conocer qué factores son más determinantes en un partido de tenis y en su resultado final. Conocer el movimiento de las apuestas de un partido de tenis y analizar si este conocimiento puede ser útil para una posible inversión en las apuestas. Diseñar un sistema automático mediante el cual se consiga maximizar la ganancia de una posible inversión en apuestas deportivas gracias al conocimiento extraído en la predicción de partidos de tenis y del movimiento de las apuestas.
Ingeniería en Informática
Publicado el : martes, 01 de junio de 2010
Lectura(s) : 142
Fuente : e-archivo.uc3m.es
Licencia: Más información
Atribución, no uso comercial, sin cambios
Número de páginas: 200
Ver más Ver menos



UNIVERSIDAD CARLOS III DE MADRID
ESCUELA POLITÉCNICA SUPERIOR

Ingeniería en Informática
Proyecto Fin de Carrera


CREACIÓN DE MODELOS DE PREDICCIÓN
ORIENTADOS A LAS APUESTAS EN
EVENTOS DEPORTIVOS




Autor: D. José Ángel Vivar Angulo
Director: Prof. Agapito Ledezma Espino Junio, 2010






A mis padres, Paz y José Pedro
A mis hermanas, Paz y Ana
A mi novia, Begoña






AGRADECIMIENTOS

AGRADECIMIENTOS
A mis padres que con sus consejos y apoyo constante me han ayudado a
formarme como persona y académicamente. Gracias por todos los esfuerzos que
habéis tenido que realizar para que pudiera hacer lo que me gusta en todo momento.
Gracias por guiarme por el camino correcto y corregirme cuando perdía su senda y me
desviaba por rutas erróneas. Gracias en definitiva por todo.
A mis hermanas por su cariño en todo momento y por aguantarme sobre todo en
los meses de vacaciones en los que les daba la tabarra más de la cuenta.
A mi novia por estar ahí a lo largo de todos estos años, por hacerme compañía
en todo momento y soportarme en las largas épocas de exámenes. Por animarme
cuando más lo necesitaba y creer siempre en mí ayudándome a superar los momentos
más difíciles.
A mi tutor Agapito por aceptar dirigirme el proyecto, por las horas dedicadas a él
y por todos los consejos proporcionados para poder llevarlo a cabo.
A todos los miembros de mi familia que me han apoyado a lo largo de todos
estos años lejos de casa. A mis abuelos Chelo, Maruja, Pepe y Ángel, a mis tías, tíos,
primas y primos por ayudarme siempre que lo he necesitado.
A mis compañeros de universidad con los que tantos momentos de angustia he
compartido a la hora de entregar cada una de las prácticas y trabajos llevados a cabo
a lo largo de la carrera.
A mis amigos por hacerme pasar tantos buenos ratos y estar ahí siempre que les
he necesitado.
A Quico, integrante del grupo Los Pelayos por haberme aconsejado, guiado y
por proporcionarme parte de los datos necesarios para llevar a cabo este proyecto.
En definitiva gracias a todos los que me han ayudado a lo largo de estos años
universitarios que tan deprisa han pasado.


Creación de modelos de predicción orientados a las apuestas en eventos deportivos I ÍNDICE
ÍNDICE
AGRADECIMIENTOS .................................................................................................... I
ÍNDICE DE FIGURAS ... V
ÍNDICE DE TABLAS .... VI
Capítulo 1: INTRODUCIÓN .......................................................................................... 1
1.1 Objetivos del proyecto ......................... 2
1.2 Estructura y contenido del documento ................................. 2
Capítulo 2: ESTADO DEL ARTE .................................................................................. 4
2.1 Minería de datos y CRISP-DM ............ 4
2.1.1 CRISP-DM .................................................................................................... 5
2.1.2 Paso de modelos genéricos a especializados ............... 7
2.1.3 Modelo de referencia de CRISP-DM ............................. 8
2.1.4 Tipos de problemas de la minería de datos ................................................. 14
2.2 Historia de las apuestas .................................................... 18
2.2.1 Casas de intercambio de apuestas ............................................................. 19
2.2.2 Apuestas en el tenis .................... 20
Capítulo 3: ANÁLISIS DEL PROBLEMA ..................................... 22
3.1 Objetivos del negocio ........................................................................................ 22
3.2 Evaluación de la situación ................. 23
3.2.1 Recursos disponibles .................. 23
3.2.2 Riesgos y contingencias ............................................................................. 25
3.2.3 Presupuesto ................................ 26
3.2.4 Cronograma del proyecto ............ 34
3.3 Objetivos de la minería de datos ....................................................................... 36
3.4 Plan del proyecto ............................................................... 37
Capítulo 4: COMPRENSIÓN DE LOS DATOS............................................................ 39

Creación de modelos de predicción orientados a las apuestas en eventos deportivos II ÍNDICE
4.1 Recolección inicial de datos .............................................................................. 39
4.2 Descripción de los datos iniciales ...... 40
4.2.1 Datos de OnCourt ....................... 40
4.2.2 Datos de Betfair .......................................................................................... 42
4.3 Verificación de la calidad de los datos ............................... 44
Capítulo 5: PREPARACIÓN DE LOS DATOS ............................ 47
5.1 Selección de los datos ....................................................................................... 47
5.2 Limpieza de los datos ........................ 49
5.3 Construcción de los datos ................. 50
5.4 Integración de los datos .................................................................................... 51
5.5 Formato de los datos ......................... 59
Capítulo 6: MODELADO ............................. 61
6.1 Selección de las técnicas de modelado ................................ 61
6.1.1 Clasificación ................................................................ 63
6.1.2 Selección de atributos ................................................................................. 65
6.2 Generación del diseño del experimento ............................ 67
6.3 Construcción de los modelos ............. 71
6.3.1 Experimento 1: Sólo datos estadísticos ...................................................... 71
6.3.2 Experimento 2: Sólo apuestas en vivo ........................ 78
6.3.3 Experimento 3: Sólo apuestas pre inicio ..................... 82
6.3.4 Experimento 4: Experimento 1 y Selección de atributos .............................. 88
6.3.5: Experimento 5: Estadísticas completas y apuestas .................................... 97
6.3.6: Experimento 6: Estadísticas enfrentadas y apuestas ............................... 104
6.3.7 Experimento 7: Simulación real ................................. 111
6.4 Evaluación de los modelos .............................................. 115
Capítulo 7: EVALUACIÓN ........................................................ 117
7.1 Sistemas de apuestas ..................... 117
7.1.1 Apuesta fija ............................................................... 117
7.1.2 Basado en la cuota justa ........................................... 118
7.1.3 El criterio de Kelly ..................................................... 118
7.1.4 Martingale ................................................................. 119
7.1.5 Apuesta proporcional ................................................ 120
7.2 Evaluaciones ................................... 120
7.2.1 Experimento 1 ........................................................... 120
7.2.2 Experimento 2 121
7.2.3 Experimento 3 ................................ 122

Creación de modelos de predicción orientados a las apuestas en eventos deportivos III ÍNDICE
7.2.4 Experimento 4 ........................................................................................... 122
7.2.5 Experimento 5 123
7.2.6 Experimento 6 123
7.2.7 Experimento 7 ........................................................................................... 123
7.3 Evaluación final ............................... 144
Capítulo 8: DESPLIEGUE ......................... 150
Capítulo 9: CONCLUSIONES Y TRABAJOS FUTUROS ........................................ 152
9.1 Conclusiones ................................................................... 152
9.2 Trabajos futuros .............................. 154
GLOSARIO DE ACRÓNIMOS .................................................................................. 156
BIBLIOGRAFÍA ......................................... 157
ANEXOS ................... 159
Anexo A: Tablas de la base de datos .................................................................... 159
Anexo B: Atributos del Experimento 1 ... 167
Anexo C: Atributos del Experimento 2 ... 174
Anexo D: Atributos del Experimento 3 ................................................................... 175
Anexo E: Atributos del Experimento 5 ... 175
Anexo F: Atributos del Experimento 6 ... 176
Anexo G: Resultados de las evaluaciones con el criterio de Kelly ......................... 180



Creación de modelos de predicción orientados a las apuestas en eventos deportivos IV ÍNDICE DE FIGURAS
ÍNDICE DE FIGURAS
Figura 1: Desglose de la metodología CRISP-DM en 4 niveles. ................................... 6
Figura 2: Fases del modelo de referencia CRISP-DM. .................. 9
Figura 3: Cronograma del proyecto en formato diagrama de Gantt. ............................ 35
Figura 4: Tablas de la base de datos original de OnCourt. ......................................... 41
Figura 5: Tablas seleccionadas de la base de datos de OnCourt. .............................. 48
Figura 6: Diseño final de la base de datos .................................. 58


Creación de modelos de predicción orientados a las apuestas en eventos deportivos V ÍNDICE DE TABLAS
ÍNDICE DE TABLAS
Tabla 1: Dimensiones de contextos de minería de datos y ejemplos. ........................... 8
Tabla 2: Riesgos y contingencias del proyecto. .......................................................... 26
Tabla 3: Sueldo por hora de los diferentes profesionales implicados en el proyecto. .. 27
Tabla 4: Relación de actividades del proyecto y duración de las mismas. .................. 27
Tabla 5: Asignación de actividades por roles y cálculo de horas dedicadas. ............... 30
Tabla 6: Recopilación de horas y costes por rol del personal. ..................................... 30
Tabla 7: Costes del hardware. .................................................... 31
Tabla 8: Costes del software. ...................................................... 32
Tabla 9: Costes material fungible. ............... 33
Tabla 10: Resumen de costes del presupuesto. ......................... 34
Tabla 11: Correspondencia rol-identificador ................................................................ 37
Tabla 12: Plan del proyecto. ....................................................... 38
Tabla 13: Árboles generados con el algoritmo AdaBoostM1 en el experimento 1. ..... 75
Tabla 14: Árboles generadel algoritmo Bagging en el experimento 1. ........... 76
Tabla 15: Resumen de resultados del experimento 1. ................................................ 77
Tabla 16: Árboles generados con el algoritmo Bagging en el experimento 2. ........... 81
Tabla 17: Resumen de resultados del experimento 2. ................ 82
Tabla 18: Árboles generados con el algoritmo AdaBoostM1 en el experimento 3. ..... 86
Tabla 19: Árboles generadel algoritmo Bagging en el experimento 3. ........... 87
Tabla 20: Resumen de resultados del experimento 3. ................................................ 88
Tabla 21: Árboles generados con el algoritmo C4.5 en el experimento 4. .................. 93
Tabla 22: Árboles generadel algoritmo AdaBoostM1 en el experimento 4. ..... 94
Tabla 23: Árboles generados con el algoritmo Bagging en el experimento 4. ........... 95
Tabla 24: Resumen de resultados del experimento 4. ................................................ 96
Tabla 25: Comparación de resultados por subconjuntos del experimento 5. ............. 102
Tabla 26: Comparación de resultados de datos con cuotas vs. sin cuotas del
experimento 5. .......................................................................... 103
Tabla 27: Resumen de resultados del experimento 5. .............................................. 104
Tabla 28: Comparación de resultados por subconjuntos del experimento 6. ............. 109
Tabla 29: Resumen de resultados del experimento 6. .............. 110
Tabla 30: Comparación de los resultados de los experimentos 5 y 6. ....................... 110
Tabla 31: Comparación de los métodos de búsqueda con DecisionTable para el
subconjunto C. .......................................................................................................... 112

Creación de modelos de predicción orientados a las apuestas en eventos deportivos VI ÍNDICE DE TABLAS
Tabla 32: Resultados medios de los métodos de búsqueda para el subconjunto C. 113
Tabla 33: Resumen de resultados del experimento 7. .............................................. 114
Tabla 34: Resultados medios del experimento 7. ...................... 114
Tabla 35: Mejores resultados en los experimentos sólo con datos estadísticos de los
jugadores. ................................................................................. 115
Tabla 36: Mejores resultados de los experimentos con datos estadísticos y de cuotas.
................................................................................................................................. 116
Tabla 37: Comparación del experimento 7 con los experimentos precedentes. ........ 116
Tabla 38: Resultado de la evaluación del experimento 7 A con el sistema de apuestas
fijas. .......................... 124
Tabla 39: Resultado de la evaluación del experimento 7 A con el sistema de apuestas
basado en la cuota justa. ................................................................ 125
Tabla 40: Comparación de los balances con los distintos multiplicadores en el sistema
de apuestas basado en la cuota justa del experimento 7 A....................................... 125
Tabla 41: Evolución de la rentabilidad en función del multiplicador aplicado en el
experimento 7 A con el sistema de apuestas basado en la cuota justa. .................... 126
Tabla 42: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 A. ................................ 127
Tabla 43: Resultado de la evaluación del experimento 7 B con el sistema de apuestas
fijas. .......................................................................................................................... 128
Tabla 44: Resultados de la evaluación del experimento 7 B con el sistema de apuestas
basado en la cuota justa. 129
Tabla 45: Comparación del balance con los distintos multiplicadores con el sistema de
apuestas basado en la cuota justa del experimento 7 B y con las apuestas realizadas a
la cuota media. ......................................................................................................... 130
Tabla 46: Comparación del balance con los distintos multiplicadores con el sistema de
apuestas basado en la cuota justa del experimento 7 B y con las apuestas realizadas a
la cuota máxima. ....... 130
Tabla 47: Comparación del balance con los distintos multiplicadores con el sistema de
apuestas basado en la cuota justa del experimento 7 B y con las apuestas realizadas a
la última cuota........................................................................................................... 131
Tabla 48: Evolución de la rentabilidad en función del multiplicador aplicado en el
experimento 7 B con el sistema de apuestas basado en la cuota justa. .................... 132
Tabla 49: Evolución de la rentabilidad en función del multiplicador aplicado en el
experimento 7 B con el sistema de apuestas basado en la cuota justa para las
apuestas realizadas a la última cuota y a la cuota media. ......................................... 133
Tabla 50: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 B para la cuota media. 134
Tabla 51: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 B para la última cuota. 134
Tabla 52: Comparación del balance con los distintos multiplicadores que obtienen
resultados positivos utilizando como sistema de apuestas el criterio de Kelly en el
experimento 7 B para la última cuota. ....................................................................... 135
Tabla 53: Comparación del balance con los distintos multiplicadores utilizando como
sistema de apuestas el criterio de Kelly en el experimento 7 B para la cuota máxima.
................................................................. 135

Creación de modelos de predicción orientados a las apuestas en eventos deportivos VII

¡Sé el primero en escribir un comentario!

13/1000 caracteres como máximo.