Presentacion Técnicas de etiquetado y desambiguación morfológica del castellano con reducida información contextual

De
Publicado por


El objetivo de este proyecto es el etiquetado y la desambiguación morfológica de las palabras en castellano sin requerir un alto grado de información contextual. Como parte de la metodología se utilizan dos corpus etiquetados en español. Se establecen unas etiquetas en común, se analizan y se buscan reglas en las que las palabras de los corpus queden etiquetadas correctamente. Los experimentos realizados se dividen en dos etapas. En la primera etapa se experimenta únicamente en función de cada palabra. En el caso de la segunda etapa, los experimentos se llevan a cabo considerando las palabras contiguas y los resultados de la primera etapa. Los experimentos han logrado un porcentaje general de acierto superior al 90%, teniendo en especial consideración la identificación de sustantivos y verbos. Para estas últimas categorías, la recall y la precision superan el 90%. Además, la segunda fase supera en porcentaje de acierto a la primera fase. Estos resultados están respaldados por alto grado de información para esta etapa.
Ingeniería Técnica en Informática de Gestión
Publicado el : domingo, 01 de febrero de 2009
Lectura(s) : 97
Fuente : e-archivo.uc3m.es
Licencia: Más información
Atribución, no uso comercial, sin cambios
Número de páginas: 28
Ver más Ver menos
PROYECTO FIN CARRERA
TÉCNICAS DE ETIQUETADO Y DESAMBIGUACIÓN MORFOLÓGICA DEL CASTELLANO CON REDUCIDA INFORMACIÓN CONTEXTUAL
Tutores: Valentín Moreno Pelayo Sonia Sánchez-Cuadrado
Alumna: Patricia González Bodega
Febrero 2009
1
ÍNDICE
INTRODUCCIÓN
OEPAM CORPUS ESPAÑOL
EXPERIMENTACIÓN
OBJETIVOS
METODOLOGÍA
CONCLUSIONES
DEESLT AARDTOE
EXIPNEIRCIIMALEENSTOS
TFRUATBUARJOOSS
2
INTRODUCCIÓN
‰
‰
‰
‰
 nE¿?otceyorp le etsisnoc euq
?rateuqite se euQ¿
Q¿?raugibmased seéu
?evris euq araP¿
3
OBJETIVOS
‰
‰
‰
Etiquetar   morfológicamente   textos   en   español,   incluso   en   casos   en   la   que   la   información   contextual   es   escasa   o   nula.
Integrar   bajo   el   sistema   de   codificación   del   grupo   KR   los   corpus   anotados.  
vEatneimarreh al ed otneimidner le se lauc raula
4
ESTADO   DEL   ARTE
‰ Análisis   morfológico   en   procesamiento   del   lenguaje   natural
‰ Etiquetado   morfológico   manual,   automático   y   mixto
‰ Etiquetas   del   corpus   CESS ESP   y   Conll2002
‰
akeW : sotad ed aírenim ed atneimarreH
5
METODOLOGÍA
.1
.2
Se   mapean   dos   corpus y CESS ESP y Conll   2002
pxremineots con ols od socprsu individual y ocjnnuatm
Experimentación:   e Con   palabras   que   contienen   caracteres   alfabéticos   y   con   el   total   de   las   palabras. y Primera   Fase.   Desambiguación   sin   contexto. 1. Se   generan   las   reglas   de   desambiguación   morfológica 2. Computar   el   grado   de   acierto   para   cada   regla
y Segunda   Fase.   Desambiguación   con   contexto.   Se   parte   de   los   resultados   de   la   primera   fase. 1. Se   generan   las   reglas   de   desambiguación   morfológica 2. Computar   el   grado   de   acierto   para   cada   regla
neet. 
6
CORRESPONDENCIA   ENTRE   CATEGORÍA   Y   ETIQUETA
‰
La   correspondencia   entre   la   categoría   general   y   la   etiqueta   del   grupo   KR   es   la   siguiente: 1
01
02
03
64
25
75
27
59
PREPOSICIÓN
PRONOMBRE
DETERMINANTE
OBREV
ADVERBIO
ADJETIVO
SUSTANTIVO
INVARIANTE
SÍMBOLO
7
MAPEAR   CORPUS   CASTELLANO
‰ Cambiar   las   etiquetas   del   corpus   CESS ESP/Conll2002   por   las   etiquetas   creadas   por   el   grupo   KR.  
‰ CESS ESP   esta   anotado   morfológica   y   sintácticamente,   se   han   eliminado   algunas   etiquetas   del   corpus.
‰ Comprobación   de   la   correspondencia   de   categorías   gramaticales.
‰
Existen   algunas   diferencias   entre   las   asignaciones   de   las   diferentes   etiquetas   para   los   dos   corpus.
8
REALIZACIÓN   DE   LOS   EXPERIMENTOS  
‰
‰
Generación   de   reglas   de   desambiguación   de   palabras   de   los   corpus   etiquetados   anteriormente.
:sesaf sod ne azilaer es ,salger sahcid ed nóicareneg aL
1. PRIMERA   FASE:   las   reglas   se   crean   en   función   del   término   (sin   contexto).
2. SEGUNDA   FASE:   las   reglas   se   crean   en   función   del   contexto   de   la   palabra   y   de   las   reglas   generadas   en   la   primera   fase.
9
EXPERIMENTACIÓN:   GENERACIÓN   DE   REGLAS   DE   DESAMBIGUACIÓN
‰
Para   la   generación   de   reglas   de   desambiguación   se   utiliza   la   herramienta   Weka,   en   la   que   se   introduce   una   lista   con   los   datos,   la   información   que   te   proporciona   estádividida   en   tres   partes:
1ªparte:   Información   de   los   datos   de   entrada   y   las   opciones   de   la   ejecución
10
EXPERIMENTACIÓN:  
GENERACIÓN   DE   REGLAS   DE   DESAMBIGUACIÓN
2ªparte   :   Reglas   para   la  
etiquetación   de   las   palabras
11
¡Sé el primero en escribir un comentario!

13/1000 caracteres como máximo.