Un corrector gramatical basat en cerques per Internet (Un corrector gramatical basado en búsquedas por Internet) (A grammar checker based on web searching)

erevistas - Joaquim Moré

Découvre YouScribe en t'inscrivant gratuitement

Je m'inscris

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

6 pages

Catalan

Obtenez un accès à la bibliothèque pour le consulter en ligne
En savoir plus

A propos
Informations
Extrait

Description

Resum
En aquest article presentem un corrector gramatical de l'anglès destinat a escriptors no angloparlants. La principal característica d'aquest corrector és l'ús d'un motor de cerca per Internet. Com que hi ha un gran nombre de pàgines web escrites en anglès, el sistema fa la hipòtesi que un segment de text que no és present en cap pàgina web és probablement un segment de text mal escrit. El sistema també fa la hipòtesi que a la Xarxa hi trobarà exemples que ensenyaran a l'usuari com ha d'expressar el contingut del segment de text d'una manera gramatical i idiomàtica. Per tant, un cop el corrector avisa l'usuari que és millor verificar un segment del seu text, el motor cerca contextos que poden ser útils a la persona que escriu a l'hora de decidir si corregeix el segment o no. Gràcies també a l'ús d'un motor de cerca, el corrector suggereix a l'escriptor que utilitzi expressions que són més freqüents a la Xarxa en comptes de l'expressió que ha escrit.
Resumen
En este artículo el autor presenta un corrector gramatical y estilístico del inglés para no anglohablantes. La principal característica de este corrector es el uso de un motor de búsqueda por Internet. Al disponer de una gran cantidad de páginas web escritas en inglés, el sistema hipotetiza que un fragmento de texto no encontrado en la red probablemente esté mal escrito. El sistema también supone que en la red encontrará ejemplos de cómo se puede expresar el contenido del fragmento de texto de una forma gramatical e idiomática. Por esta razón, tras haber advertido al usuario acerca del carácter extraño de un fragmento de texto, el motor de búsqueda por Internet busca contextos que puedan ser útiles para el usuario en el momento de decidir si corrige o no el fragmento. Mediante un motor de búsqueda, el corrector también sugiere al usuario el uso de expresiones que son más frecuentes en la red que la expresión que éste ha escrito.
Abstract
This paper presents an English grammar and style checker for non-native English speakers. The main characteristic of this checker is the use of an Internet search engine. As the number of web pages written in English is immense, the system hypothesises that a piece of text not found on the Web is probably badly written. The system also hypothesises that the Web will provide examples of how the content of the text segment can be expressed in a grammatically correct and idiomatic way. Thus, when the checker warns the user about the odd nature of a text segment, the Internet engine searches for contexts that can help the user decide whether he/she should correct the segment or not. By means of a search engine, the checker also suggests use of other expressions that appear on the Web more often than the expression he/she actually wrote.

Sujets

Procesamiento de lenguajes naturales

Natural language processing

Informations

Publié par	erevistas
Publié le	01 janvier 2006
Nombre de lectures	17
Langue	Catalan

Extrait

Les humanitats en l’era digital
www.uoc.edu/digithum
Un corrector gramatical basat
en cerques per Internet
Joaquim Moré
Investigador de l’Internet Interdisciplinary Institute (IN3) de la UOC
jmore@uoc.edu
Data de presentació: gener del 2006
Data de publicació: maig del 2006
CITACIÓ re Co MANADA
MORÉ, Joaquim (2006). «Un corrector gramatical basat en cerques per Internet». Digithum [article en línia]. Núm. 8.
UOC. [Data de consulta: dd/mm/aa].
<http://www.uoc.edu/digithum/8/dt/cat/more.pdf>
ISSN 1575-2275
Resum
En aquest article presentem un corrector gramatical de l’anglès destinat a escriptors no angloparlants. La principal característica
d’aquest corrector és l’ús d’un motor de cerca per Internet. Com que hi ha un gran nombre de pàgines web escrites en anglès,
el sistema fa la hipòtesi que un segment de text que no és present en cap pàgina web és probablement un segment de text
mal escrit. El sistema també fa la hipòtesi que a la Xarxa hi trobarà exemples que ensenyaran a l’usuari com ha d’expressar el
contingut del segment de text d’una manera gramatical i idiomàtica. Per tant, un cop el corrector avisa l’usuari que és millor
verificar un del seu text, el motor cerca contextos que poden ser útils a la persona que escriu a l’hora de decidir si
corregeix el segment o no. Gràcies també a l’ús d’un motor de cerca, el corrector suggereix a l’escriptor que utilitzi expressions
que són més freqüents a la Xarxa en comptes de l’expressió que ha escrit.
Paraules clau
correcció gramatical, correcció estilística, processament del llenguatge natural
Abstract
This paper presents an English grammar and style checker for non-native English speakers. The main characteristic of this checker
is the use of an Internet search engine. As the number of web pages written in English is immense, the system hypothesises
that a piece of text not found on the Web is probably badly written. The system also hypothesises that the Web will provide
examples of how the content of the text segment can be expressed in a grammatically correct and idiomatic way. Thus, when
the checker warns the user about the odd nature of a text segment, the Internet engine searches for contexts that can help the
user decide whether he/she should correct the segment or not. By means of a search engine, the checker also suggests use of
other expressions that appear on the Web more often than the expression he/she actually wrote.
Keywords
grammar checking, style checking, natural language processing
Núm. 8 | Maig del 2006 ISSN 1575-2275 Revista dels Estudis d’Humanitats i dels Estudis de Llengües i Cultures de la UOC

Joaquim Moré
(Títol original: A Grammar Checker Based on Web Searching)Les humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
1. Introducció 2. Descripció dels components
El corrector gramatical que presentem en aquest article es des- El corrector gramatical consta dels components següents:
envolupa a la Universitat Oberta de Catalunya. El seu objectiu
principal és ajudar el personal docent de la institució i els seus n Interfície d’usuari
investigadors que no són angloparlants a escriure textos en anglès n Etiquetador
(articles, missatges de correu electrònic, etc.). Malgrat tenir un n Analitzador de fragments (chunker)
domini acceptable de la llengua, la majoria no se senten prou n Motors de cerca d’Internet
segurs de la correcció dels textos que escriuen i els sembla que n Detector de fragments nous
moltes de les frases dels seus escrits delaten un nivell d’expertesa n Detector de fragments millorables
insuficient, perquè no són prou idiomàtiques. Ara bé, se senten n Cercador i visualitzador d’exemples
segurs del que escriuen quan veuen les seves frases o els seus
segments de text en un document ja publicat en anglès, sem- Interfície d’usuari
pre que la correcció gramatical i estilística del document estigui La interfície d’usuari carrega el document que l’usuari vol verificar
garantida. Si no troben la frase o segment en cap document, la (ara per ara el document ha d’estar en format .txt). L’usuari pot
inferència que hi hagi un error només es justifica si el nombre comprovar un fragment de text concret seleccionant-lo i fent-hi
de documents disponibles és elevat i els documents són variats. clic. En aquest cas el sistema verifica el segment seleccionat. Si
A Internet hi ha un nombre immens de documents, de tipus i l’usuari no selecciona cap segment, el sistema verifica tot el text.
gèneres molt variats; per la qual cosa, la principal característica
d’aquest corrector és que usa un motor de cerca per Internet Etiquetador
per a detectar segments de text de l’escrit de l’usuari que no es L’etiquetador etiqueta cada paraula d’una cadena segons la seva
troben en cap pàgina web. Per a cada un d’aquests segments, categoria gramatical. L’etiquetador que el sistema utilitza és la
[www1]el corrector informa l’usuari que el segment és nou (brand-new) versió demo del TreeTagger (Schmid, 1994) per a Windows.
en l’univers d’Internet i que probablement això passa perquè La versió demo no pot etiquetar més de dues-centes paraules. De
està mal escrit. La probabilitat que això sigui efectivament així totes maneres, com que s’ha treballat sobretot en la verificació de
és prou alta, tenint en compte que l’escriptor no és angloparlant fragments seleccionats per l’usuari, en aquest cas és difícil que el
i que no té un coneixement molt profund de la llengua. Després, nombre de paraules superi aquest límit. La sortida de l’etiquetador
el corrector cerca pàgines web que contenen diferents maneres és una llista de paraules etiquetades que tenen el format següent:
d’expressar el contingut del segment (variants) i mostra a l’usuari paraula-categoria gramatical-lema.
contextos amb aquestes variants a partir de la pàgina de resultats
de la cerca. Analitzador de fragments
L’evidència a partir de corpus grans s’ha aplicat en el camp L’analitzador de fragments agrupa en segments les paraules d’un
de la generació del llenguatge natural per a escollir una entre fragment de text etiquetades segons la seva categoria gramatical.
vàries realitzacions possibles d’una frase (Langkilde i Knight, En aquest moment hem establert els segments següents:
1998; Langkilde, 2002) i també s’han utilitzat motors de cerca
per Internet per a avaluar les regles de detecció d’errors d’alguns n N ominal: cadena de paraules que són determinants, ad-
correctors gramaticals (Naber, 2003). El corrector basat en corpus jectius o noms i que formen un sintagma nominal (per
que aquí presentem mai no diu a l’usuari com ha d’escriure; aniria exemple, an Internet search engine).
en contra de l’ús creatiu del llenguatge si jutgés un segment com n V erbal: cadena de paraules que formen un verb simple o
a incorrecte perquè no el troba a la Xarxa. El corrector simplement compost.
avisa l’escriptor i mostra contextos que contenen les variants del n Verbal+nominal: cadena de paraules que conté un segment
segment que ell ha escrit i que el motor de cerca per Internet ha verbal seguit d’un de nominal (per exemple, organise the
trobat. Aquests contextos es consideren útils per a l’usuari, el academic activity).
qual s’adona dels seus errors gramaticals i estilístics, i l’ajuden a n N ominal+preposició+nominal: cadena de paraules que
decidir de rescriure el text o, en canvi, deixar-lo tal com està si en conté dos segments nominals lligats per una preposició
els contextos no hi veu cap indici que ho aconselli. (per exemple, laborer on a farm).
[www1]: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
Núm. 8 | Maig del 2006 ISSN 1575-2275

Joaquim MoréLes humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
cap pàgina web’), o bé que a la pàgina de resultats de les cent n V erbal+preposició+nominal: cadena de paraules que conté
un segment verbal i un de nominal lligats per un preposició primeres pàgines web trobades la coincidència exacta no està
marcada amb negreta. La detecció de segments improbables és (per exemple, carry out a project).
n P reposició+nominal: cadena de paraules que conté una més complexa.
preposició seguida d’un segment nominal. La cadena no
és dins d’un segment més llarg (per exemple, on the one 3.1. Wordnet i la detecció de segments
hand). millorables
n A dverbial+verb/adjectiu: cadena de paraules que conté
un segment adverbial i un de verbal o un d’adjectival (per El detector de segments millorables activa el motor de cerca de
exemple, also display examples). Wordnet per a trobar millors maneres d’expressar el contingut
d’un segment, que anomenem segment hipòtesi. Per exemple,
Els segments contenen conceptes i relacions entre concep- quan el segment hipòtesi és del