7 jours d'essai offerts
Cet ouvrage et des milliers d'autres sont disponibles en abonnement pour 8,99€/mois

Compartir esta publicación

Les humanitats en l’era digital
www.uoc.edu/digithum
Un corrector gramatical basat
en cerques per Internet
Joaquim Moré
Investigador de l’Internet Interdisciplinary Institute (IN3) de la UOC
jmore@uoc.edu
Data de presentació: gener del 2006
Data de publicació: maig del 2006
CITACIÓ re Co MANADA
MORÉ, Joaquim (2006). «Un corrector gramatical basat en cerques per Internet». Digithum [article en línia]. Núm. 8.
UOC. [Data de consulta: dd/mm/aa].
<http://www.uoc.edu/digithum/8/dt/cat/more.pdf>
ISSN 1575-2275
Resum
En aquest article presentem un corrector gramatical de l’anglès destinat a escriptors no angloparlants. La principal característica
d’aquest corrector és l’ús d’un motor de cerca per Internet. Com que hi ha un gran nombre de pàgines web escrites en anglès,
el sistema fa la hipòtesi que un segment de text que no és present en cap pàgina web és probablement un segment de text
mal escrit. El sistema també fa la hipòtesi que a la Xarxa hi trobarà exemples que ensenyaran a l’usuari com ha d’expressar el
contingut del segment de text d’una manera gramatical i idiomàtica. Per tant, un cop el corrector avisa l’usuari que és millor
verificar un del seu text, el motor cerca contextos que poden ser útils a la persona que escriu a l’hora de decidir si
corregeix el segment o no. Gràcies també a l’ús d’un motor de cerca, el corrector suggereix a l’escriptor que utilitzi expressions
que són més freqüents a la Xarxa en comptes de l’expressió que ha escrit.
Paraules clau
correcció gramatical, correcció estilística, processament del llenguatge natural
Abstract
This paper presents an English grammar and style checker for non-native English speakers. The main characteristic of this checker
is the use of an Internet search engine. As the number of web pages written in English is immense, the system hypothesises
that a piece of text not found on the Web is probably badly written. The system also hypothesises that the Web will provide
examples of how the content of the text segment can be expressed in a grammatically correct and idiomatic way. Thus, when
the checker warns the user about the odd nature of a text segment, the Internet engine searches for contexts that can help the
user decide whether he/she should correct the segment or not. By means of a search engine, the checker also suggests use of
other expressions that appear on the Web more often than the expression he/she actually wrote.
Keywords
grammar checking, style checking, natural language processing
Núm. 8 | Maig del 2006 ISSN 1575-2275 Revista dels Estudis d’Humanitats i dels Estudis de Llengües i Cultures de la UOC

Joaquim Moré
(Títol original: A Grammar Checker Based on Web Searching)Les humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
1. Introducció 2. Descripció dels components
El corrector gramatical que presentem en aquest article es des- El corrector gramatical consta dels components següents:
envolupa a la Universitat Oberta de Catalunya. El seu objectiu
principal és ajudar el personal docent de la institució i els seus n Interfície d’usuari
investigadors que no són angloparlants a escriure textos en anglès n Etiquetador
(articles, missatges de correu electrònic, etc.). Malgrat tenir un n Analitzador de fragments (chunker)
domini acceptable de la llengua, la majoria no se senten prou n Motors de cerca d’Internet
segurs de la correcció dels textos que escriuen i els sembla que n Detector de fragments nous
moltes de les frases dels seus escrits delaten un nivell d’expertesa n Detector de fragments millorables
insuficient, perquè no són prou idiomàtiques. Ara bé, se senten n Cercador i visualitzador d’exemples
segurs del que escriuen quan veuen les seves frases o els seus
segments de text en un document ja publicat en anglès, sem- Interfície d’usuari
pre que la correcció gramatical i estilística del document estigui La interfície d’usuari carrega el document que l’usuari vol verificar
garantida. Si no troben la frase o segment en cap document, la (ara per ara el document ha d’estar en format .txt). L’usuari pot
inferència que hi hagi un error només es justifica si el nombre comprovar un fragment de text concret seleccionant-lo i fent-hi
de documents disponibles és elevat i els documents són variats. clic. En aquest cas el sistema verifica el segment seleccionat. Si
A Internet hi ha un nombre immens de documents, de tipus i l’usuari no selecciona cap segment, el sistema verifica tot el text.
gèneres molt variats; per la qual cosa, la principal característica
d’aquest corrector és que usa un motor de cerca per Internet Etiquetador
per a detectar segments de text de l’escrit de l’usuari que no es L’etiquetador etiqueta cada paraula d’una cadena segons la seva
troben en cap pàgina web. Per a cada un d’aquests segments, categoria gramatical. L’etiquetador que el sistema utilitza és la
[www1]el corrector informa l’usuari que el segment és nou (brand-new) versió demo del TreeTagger (Schmid, 1994) per a Windows.
en l’univers d’Internet i que probablement això passa perquè La versió demo no pot etiquetar més de dues-centes paraules. De
està mal escrit. La probabilitat que això sigui efectivament així totes maneres, com que s’ha treballat sobretot en la verificació de
és prou alta, tenint en compte que l’escriptor no és angloparlant fragments seleccionats per l’usuari, en aquest cas és difícil que el
i que no té un coneixement molt profund de la llengua. Després, nombre de paraules superi aquest límit. La sortida de l’etiquetador
el corrector cerca pàgines web que contenen diferents maneres és una llista de paraules etiquetades que tenen el format següent:
d’expressar el contingut del segment (variants) i mostra a l’usuari paraula-categoria gramatical-lema.
contextos amb aquestes variants a partir de la pàgina de resultats
de la cerca. Analitzador de fragments
L’evidència a partir de corpus grans s’ha aplicat en el camp L’analitzador de fragments agrupa en segments les paraules d’un
de la generació del llenguatge natural per a escollir una entre fragment de text etiquetades segons la seva categoria gramatical.
vàries realitzacions possibles d’una frase (Langkilde i Knight, En aquest moment hem establert els segments següents:
1998; Langkilde, 2002) i també s’han utilitzat motors de cerca
per Internet per a avaluar les regles de detecció d’errors d’alguns n N ominal: cadena de paraules que són determinants, ad-
correctors gramaticals (Naber, 2003). El corrector basat en corpus jectius o noms i que formen un sintagma nominal (per
que aquí presentem mai no diu a l’usuari com ha d’escriure; aniria exemple, an Internet search engine).
en contra de l’ús creatiu del llenguatge si jutgés un segment com n V erbal: cadena de paraules que formen un verb simple o
a incorrecte perquè no el troba a la Xarxa. El corrector simplement compost.
avisa l’escriptor i mostra contextos que contenen les variants del n Verbal+nominal: cadena de paraules que conté un segment
segment que ell ha escrit i que el motor de cerca per Internet ha verbal seguit d’un de nominal (per exemple, organise the
trobat. Aquests contextos es consideren útils per a l’usuari, el academic activity).
qual s’adona dels seus errors gramaticals i estilístics, i l’ajuden a n N ominal+preposició+nominal: cadena de paraules que
decidir de rescriure el text o, en canvi, deixar-lo tal com està si en conté dos segments nominals lligats per una preposició
els contextos no hi veu cap indici que ho aconselli. (per exemple, laborer on a farm).
[www1]: http://www.ims.uni-stuttgart.de/projekte/corplex/TreeTagger/DecisionTreeTagger.html
Núm. 8 | Maig del 2006 ISSN 1575-2275

Joaquim MoréLes humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
cap pàgina web’), o bé que a la pàgina de resultats de les cent n V erbal+preposició+nominal: cadena de paraules que conté
un segment verbal i un de nominal lligats per un preposició primeres pàgines web trobades la coincidència exacta no està
marcada amb negreta. La detecció de segments improbables és (per exemple, carry out a project).
n P reposició+nominal: cadena de paraules que conté una més complexa.
preposició seguida d’un segment nominal. La cadena no
és dins d’un segment més llarg (per exemple, on the one 3.1. Wordnet i la detecció de segments
hand). millorables
n A dverbial+verb/adjectiu: cadena de paraules que conté
un segment adverbial i un de verbal o un d’adjectival (per El detector de segments millorables activa el motor de cerca de
exemple, also display examples). Wordnet per a trobar millors maneres d’expressar el contingut
d’un segment, que anomenem segment hipòtesi. Per exemple,
Els segments contenen conceptes i relacions entre concep- quan el segment hipòtesi és del tipus preposició+nominal, el
tes. Considerem les preposicions i els verbs com a paraules que detector fa la hipòtesi que aquest segment de text és una manera
relacionen conceptes. d’expressar un concepte o és un connector discursiu. D’acord amb
l’organització de Wordnet, el motor cerca els synsets del nucli
Motors de cerca per Internet nominal (cada synset és un conjunt de paraules sinònimes que
[www2]El corrector utilitza el motor de Wordnet 2.0, una base de denota un concepte) i també les glosses que expliquen cada un
dades lèxico-semàntica disponible en línia, per a obtenir informa- d’aquests sentits. S’etiqueta i se segmenta cada glossa on apareix
ció sobre com es poden expressar els conceptes. Els motors que el nucli i es compara el segment que el conté amb el segment
s’utilitzen per a obtenir el nombre de pàgines web que contenen hipòtesi. Si els segments coincideixen en tipus però varien per una
un segment de text (resultats de la cerca) són el motor de cerca paraula funcional, el segment hipòtesi es considera millorable.
[www3] [www4]de Yahoo i el d’Altavista. Vegem-ne un exemple. Imaginem-nos que l’escriptor ha escrit:
Detectors de segments nous i millorables (1) In the one hand, we explain the antecedents in the study
A partir de la pàgina de resultats de la cerca, els detectors de of the cognitive processes…
segments nous i millorables saben si el segment és nou (no s’ha
trobat cap coincidència en cap pàgina web). Si no ho és, els In the one hand no és nou, però el motor de cerca de Wordnet
detectors també jutgen si el segment es pot millorar (segment troba on the one hand…, but on the other hand… en la glossa
millorable). del sentit 7 de ‘hand’. Després d’haver etiquetat i segmentat la
glossa, el detector s’adona que on the one hand forma el mateix
Cercador i visualitzador d’exemples segment sintàctic que in the one hand, que no apareix en la
Quan un segment és nou o es considera que és millorable, el pàgina de resultats de Wordnet. Per tant, el corrector mostra el
cercador busca a la Xarxa pàgines web que contenen variants missatge següent:
d’aquest segment i mostra contextos (snippets) amb aquestes
variants a partir de la pàgina de resultats de la cerca. Aquests (2) hand - (one of two sides of an issue; on the one hand…,
contextos poden ser útils per a l’usuari a l’hora de decidir si reescriu but on the other hand…)
el contingut del segment o no. El nombre màxim de contextos que
es poden mostrar en una pàgina de resultats és de cent. Aquest missatge és la glossa del sentit 7 de ‘hand’ a Wordnet
i pot ser útil perquè l’usuari s’adoni que hauria de revisar in the
one hand.
3. Detecció de segments nous i 3.2. Aprofitar els «Did you mean…?»
millorables
Quan a la pàgina de resultats de la cerca hi apareix la pregunta
Els segments nous són els que el motor de cerca busca a la «Did you mean…?» (‘Volies dir…?’), la forma suposada també
Xarxa i que com a resposta obté una pàgina de resultats amb s’etiqueta i se segmenta per a comprovar si la seva estructura
la seqüència «We didn’t find any web pages» (‘No s’ha trobat sintàctica coincideix amb la del segment hipòtesi. Si és així, se
[www2]: http://www.cogsci.princeton.edu/~wn
[www3]: .yahoo.com
[www4]: http://www.altavista.com
Núm. 8 | Maig del 2006 ISSN 1575-2275

Joaquim MoréLes humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
cerca la forma suposada i es compara el seu nombre de resultats Després d’haver llegit (5ii), l’usuari que ha escrit Internet
amb el nombre de resultats de la hipòtesi. Es considera que el searcher probablement preferirà escriure Internet search engine.
segment hipòtesi és millorable quan el seu nombre de resultats és Aquest és un exemple de com el sistema pot ser útil per als tra-
més petit. Per exemple, imaginem-nos que l’usuari escriu: ductors, qui han de manejar terminologia.
(3) … it displays real-English examples with an Internet En el cas que hem vist de and also to display es mostraran
searcher. contextos com ara (6):
La pàgina de resultats per a Internet searcher conté la pregunta (6) … Sometimes the use of a spreadsheet can help the pupils
«Did you mean ’Internet search’?» (‘Volies dir Internet Search?’). to perform calculations more easily and also to display
S’etiqueta Internet search i s’identifica com un segment nominal, their results graphically in the form of bar charts and pie
igual que Internet searcher. El nombre de resultats d’Internet searcher charts. This facility to…
(1.660) es compara amb el d’Internet search (3.220.000). Segons
aquesta comparació, Internet searcher es considera millorable. Pel que fa a segments nous, la cerca de contextos útils es fa
substituint les paraules que relacionen conceptes per un nou ele-
3.3. Detecció de la variant més freqüent ment. Quan el segment és de tipus verbal+nominal, se substitueix
el verb per un dels seus sinònims. El sinònim pertany als synsets
La variant d’un segment pot ser una cadena amb les mateixes del verb segons la pàgina de resultats del motor de Wordnet.
paraules però en un ordre diferent de com apareixen en el segment
Llavors, els motors de Yahoo i Altavista cerquen documents amb
hipòtesi. Vegem per exemple: les noves paraules clau. Si es troben contextos, aquests es mostren
a l’usuari. Per exemple, si l’usuari escriu el segment nou to devise
(4) …in order to detect odd pieces of text and to also display the academic activity, ‘devise’ se substitueix per un sinònim de
helpful contexts.
Wordnet diferent (‘organise’, ‘organize’, ‘machinate’…) en n
cerques, essent n el nombre d’elements dels synsets del verb.
Si l’usuari vol verificar and to also display, l’adverbi also es
Llavors es mostren contextos com ara (7).
col·loca en la posició més extrema a l’esquerra i es fan noves
crides amb el motor de cerca movent l’adverbi una posició en
(7) C ommittees including the important General/Professorial/
cada crida de dreta a esquerra. El motor busca cada variant i el
Academic Board, and the Finance Committee […] and
detector compara el nombre de resultats (also and to display: 0;
lectureships, and organise the academic activity of specific
and also to display: 340; and to also display: 13; and to display
departments or…
also: 2). Com que els resultats de and to also display només
superen also and to display i and to also display, aquest segment
Si la substitució per un sinònim falla, les paraules que relaci-
es considera millorable.
onen conceptes (per exemple, preposicions) se substitueixen per
un símbol especial que fa que es comptin com a coincidències
totes les paraules que hi ha entre els termes relacionats. El sis-
4. Mostra de contextos útils tema mostra els contextos de la pàgina de resultats en què els
conceptes estan relacionats per una cadena de paraules, sense
Quan un segment es considera millorable, el corrector mostra signes de puntuació entremig, marcada amb negreta. En aquesta
contextos curts extrets de les pàgines web que contenen la forma cadena l’usuari hi pot veure una preposició diferent de la que ha
alternativa escollida. Aquests contextos són els que apareixen a utilitzat o pot conèixer una manera idiomàtica de relacionar les
la pàgina de resultats (snippets). La variant escollida apareix en paraules que denoten els conceptes. Els contextos s’etiqueten, i
negreta. Per tant, en el cas d’Internet search, el sistema mostra es creen segments sintàctics amb la finalitat de presentar primer
contextos com ara (5i) i (5ii). els contextos en què les paraules amb negreta formen el mateix
segment sintàctic de la hipòtesi. Per exemple, si l’usuari escriu we
(5) i) …Internet Search Tools. Single SearchEngines/ carried up a project that lasted 2 years, on carried up a project és
Portals… nou, el corrector primer mostra contextos com How we carried
ii) With billions of pages on the Web, you use a search out our project, que poden ser útils perquè l’usuari s’adoni que
engine if you’re looking for something specific. Learn hauria d’haver utilitzat la preposició ‘out’.
how search engines acquire, store and organize all that S’està treballant en la possibilitat de mostrar contextos on
data to help you find what you’re […] like most people, algunes paraules que denoten conceptes i que coexisteixen en un
you visit an Internet search engine. segment sintàctic del text (sense signes de puntuació entremig)
Núm. 8 | Maig del 2006 ISSN 1575-2275

Joaquim MoréLes humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
apareguin coexistint en un segment sintàctic diferent però més Segments que no són nous, però que no són gramaticals, hau-
freqüent. L’usuari disposaria de més maneres idiomàtiques de dir rien d’aparèixer poc a la Xarxa; ara bé, quin és el nombre mínim
d’aparicions per a considerar que un segment és gramaticalment la mateixa cosa. Per exemple, mostraria search results page (un
correcte? Quan les paraules coexistents són molt freqüents, el SN amb 515.000 resultats) en cas que l’usuari hagués escrit the
llindar pot ser alt (per exemple, ‘machine translation’, 280.000 page that shows the results of the search (1 resultat). El sistema
resultats), però la presència d’una combinació menys freqüent hauria de considerar aquest SN complex com una manera més
en un segment gramatical pot fer que el nombre de resultats curta d’expressar les relacions conceptuals escrites a la frase.
caigui en picat (per exemple, ‘machine translation methods’, 109
resultats); per tant, el nivell s’hauria d’establir de manera coherent.
Es podrien aplicar mètodes estadístics per a establir el llindar de 5. Comparació amb els correctors
resultats, encara que es poden considerar altres mètodes, com la
tradicionals
identificació d’URL de confiança arran dels contextos mostrats.
Per exemple, els documents provinents d’URL amb .edu o els
El corrector que presentem és diferent dels correctors gramaticals
documents que continguin www.citeseer, la gran biblioteca en
i d’estil tradicionals, perquè no es basa en regles predefinides ni línia de publicacions científiques, probablement són escrits en un
dependents de la llengua (Naber, 2003), ni en anàlisis sintàctiques anglès acceptable.
(Jensen et al., 1993), ni en mètodes estadístics (Atwell i Elliot, Un altre problema inherent a les cerques per Internet és la
1987). Els mòduls, excepte l’etiquetador, actuen amb un motor manca de criteris lingüístics dels motors a l’hora de fer les cerques.
de cerca que no és «dependent de la llengua». Per tant, el cor- Per exemple, si es busca I loved the woman, el motor no compta
rector és fàcil d’adaptar a una altra llengua sempre que hi hagi una pàgina que contingui I love the women. Esperem que les
un etiquetador per a aquesta llengua i el nombre de pàgines web consultes a Wordnet i també l’etiquetatge i segmentació dels
disponibles a la Xarxa sigui elevat. Per altra banda, aquest correc- contextos pugui atenuar aquests efectes. Aquests temes seran
tor pot advertir l’usuari d’un ventall més ampli de fenòmens que analitzats i quantificats en un futur pròxim.
superen la concordança subjecte-verb i altres errors típics tractats
pels sistemes tradicionals. De fet, aquest corrector es desenvolupa
com un complement d’aquests sistemes. Els correctors tradicionals Bibliografia
ja detecten els errors d’ortografia i els errors gramaticals típics;
per tant, he presentat una manera simple d’ajudar l’usuari que té ATWELL, E.; ELLIOT, S. (1987). «Dealing with ill-formed English
mancances difícils de ser detectades per unes regles predefinides. text». A: The Computational analysis of English. Longman.
El sistema tot just s’està desenvolupant i encara no hi ha dades JENSEN, K.; HEIDRON, G.E.; RICHARDSON, S.D. (ed.) (1993).
per a avaluar la seva actuació. Per tant, no hem fet una Natural language processing: the PLNP approach. Kluwer Aca-
comparació exhaustiva amb altres correctors. demic Publishers.
LANGKILDE, I.; KNIGHT, K. (1998). «Generation that exploits
corpus-based statistical knowledge». A: Proceedings COLING-
ACL.6. Treball futur
LANGKILDE, I. (2002). «An Empirical Verification of Coverage
and Correctness for a General-Purpose Sentence Generator». A: En primer lloc, cal avaluar de quina manera el corrector supera
Proceedings of the International Language Generation Confe-alguns problemes que són inherents en les cerques per Internet.
rence 2002. Nova York. Pàg. 17-24.Per exemple, les pàgines web amb errors gramaticals i ortogràfics
NABER, D. (2003). A Rule-Based Style and Grammar Checker. no estan discriminades i, per tant, el corrector no sap del cert si
Universitat de Bielefeld.un segment que no és nou coincideix amb l’error d’un escriptor
SCHMID, H. (1994). «Probabilistic Part-of-Speech Tagging no angloparlant. Les coincidències trobades, independentment
Using Decision Trees». A: Proceedings of the First International que les paraules vagin amb majúscula o minúscula, també fan
Conference on New Methods in Natural Language Processing que segments mal escrits no es considerin nous. Segons Naber
(NemLap-94). Manchester, Regne Unit. Pàg. 44-49.(2003), el Google troba el segment no gramatical ‘the is’ perquè hi
ha un document a la Xarxa que el conté: About the IS associates,
en què ‘IS’ probablement és un acrònim.
Núm. 8 | Maig del 2006 ISSN 1575-2275

Joaquim MoréLes humanitats en l’era digital
Un corrector gramatical basat en cerques per Internetwww.uoc.edu/digithum
Joaquim Moré
Investigador de l’Internet Interdisciplinary Institute (IN3) de la UoC
jmore@uoc.edu
Investigador de l’IN3 i tècnic del Servei Lingüístic de la Universitat Oberta de Catalunya especialitzat en tecnologies lingüísti-
ques. És llicenciat en Filologia anglesa i té el màster de Lingüística computacional per la Universitat de Barcelona. Actualment
desenvolupa la seva tesi doctoral entorn de l’avaluació de la traducció automatitzada.
Aquesta obra està subjecta a la llicència Reconeixement-NoComercial-SenseObraDerivada 2.5 de Creative
Commons. Podeu copiar-la, distribuir-la i comunicar-la públicament sempre que n’especifqueu l’autor i la
revista on es publica (Digithum); no en feu un ús comercial; i no en feu obra derivada. La llicència completa
es pot consultar a http://creativecommons.org/licenses/by-nc-nd/2.5/es/deed.ca.
Núm. 8 | Maig del 2006 ISSN 1575-2275

Joaquim Moré