X hits on this document

80 views

0 shares

0 downloads

0 comments

9 / 28

                                {/cat=np}[*{},

                                         {/cat=n,e_lu=N2},

                                        *{imwu=no/cat=?}]],

             *{} ].

3.2. El sublenguaje

La identificación de las colocaciones terminológicas previa al procesamiento del texto resulta ser una estrategia útil. Esta identificación puede hacerse de manera automática según diferentes técnicas, pero la asignación unívoca del patrón correspondiente es preferible que sea manual. Esto significa que el proceso sólo devendrá completamente automático para un sublenguaje cuya terminología haya sido identificada de antemano y clasificada según su estructura sintáctica. Como ya dijimos, para los sublenguajes donde la repetición es máxima y la innovación terminológica mínima (como la meteorología), ésta es una tarea posible. Para aquellos otros lenguajes más difíciles de acotar habría que buscar técnicas que trabajaran por aproximación, con la consiguiente pérdida de exactitud.

Por otro lado, para extraer la terminología de un texto es preciso, o bien categorizar todo el texto para poder identificar patrones de nombre + adjetivo, de nombre + preposición + nombre, etc., o bien utilizar criterios estadísticos.

La primera opción implicaba el trabajo de un lematizador, es decir, de una herramienta que pudiera determinar la categoría de un lexema sin necesidad de cotejo con un diccionario. El lematizador trabaja con ayuda de una lista de sufijaciones (nominales, adjetivales, verbales, etc.), y por medio de reglas que efectúan un cálculo a partir de la adyacencia con otras categorías, actuando las categorías cerradas como punteros. Es decir, gracias a la presencia de artículos o preposiciones (categorías cerradas y listadas) es posible desambiguar aquellos casos en los que la información de la sufijación es insuficiente. Por ejemplo: ‘canto’ puede tratarse de un nombre o de un verbo. Si se detecta la adyacencia de un artículo (el canto) el programa rechaza la posibilidad de que sea un verbo. El lematizador es una herramienta que puede reutilizar la información que ella misma obtiene gracias a su cálculo para determinar la categoría de otros casos ambiguos.

Respecto de la segunda opción, la de utilizar criterios estadísticos para detectar los patrones léxicos coocurrentes y recurrentes, se parte del cálculo matemático de la información mutua entre dos eventos:

(11,12) log   p (11   12  )   

 p(11) x (p12)

Smadja (1992) utilizó esta fórmula para identificar colocaciones en un corpus. Los binomios podían estar separados por varias palabras sin que ello menguara la relevancia estadística de su coocurrencia. La relevancia de las asociaciones, cuando éstas no eran corroboradas por patrones sintácticos, se medía a partir de los factores distancia, intensión, extensión, (distance, strenght, spread) en virtud de la frecuencia de coaparición de una palabra (wi ) con una palabra dada (w).

ki = freqi – f     >/  0

stdv

Document info
Document views80
Page views80
Page last viewedSun Dec 04 04:38:38 UTC 2016
Pages28
Paragraphs363
Words12419

Comments