VISITAS:

martes, 9 de junio de 2009

WSI. Identificación de sentidos de las palabras

La identificación del sentido o sentidos (en adelante WSI, Word Sense Identification en inglés) de una palabra en un texto de forma automática es una labor muy compleja para un ordenador. Se trata de asociar cada palabra del texto (usualmente sólo los sustantivos y a veces los verbos) al sentido adecuado. Si cada palabra tuviera un único sentido, esta tarea sería muy sencilla. Pero los idiomas como el español o el inglés son polisémicos, es decir, una palabra puede tener múltiples significados. Por tanto, la tarea de WSI consiste en identificar el sentido adecuado de cada palabra dentro de un texto.
El 12% de las palabras del inglés son polisémicas. Sin embargo, ese 12% (que parece una cifra muy baja) supone aproximadamente el 83% de las palabras utilizadas habitualmente.
Existen dos métodos para realizar WSI:
  • topical context
  • local context

Topical context busca sustantivos que co-ocurren habitualmente para un significado de una palabra polisémica. Por ejemplo, la palabra Java puede significar un lenguaje de programación o una isla del Pacífico (entre otras cosas). En un texto donde aparezcan co-ocurrencias como "java", "objeto", "clase", hay una probabilidad alta de que la palabra "java" se refiera aquí al lenguaje de programación. Sin embargo, si aparecen palabras como "java", "Pacífico", Indonesia", "budismo", probablemente se esté refiriendo a la isla de Java.

Local context busca pistas sintácticas y semánticas en palabras vecinas. Por ejemplo, "lenguaje java", "isla de java", permitirían identificar claramente el significado de la palabra "java" en cada uno de los casos.

Topical context funciona muy bien para identificar sentidos que no están relacionados semánticamente, como en el caso de la palabra "java" (sus significados están muy alejados semánticamente). Se trata de buscar las palabras vecinas en una ventana (de por ejemplo 50 palabras, o de dos sentencias) sobre la palabra a identificar.

Cuando los significados están cercanos semánticamente, el rendimiento de topical context cae. Por ejemplo, la palabra "bajo" que puede ser (entre otros significados) un instrumento musical o una voz en un coro. Ambos significados están cercanos semánticamente, ya que ambos están dentro del contexto de la música. En este caso, habría que utilizar local context. Se ha demostrado que las personas, cuando escriben, asignan un significado a una palabra polisémica en una ventana de 2 palabras alrededor de la palabra (o sea, 5 palabras en total: la palabra polisémica, las dos palabras anteriores y las dos palabras posteriores).

No hay comentarios:

Publicar un comentario