VISITAS:

jueves, 16 de junio de 2011

Análisis de información no estructurada (II)

En la mayoría de los entornos y en la mayoría de las circunstancias, el texto no es homogéneo. Dos personas hablan inglés, pero en la práctica, no expresan lo mismo con las mismas palabras.
La aproximación clásica al procesamiento automatizado del texto es usar la semántica y el procesamiento del lenguaje natural. Pero yo prefiero otra aproximación (sin despreciar ni descartar la aproximación clásica): el texto está formado por palabras y por tanto es otra forma de datos. Esta aproximación nos libera de considerar el contexto. Es cierto que tomar las palabras fuera del contexto puede dar lugar en ocasiones a significados retorcidos. También es verdad que liberar a las palabras de su contexto nos abre la puerta a nuevos tipos de procesamiento que no son posibles cuando tenemos que pararnos a considerar el contexto. Es un compromiso, como casi siempre.

Ahora mismo tenemos que dar respuestas a temas como:
  • ¿Cómo hacemos el puente para pasar del mundo no estructurado al mundo estructurado?

  • ¿Cómo almacenamos la información estructurada y la no estructurada en una base de datos?


  • Esta disciplina está ahora mismo (2011) en su infancia. Confío que con el trabajo de todos los que estamos en esto (al que modestamente quisiera contribuir como un granito de arena más) lleve al procesamiento de información no estructurada a su primera juventud.

    No hay comentarios:

    Publicar un comentario