VISITAS:

jueves, 16 de junio de 2011

Análisis de información no estructurada (I)

Después de bastante tiempo voy a intentar retomar el tema del análisis de la información no estructurada. Empiezo hoy haciendo una introducción general...

La información estructurada se caracteriza por bases de datos, transacciones, registros, columnas, claves, etc. La información no estructurada se basa en correos electrónicos, hojas de cálculo, documentos, informes, etc.
Estos dos mundos han ido creciendo por separado, como si ambos existieran en universos distintos. El mundo del análisis y la inteligencia de negocio ha crecido en torno a la información estructurada. Es un mundo que nos muestra resúmenes, informes, estadísticas. En este mundo tienen sentido fundamentalmente los números, las fechas y los hechos.
En cuanto al mundo de la información no estructurada no existe ni mucho menos el avance ni la sofisticación que ha alcanzado el mundo estructurado. Aquí se ha conseguido implementar algunos (muy buenos) motores de búsqueda y poco más.
¿Significa esto que no haya información útil en un entorno no estructurado? La respuesta es, bajo mi punto de vista, absolutamente NO. Existe un montón de información importante y útil dentro de este entorno, pero no es fácilmente extraíble para poder manejarla y analizarla.
Hay muchas razones por las que los datos textuales son mucho más difíciles de manejar que los datos estructurados. La primera razón es la pérdida de repetibilidad y la pérdida de predictibilidad de la información textual.

Existen dos aproximaciones arquitecturales y técnicas para el análisis de la información no estructurada. La primera consiste en extraer el texto del entorno no estructurado y entonces analizarlo y manipularlo en ese mismo formato no estructurado. La otra aproximación consiste en extraer el texto del entorno no estructurado y entonces "convertirlo" a estructurado para analizarlo después con las técnicas de la información estructurada. Esta segunda aproximación podría parecer extraña o antinatural, sin embargo, existen poderosas razones para hacerlo así:

  • Si utilizamos las técnicas de tratamiento de la información estructurada nos podemos aprovechar de muchas herramientas y procedimientos existentes, muy probados y de comprobada utilidad.

  • En el mundo de la información no estructurada las herramientas suelen ser de tecnología propietaria (y en el caso de poder acceder a ella, resulta extremadamente cara). Sin embargo, existen multitud de plataformas y herramientas de software libre en el mundo de la información estructurada.

  • Si pasamos nuestra información no estructurada al mundo de la información estructurada, podremos establecer conexiones entre ambos mundos, haciendo posible algunos análisis que de otro modo no se podrían hacer. Por ejemplo, se podría construir un data warehouse que integrara tanto información estructurada como textual.

  • No sólo existen herramientas para el procesamiento de la información estructurada sino que también existen herramientas y métodos de análisis que pueden venirnos muy bien para estudiar los resultados del procesamiento de la información no estructurada.


  • Por tanto, nuestro método de trabajo va a ser extraer la información no estructurada de su entorno, convertirla a información estructurada, procesarla y analizarla con las técnicas de los entornos de información estructurada.

    No hay comentarios:

    Publicar un comentario en la entrada