martes, septiembre 20, 2005

Mineria Web

Articulo de Revista :

La revista digital de InfoVis.net.
[Número 172]

La mineria web trata de descubrir patrones interesante en la estructura, el contenido y la utilización de los sitios web.

Herramienta imprescindible para el webmaster, todavia tiene, sin embargo, un largo recorrido por delante en el que la visualización juega un importante papel.

Vease la version grafica en la revista
En los artículos 164 , 165 y 166

Hablamos de la gestión de la relación con el cliente (CRM) y vimos la importancia de detectar los patrones de comportamiento de los mismos, así como el valor de la visualización de la información en la presentación de los resultados.

Hablábamos allí desde la perspectiva del propio cliente (¿cómo encuentro y selecciono lo que quiero?) y del gestor del negocio (¿que es lo que prefieren mis clientes y cómo se comportan?).

Sin embargo si nos ponemos en la piel del webmaster entendido como el responsable de la web y su arquitectura, veremos que es crucial poder conocer la estructura real del sitio web, de sus contenidos y el uso que se hace de los mismos por parte del usuario.

Puede parecer una tontería pensar que el webmaster no conoce la estructura real su propia web, especialmente si contribuyo a crearla. Certifico por experiencia propia que la web que uno tiene en la mente o en los documentos no suele ser exactamente la real, debido principalmente a errores y malentendidos, especialmente en webs grandes.

El término "web mining" fue acuñado por O. Etzioni* en 1996 y se podria definir como la integración de información obtenida mediante los métodos tradicionales de la minería de datos con información recogida sobre la web. En definitiva la minería de datos aplicada a las especificidades de la web.

Como muy bien expone Patricio Galeas en su página () sobre minería web, ésta se nutre principalmente de tres ámbitos dentro del campo del descubrimiento del conocimiento () :

* Minería de la Estructura de la Web (Web Structure Mining o WSM).
Esta especialidad pretende revelar la estructura real de un sitio web a traves de la recogida de datos referentes a su estructura y, principalmente a su conectividad. Típicamente tiene en cuenta dos tipos de enlaces: estáticos y dinámicos.

* Minería de Contenido de la Web (Web Content Mining o WCM)
Su objetivo es la recogida de datos e identificación de patrones relativos a los contenidos de la web y a las búsquedas que se realizan sobre los mismos. Hay dos estrategias principales:

a.- Minería de páginas web, que extraen patrones directamente de los contenidos existentes en las páginas. Los datos que se utilizan en este caso son

* Texto libre
* Páginas escritas en HTML
* Páginas escritas en XML
* Elementos multimedia
* Cualquier otro tipo de contenido presente en la web.

b.- Minería de resultados de búsqueda, que intenta identificar patrones en los resultados de los motores de búsqueda.

* Minería de la Utilización de la Web (Web Usage Mining o WUM)
Aquí lo que se intenta es bucear en los registros de los servidores (logfiles) sobre las transacciones informáticas que se realizan en la web con el fin de encontrar patrones sobre el uso que se le da. Por ejemplo páginas más visitadas recorridos habituales, etc. Podemos distinguir también aqui:

a.- Seguimiento de patrones generales de acceso. Interesa en esta estrategia no los patrones de un visitante concreto son la integración de ellos en tendencias generales que nos permitan reestructurar la web para facilitar su acceso a los clientes.

b.- Seguimiento personalizado de patrones de acceso. Aqui lo que interesa es obtener datos sobre el comportamiento y la interacción con nuestor sitio web por parte de visitantes individuales a fin de establecer perfilles de acceso / compra de forma que se pueda ofrecer una experiencia personalizada a cada cliente. Caso arquetípico el de amazon.com y sus sugerencias de compra.

La minería web es una disciplina con un importante potencial. Pese al creciente y enorme volumen de sitios web existentes, todavía es baja la proporción de sitios web que emplean herramientas de minería web para analizar su estructura, contenido y utilización en aras de un mejor servicio al usuario y de la mejora del negocio.

Por otro lado la minería web sufre de los mismos problemas que la avalancha de datos general, hacen falta herramientas de visualización que permitan digerir e interpretar los muchos resultados que proporciona.