framework crisp dm

Framework CRISP DM ¿Conoces esta metodología?

Esta metodología es un framework o «marco» bastante estandarizado a nivel internacional que permite algo fundamental, que varios individuos de un equipo de datos puedan trabajar de una manera similar generando un sistema con mucha más calidad y solidez. Aunque está pensado para la minería de datos, también es útil para sistemas más sencillos o pequeños como la analítica digital de una PYME.

Las siglas significan Cross-Industry Standard Process for Data Mining. Se le suele atribuir su origen a la empresa IBM pero en realidad fueron tres empresas las creadoras; DaimlerChrysler , SPSS, y NCR.

Hay bastantes frameworks para el tratamiento de datos y analítica digital similares a CRISP DM. Por ejemplo, SEMMA, TDSP o KDD. Simplemente para que te suenen estas iniciales. Mi favorito es CRISP DM porque es super sencillo de entender y, lo mejor de todo, se corresponde bastante con el trabajo de un analista digital. Tanto si trabajas en una agencia especializada en Google Analytics 4 , como yo, como si eres todo un Data Scientist con amplia experiencia en el sector de la minería de datos.

El CRISP DM está compuesto de seis fases:

  • Comprensión del negocio.
  • Comprensión de los datos.
  • Preparación de los datos.
  • Modelado.
  • Evaluación.
  • Despliegue.

Comprensión del negocio

Esta fase implica entender los KPI del negocio desde un perspectiva general. Nos referimos a las metas generales de la empresa.

Comprensión de los datos

Esta etapa es de exploración. Simplemente se analizan los datos disponibles. Nos referimos a su calidad y las relaciones entre ellos.

Preparación de los datos

Esta es la etapa de limpiado de datos clásica. En esta etapa se suele gastar bastante tiempo eliminando datos anómalos o valores extraños.

Modelado

Durante esta fase se seleccionan las técnicas de modelado estadístico que se aplicarán.
Algunas técnicas habituales son:
-Técnicas de clustering
-Redes neuronales.

También se aplican aquí las técnicas de predicción como la regresión lógica.

Evaluación

Aquí se revisa el grado en el que los resultados del modelado satisfacen los objetivos del proyecto

Despliegue

Técnicamente esta parte se refiere a la implementación del modelo en un entorno de producción. 

Ejemplos reales de uso del framework CRISP-DM

El estudio siguiente «Aplicación de metodología CRISP-DM para segmentación geográfica de una base de datos pública» publicado en la revista de ingeniería de la UNAM» (lo puedes ver aquí) es un ejemplo de la aplicación.

Aquí aplican la metodología CRISP-DM para obtener un modelo de segmentación geográfica utilizando la base de datos pública del Directorio Nacional de Unidades Económicas (DENUE) en México.

Fernando Lens
flens@seocom.agency