10 Etapas para la Ciencia de Datos

69

Una metodología de ciencia de datos de 10 etapas que abarca tecnologías y enfoques.

Screenshot_3

A medida que las capacidades de análisis de datos se vuelven más accesibles y prevalecientes, los científicos de datos necesitan una metodología fundamental capaz de proporcionar una estrategia de guía, independientemente de las tecnologías, los volúmenes de datos o los enfoques involucrados. Esta metodología tiene algunas similitudes con las reconocidas metodologías 1-5 para la extracción de datos, pero enfatiza varias de las nuevas prácticas en la ciencia de datos, como el uso de grandes volúmenes de datos, la incorporación de análisis de texto en el modelado predictivo y la automatización de algunos procesos.

La metodología consta de 10 etapas que forman un proceso iterativo para el uso de datos para descubrir información. Cada etapa desempeña un papel vital en el contexto de la metodología general.

  • Stage 1: Business Understanding: Cada proyecto comienza con la comprensión del negocio. Los patrocinadores del negocio que necesitan la solución analítica desempeñan el papel más importante en esta etapa al definir el problema, los objetivos del proyecto y los requisitos de la solución desde una perspectiva empresarial. Esta primera etapa sienta las bases para una resolución exitosa del problema empresarial. Para ayudar a garantizar el éxito del proyecto, los patrocinadores deben participar a lo largo del proyecto para proporcionar experiencia en el dominio, revisar los hallazgos intermedios y garantizar que el trabajo continúe en el camino para generar la solución deseada.
  • Stage 2: Analytic Approach: Una vez que el problema de negocio se ha establecido claramente, el científico de datos puede definir el enfoque analítico para resolver el problema. Esta etapa implica expresar el problema en el contexto de las técnicas estadísticas y de aprendizaje automático, para que la organización pueda identificar las más adecuadas para el resultado deseado. Por ejemplo, si el objetivo es predecir una respuesta como «sí» o «no», entonces el enfoque analítico podría definirse como construir, probar e implementar una modelo de clasificación.
  • Stage 3: Data Requirements: El enfoque analítico seleccionado determina los requerimientos de datos. Específicamente, los métodos analíticos que se utilizarán requieren ciertos contenidos de datos, formatos y representaciones, guiados por el conocimiento del negocio.
  • Stage 4: Data Collection: En la etapa inicial de recolección de datos, los científicos de datos identifican y reúnen los recursos de datos disponibles, estructurados, no estructurados y semiestructurados, relevantes para el dominio del problema. Normalmente, deben elegir si realizar inversiones adicionales para obtener elementos de datos menos accesibles. Puede ser mejor aplazar la decisión de inversión hasta que se sepa más sobre los datos y el modelo. Si hay gaps en la recopilación de datos, el científico de datos puede tener que revisar los requisitos de los datos en consecuencia y recopilar datos nuevos o más. Si bien el muestreo y subconjunto de datos siguen siendo importantes, las plataformas de alto rendimiento de hoy y la funcionalidad analítica en la base de datos permiten que los científicos de datos utilicen conjuntos de datos mucho más grandes que contienen gran parte de los datos disponibles, o incluso todos. Al incorporar más datos, los modelos predictivos pueden representar mejor los eventos raros, como la incidencia de la enfermedad o fallo de sistema.
  • Stage 5: Data Understanding: Después de la recopilación de datos original, los científicos de datos suelen utilizar estadísticas descriptivas y técnicas de visualización para comprender el contenido de los datos, evaluar la calidad de los datos y descubrir información inicial sobre los datos. Recolección de datos adicionales puede ser necesaria para llenar gaps.
  • Stage 6: Data Preparation: Esta etapa abarca todas las actividades para construir el conjunto de datos que se utilizará en la siguiente etapa de modelado. Las actividades de preparación de datos incluyen la limpieza de datos (tratar con valores faltantes o no válidos, eliminar duplicados, formatear adecuadamente), combinar datos de múltiples fuentes (archivos, tablas, plataformas) y transformar datos en variables más útiles.En un proceso llamado feature engineering, los científicos de datos pueden crear variables explicativas adicionales, también conocidas como predictors o features, a través de una combinación de conocimiento de dominio y variables estructuradas existentes. Cuando los datos de texto están disponibles, como los registros del centro de atención al cliente o las notas de los médicos en forma no estructurada o semiestructurada, el análisis de texto es útil para derivar nuevas variables estructuradas para enriquecer el conjunto de predictores y mejorar la precisión del modelo.La preparación de datos suele ser el paso más lento en un proyecto de ciencia de datos. En muchos dominios, algunos pasos de preparación de datos son comunes en diferentes problemas. La automatización de ciertos pasos de preparación de datos por adelantado puede acelerar el proceso al minimizar el tiempo de preparación ad hoc. Con los sistemas paralelos masivos y la funcionalidad analítica de alto rendimiento de hoy en día donde se almacenan los datos, los científicos de datos pueden preparar datos de forma más fácil y rápida utilizando conjuntos de datos muy grandes.
  • Stage 7: Modeling: A partir de la primera versión del conjunto de datos preparado, la etapa de modelado se centra en el desarrollo de modelos predictivos o descriptivos de acuerdo con el enfoque analítico previamente definido (Stage 2). Con los modelos predictivos, los científicos de datos utilizan un conjunto de capacitación (datos históricos en los que se conoce el resultado de interés) para construir el modelo. El proceso de modelado suele ser altamente iterativo a medida que las organizaciones obtienen información intermedia, lo que lleva a refinamientos en la preparación de datos y especificación del modelo. Para una técnica dada, los científicos de datos pueden probar múltiples algoritmos con sus respectivos parámetros para encontrar el mejor modelo para las variables disponibles.
  • Stage 8: Evaluation: Durante el desarrollo del modelo y antes del despliegue, el científico de datos evalúa el modelo para comprender su calidad y garantizar que aborda de manera adecuada y completa el problema del negocio. La evaluación del modelo implica el cálculo de varias medidas de diagnóstico y otros resultados, como tablas y gráficos, lo que permite al científico de datos interpretar la calidad del modelo y su eficacia para resolver el problema.Para un modelo predictivo, los científicos de datos usan un set de pruebas, que es independiente del set de entrenamiento pero sigue la misma distribución de probabilidad y tiene un resultado conocido. El set de pruebas se utiliza para evaluar el modelo para que pueda ser refinado según sea necesario. A veces, el modelo final se aplica también a un conjunto de validación para una evaluación final.Además, los científicos de datos pueden asignar pruebas de significación estadística al modelo como prueba adicional de su calidad. Esta prueba adicional puede ser instrumental para justificar la implementación del modelo o tomar medidas cuando las apuestas son altas, como un costoso protocolo médico suplementario o un sistema crítico de vuelo en avión.
  • Stage 9: Deployment: Una vez que un modelo satisfactorio ha sido desarrollado y aprobado por los sponsors, se implementa en el entorno de producción o en un entorno de prueba comparable. Por lo general, se implementa de forma limitada hasta que su rendimiento se haya evaluado completamente. La implementación puede ser tan simple como generar un informe con recomendaciones, o lo que implica involucrar el modelo en un flujo de trabajo complejo y un proceso de calificación administrado por una aplicación personalizada. La implementación de un modelo en un proceso de negocio operativo generalmente involucra grupos, habilidades y tecnologías adicionales dentro de la empresa. Por ejemplo, un grupo de ventas puede implementar un modelo de propensión a la respuesta a través de un proceso de administración de campañas creado por un equipo de desarrollo y administrado por un grupo de mercadeo.
  • Stage 10: Feedback: Al recopilar los resultados del modelo implementado, la organización obtiene información sobre el rendimiento del modelo y su impacto en el entorno en el que se implementó. Por ejemplo, la retroalimentación podría tomar la forma de tasas de respuesta a una campaña promocional dirigida a un grupo de clientes identificados por el modelo como clientes de alto potencial. Al analizar esta información, los científicos de datos pueden refinar el modelo para mejorar su precisión y utilidad. Pueden automatizar algunos o todos los pasos de recopilación de comentarios y evaluación de modelos, refinamiento y redistribución para acelerar el proceso de actualización de modelos para obtener mejores resultados.

Fuente: IBM Analytics | White paper | Foundational Modeling for Data Science.