Participa del Call for Code Global Challenge | Tienes tiempo hasta el 31 de Julio! Responde el llamado

Introducción a IBM Watson Studio

Este artículo forma parte de la ruta de aprendizaje Introducción a Watson Studio.

Introducción

La ruta de aprendizaje de IBM® Watson™ Studio demuestra varias formas de utilizar IBM Watson Studio para predecir la rotación de clientes. Abarca desde un enfoque semiautomático que usa la herramienta AutoAI Experiment hasta un enfoque esquemático usando flujos de SPSS Modeler y un estilo totalmente programado que utiliza Jupyter Notebooks para Python.

Todos los tutoriales de esta ruta de aprendizaje siguen los pasos principales de los métodos para la ciencia de datos (y extracción de datos), como el proceso estándar de la industria cruzada para la extracción de datos (CRISP-DM) y la metodología de ciencia de datos de IBM.

Los tutoriales se centran en tareas de comprensión de datos, preparación de datos, elaboración de modelos, evaluación y despliegue de un modelo de aprendizaje automático para análisis predictivo. Usan como base un conjunto de datos y un notebook para la rotación de clientes disponibles en Kaggle y luego demuestran formas alternativas de resolver el mismo problema mediante AutoAI, SPSS Modeler y el servicio IBM Watson Machine Learning proporcionado por el conjunto de herramientas IBM Watson Studio. La ruta de aprendizaje explica el uso de la herramienta de creación de perfiles y los paneles de instrumentos de IBM Watson Studio para respaldar la comprensión de datos, así como la herramienta Refine para resolver tareas sencillas de preparación y transformación de datos.

Metodología de ciencia de datos

IBM ha definido una metodología de ciencia de datos que consta de 10 etapas que forman un proceso iterativo para el uso de datos para descubrir insights. Cada etapa juega un papel vital en el contexto de la metodología general. En un cierto nivel de abstracción, se puede ver como un refinamiento del flujo de trabajo descrito por el método CRISP-DM(PDF, 532 KB) para la extracción de datos.

02.01-CRISP-DM-1

De acuerdo con ambas metodologías, todo proyecto comienza con Comprensión del negocio, donde se definen los objetivos y el problema. A esto le sigue la fase Enfoque analítico en el método de ciencia de datos de IBM, donde el científico de datos puede definir el enfoque para resolver el problema. Luego, el método de ciencia de datos de IBM continúa con tres fases denominadas Requisitos de datos, Recopilación de datos y Comprensión de datos, que en CRISP-DM se presentan en una única fase de Comprensión de datos.

Una vez que el científico de datos comprende los datos y tiene suficientes datos para comenzar, pasa a la fase Preparación de datos. Esta fase suele llevar mucho tiempo. Un científico de datos pasa aproximadamente el 80 % de su tiempo en esta fase, realizando tareas como la limpieza de datos e ingeniería de características. El término «disputa de datos» se utiliza a menudo en este contexto. Durante y después de la limpieza de los datos, el científico de datos generalmente realiza exploración, como estadísticas descriptivas para tener una idea general de los datos, y agrupación para observar las relaciones y la estructura latente de los datos. Este proceso a menudo se repite varias veces hasta que el científico de datos está satisfecho con su conjunto de datos.

La etapa de capacitación del modelo es donde se usa el aprendizaje automático para desarrollar un modelo predictivo. El modelo se capacita y luego se evalúa mediante medidas estadísticas como la precisión, sensibilidad y especificidad de la predicción. Una vez que el modelo se considera suficiente, se despliega y se utiliza para calificar los datos no vistos. La metodología de ciencia de datos de IBM agrega una etapa de Feedback adicional para obtener comentarios sobre el uso del modelo, que luego se utiliza para mejorarlo. Ambos métodos son muy iterativos por naturaleza.

En esta ruta de aprendizaje, nos centraremos en las fases que comienzan con la comprensión de los datos y luego continuamos con la preparación de los datos, desarrollo de un modelo, evaluación del modelo y luego el despliegue y prueba del modelo. El propósito es desarrollar modelos para predecir la rotación de clientes. Los aspectos relacionados con el análisis de las causas de estas rotaciones para mejorar el negocio quedan fuera del alcance de esta ruta de aprendizaje. Esto significa que trabajaremos con varios tipos de modelos de clasificación que pueden, dada la observación de un cliente definido por un conjunto de características, dar una predicción sobre si este cliente específico está en riesgo de cambiar.

IBM Watson Studio

Para todas las tareas utilizamos IBM Watson Studio. Te brinda el entorno y herramientas para resolver problemas de negocio trabajando en colaboración con datos. Es posible elegir las herramientas necesarias para analizar y visualizar datos; limpiar y dar forma a los datos; ingresar datos de transmisión; o crear, capacitar y desplegar modelos de aprendizaje automático.

02.2-Watson-Studio

Con IBM Watson Studio, es posible:

  • Crear proyectos para organizar los recursos (como conexiones de datos, activos de datos, colaboradores y notebooks) para lograr un objetivo de análisis.

  • Acceder a datos desde conexiones a tu nube o fuentes de datos locales.

  • Cargar archivos al almacenamiento de objetos del proyecto.

  • Crear y mantener catálogos de datos para descubrir, indexar y compartir datos.

  • Perfeccionar datos limpiando y dando forma a los datos para prepararlos para el análisis.

  • Realizar tareas de ciencia de datos creando Jupyter Notebooks para Python o Scala para ejecutar código que procesa datos y luego ver los resultados en línea. Alternativamente, es posible usar RStudio para R.

  • Ingresar y analizar corrientes de datos con la herramienta Streams Designer.

  • Crear, probar y desplegar aprendizaje automático y modelos de deep learning.

  • Clasificar imágenes capacitando modelos de deep learning para reconocer el contenido de imágenes.

  • Crear y compartir paneles de instrumentos de visualizaciones de datos sin codificación.

Técnicamente, IBM Watson Studio se basa en una variedad de tecnología de open source y productos de IBM como se muestra en la siguiente figura.

02.3-Watson-Studio-Architecture

En el contexto de la ciencia de datos, IBM Watson Studio puede verse como una plataforma de colaboración integrada de múltiples roles que apoya al desarrollador, al ingeniero de datos, al analista de negocios y al científico de datos en el proceso de resolución de un problema de ciencia de datos. Para el rol de desarrollador, otros componentes de la plataforma IBM Cloud también pueden ser relevantes en la creación de aplicaciones que utilizan servicios de aprendizaje automático. Sin embargo, el científico de datos puede desarrollar modelos de aprendizaje automático utilizando una variedad de herramientas, que van desde:

Más allá de estos tres componentes principales, también utilizarás:

Para obtener información adicional, echa un vistazo a una lista extensa de videos instructivos que están disponibles para IBM Watson Studio.

Servicio IBM Watson Machine Learning

Un componente clave de IBM Watson Studio es el servicio IBM Watson Machine Learning y su conjunto de API de REST que se pueden llamar desde cualquier lenguaje de programación para interactuar con un modelo de aprendizaje automático. El enfoque del servicio IBM Watson Machine Learning es el despliegue, pero es posible utilizar IBM SPSS Modeler o IBM Watson Studio para crear y trabajar con modelos y canales. Tanto SPSS Modeler como IBM Watson Studio utilizan Spark MLlib y Python scikit-learn y ofrecen varios métodos de elaboración de modelos que se toman del aprendizaje automático, de la inteligencia artificial y de las estadísticas.

Utiliza los siguientes enlaces para obtener información más detallada sobre Watson Machine Learning:

Resumen

Este artículo proporcionó información general sobre la metodología de ciencia de datos de IBM, qué papel puede desempeñar IBM Watson Studio y una vista previa de lo que se cubrirá en esta ruta de aprendizaje.

Un objetivo de esta ruta de aprendizaje es mostrar cómo IBM Watson Studio ofrece, además de Jupyter Notebooks para Python, Scala o R, formas alternativas de pasar por un proceso similar que podría ser más rápido y se puede lograr sin conocimientos de programación. En esencia, estos mecanismos son flujos de SPSS Modeler, que permite a un científico de datos crear un modelo de forma puramente gráfica definiendo un flujo y la herramienta gráfica IBM AutoAI dentro de IBM Watson Studio, que va un paso más allá de SPSS al proporcionar un enfoque semiautomático a la creación, evaluación, despliegue y prueba de un modelo de aprendizaje automático. Al mismo tiempo, la ruta de aprendizaje muestra cómo IBM Watson Studio proporciona capacidades listas para perfilar, visualizar y transformar los datos, nuevamente sin necesidad de programación.

Para continuar con la ruta de aprendizaje, visita el primer tutorial de esta serie, Visualización, preparación y transformación de datos utilizando IBM Watson Studio.