¡Participa de la Maratón Behind the Code, la competencia de programación más desafiante! Inscríbete aqui

Visualización, preparación y transformación de datos con IBM Watson Studio

Este tutorial forma parte de la ruta de aprendizaje de Introducción a Watson Studio.

Nivel Tema Tipo
100 Introducción a IBM Watson Studio Artículo
101 Visualización, preparación y transformación de datos con IBM Watson Studio Tutorial
201 Automatización del desarrollo de modelos en IBM Watson Studio Tutorial
301 Creación de flujos de SPSS Modeler en IBM Watson Studio Tutorial
401 Creación de modelos utilizando Jupyter Notebooks en IBM Watson Studio Tutorial

Introducción

El propósito de este tutorial es demostrar funciones en IBM® Watson™ Studio que te ayudarán a visualizar y obtener información sobre tus datos, luego limpiarlos y transformarlos para desarrollar modelos predictivos de alta calidad.

Requisitos previos

Para completar los tutoriales de esta ruta de aprendizaje, necesitarás una cuenta de IBM Cloud. Es posible obtener una cuenta de prueba gratuita, que te da acceso a IBM Cloud, IBM Watson Studio y Servicio IBM Watson Machine Learning.

Tiempo estimado

Te tomará aproximadamente 30 minutos completar este tutorial.

Pasos

Configura tu entorno

Se requieren los siguientes pasos para completar todos los tutoriales en esta ruta de aprendizaje.

Crea el servicio IBM Cloud Object Storage

Se requiere un servicio de almacenamiento de objetos para crear proyectos en Watson Studio. Si aún no tienes un servicio de almacenamiento provisto, completa los siguientes pasos:

  1. Desde tu cuenta de IBM Cloud, busca «almacenamiento de objetos» en el Catálogo de IBM Cloud. Luego, haz clic en la placa Almacenamiento de objetos.

    object-storage-tile

  2. Ingresa un nombre y selecciona la versión Estándar (gratuita) del servicio.

    object-storage-create

  3. Para Grupo de recursos, es posible utilizar el valor predeterminado, pero una mejor opción es utilizar un grupo dedicado que hayas creado en IBM Cloud. Es posible encontrar el comando para crear nuevos grupos de recursos en IBM Cloud utilizando la opción de menú Gestionar > Cuenta y luego navegar a Recursos de la cuenta > Grupos de recursos en la barra de herramientas de la izquierda. El botón Crear está en la esquina superior derecha de la página.

  4. Haz clic en Crear.

Crea proyecto de Watson Studio

Si aún no tienes un proyecto existente para usar en esta ruta de aprendizaje, crea uno nuevo.

  1. Inicia sesión en Watson Studio utilizando la cuenta que creaste para tu cuenta de IBM Cloud

  2. Haz clic en Crear un proyecto o Nuevo proyecto.

  3. Selecciona Crear un proyecto vacío.

    create-empty-project

  4. En la ventana Nuevo proyecto, asígnale un nombre al proyecto (por ejemplo, «Watson Machine Learning»).

    create-project

  5. Para Almacenamiento, es necesario seleccionar el servicio IBM Cloud Object Storage que creaste en el paso anterior. Si es el único servicio de almacenamiento que has proporcionado, se asigna automáticamente.

  6. Haz clic en Crear.

Suministro de servicios de IBM Cloud

NOTA: Esta sección trata sobre la creación de nuevos servicios para tu proyecto. Si ya has proporcionado alguno de estos servicios, es posible optar por utilizarlos en lugar de crear otros nuevos.

Servicio Watson Machine Learning

Para aprovisionar el servicio Machine Learning y asociarlo con el proyecto actual:

  1. Selecciona la pestaña Configuración para el proyecto.

  2. Desplázate hacia abajo hasta la sección Servicios asociados.

    add-ml-service

  3. Haz clic en Agregar servicio.

  4. Selecciona Watson en el menú desplegable.

  5. En la página siguiente, haz clic en Agregar en la placa de servicio Machine Learning.

  6. En la página siguiente, selecciona la pestaña Nuevo para crear un nuevo servicio.

  7. Conserva el Plan Lite por ahora (es posible cambiarlo más tarde, si es necesario).

  8. Desplázate hacia abajo y haz clic en Crear para crear el servicio.

  9. Se abre la ventana Confirmar creación, que te permite especificar los detalles del servicio, como la región, el plan, el grupo de recursos y el nombre del servicio.

    confirm-ml-service

  10. Ingresa un nombre para la instancia de servicio (opcionalmente, es posible anteponer el nombre generado con «watson-machine-learning»).

  11. Para el Grupo de recursos, es posible optar por utilizar el valor predeterminado, pero una mejor opción es utilizar un grupo dedicado que hayas creado en IBM Cloud. Es posible encontrar el comando para crear nuevos grupos de recursos en IBM Cloud utilizando la opción de menú Gestionar > Cuenta y luego navegando a Recursos de cuenta > Grupos de recursos en la barra de herramientas de la izquierda. El botón Crear se encuentra en la esquina superior derecha de la página.

  12. Haz clic en Confirmar.

Servicio IBM Cognos Dashboard Embedded

Para proporcionar el servicio IBM Cognos Dashboard Embedded y asociarlo con el proyecto actual:

  1. Selecciona la pestaña Configuración para el proyecto.

  2. Desplázate hasta la sección Servicios asociados.

  3. Haz clic en Agregar servicio.

  4. Selecciona Panel de instrumentos en el menú desplegable.

    add-dashboard-service

  5. En la página siguiente, selecciona Nuevo para crear un nuevo servicio.

  6. Conserva el Plan Lite por ahora (es posible cambiarlo más tarde, si es necesario).

  7. Haz clic en Crear para crear el servicio.

    Aparece la ventana Confirmar creación, que te permite especificar los detalles del servicio, como la región, el plan, el grupo de recursos y el nombre del servicio.

    confirm-dashboard-service

  8. Ingresa un nombre para la instancia de servicio (opcionalmente, es posible anteponer el nombre generado con «watson-machine-learning»).

  9. Para el Grupo de recursos, selecciona el mismo grupo de recursos utilizado con el suministro de tus otros servicios de IBM Cloud.

  10. Haz clic en Confirmar.

Carga conjunto de datos

A continuación, descargarás el conjunto de datos de Kaggle y lo cargarás en Watson Studio.

  1. Navega hasta la URL del conjunto de datos en Kaggle (https://www.kaggle.com/sandipdatta/customer-churn-analysis) y descarga el archivo en tu escritorio local.

  2. Cambia el nombre del archivo a algo más significativo (por ejemplo, ‘customer-churn-kaggle.csv’).

  3. En Watson Studio, selecciona Activos.

  4. Si aún no está abierto, haz clic en el icono de datos 1001 en la parte superior derecha del panel para abrir el subpanel Archivos. Luego, haz clic en Cargar.

    upload-data-set

  5. Arrastra el archivo al área de colocación para cargar los datos en Watson Studio.

  6. Espera hasta que se haya cargado el archivo.

Contexto

Después de completar los pasos para configurar tu entorno, ahora es posible centrarte en el tema principal de este tutorial, que trata sobre los datos. Aprenderás a visualizarlos, luego prepáralos y transfórmalos para que puedan usarse y así desarrollar modelos predictivos optimizados de alta calidad.

Un enfoque clásico de la ciencia de datos para realizar estas actividades es utilizar el lenguaje de programación Python que se ejecuta en un Jupyter Notebook. Si bien cubrimos este método más adelante en el tutorial de la ruta de aprendizaje Desarrolla modelos usando Jupyter Notebooks en IBM Watson Studio, este tutorial se centra en formas alternativas de lograr el mismo objetivo, utilizando funciones y herramientas proporcionadas por Watson Studio, sin necesidad de programación.

Visualización básica en Watson Studio

Una vez recopilados los datos, el siguiente paso se denomina fase de comprensión de los datos. Consiste en actividades que te permiten familiarizarte con los datos, identificar problemas de calidad de los datos y descubrir los primeros conocimientos sobre los datos.

Es posible lograr esto en Watson Studio mediante simples interacciones de usuario, sin una sola línea de código. Para ver el conjunto de datos en Watson Studio, localiza el activo de datos y luego haz clic en el nombre del conjunto de datos para abrirlo.

select-data-set

Watson Studio te muestra una vista previa de los datos en la pestaña Vista previa.

data-preview

Alternativamente, la pestaña Perfil te brinda información de perfil que muestra la distribución de los valores. Para las características numéricas, también muestra la desviación máxima, mínima, media y estándar de la función:

data-profile

Observa que, aunque las columnas numéricas se identifican como de tipo varchar, el generador de perfiles es lo suficientemente inteligente como para reconocer que son columnas numéricas, convertirlas implícitamente y calcular la media y desviación estándar.

Para generar el perfil por primera vez:

  1. Selecciona la pestaña Perfil.

  2. Recurre al comando Crear perfil.

  3. Aguarda un momento y luego actualiza la página.

Observa que el parámetro de rotación no proporciona una distribución equilibrada de las observaciones de rotación y no rotación. Esto podría significar que deberías adoptar estrategias de validación cruzada durante la fase de desarrollo y evaluación del modelo.

churn-values

Más visualizaciones usando el servicio Cognos Dashboard

Es posible profundizar en el conjunto de datos creando un panel de instrumento con visualizaciones asociadas. Básicamente, esto requiere tres pasos: crear un panel de instrumento vacío, agregar una fuente de datos para usar en visualizaciones y agregar visualizaciones apropiadas al panel de instrumento.

Para crear el panel de instrumento:

  1. Haz clic en Agregar al proyecto.

  2. Haz clic en Panel de instrumento para crear un panel de instrumento nuevo.

  3. Sigue estos pasos en la página Nuevo panel de instrumento:

    1. Ingresa un Nombre para el panel de instrumento (por ejemplo, ‘panel de instrumento de rotación de clientes’).

    2. Proporciona una Descripción para el panel de instrumento (opcional).

    3. Para Servicio Cognos Dashboard Embedded, selecciona el servicio de panel de instrumento que creaste anteriormente.

      create-dashboard

    4. Haz clic en Guardar.

  4. En la página siguiente, selecciona la plantilla Forma libre.

    free-form-diagram

  5. Mantén la configuración predeterminada que crea un panel de instrumento con pestañas.

  6. Haz clic en Aceptar para crear un panel de instrumento vacío de forma libre con una sola pestaña.

Para agregar una conexión de datos:

  1. Haz clic en el botón Agregar una fuente (el ícono +) en la parte superior izquierda de la página:

    select-source

  2. Haz clic en Seleccionar para seleccionar la fuente de datos de rotación de cliente.

  3. De vuelta en el panel de instrumento, selecciona la fuente de datos recién importada.

  4. Obtén una vista previa de la fuente de datos haciendo clic en el ícono de tabla en la parte inferior derecha del panel.

    show-churn-data

  5. Expande la fuente de datos haciendo clic en > para poder ver las columnas.

    data-source-columns

Observa que es posible ver y cambiar las propiedades de las columnas. Simplemente haz clic en los 3 puntos a la derecha del nombre de la columna, luego selecciona Propiedades en el menú emergente. Esto muestra una ventana como se muestra arriba y te permite modificar la configuración predeterminada para Uso (Identificador, Atributo y Medida) y Función de Agregado (Recuento, Recuento Distinto, Máximo y Mínimo). Por ahora, estarías bien con la configuración predeterminada.

Para crear una visualización que muestre la distribución de rotación y no rotación como un gráfico circular:

  1. Selecciona el ícono Visualizaciones en la barra de herramientas de la izquierda.

  2. Selecciona un gráfico circular.

  3. Esto crea un formulario para especificar las propiedades del gráfico circular utilizando, por ejemplo, columnas del conjunto de datos.

    create-visualization

  4. Selecciona el ícono Fuentes en la barra de herramientas a la izquierda (ubicado arriba del ícono Visualizaciones).

  5. Arrastra la columna de rotación a la propiedad Segmentos del gráfico circular.

  6. Arrastra la columna de rotación a la columna Tamaño del gráfico circular.

    visualization-props

  7. Haz clic en la flecha Contraer en la parte superior derecha del formulario, como se muestra arriba. Esto minimiza el gráfico circular y lo representa en el panel de instrumento.

  8. Selecciona la Pestaña en la parte superior izquierda, luego haz clic en el botón Editar el título.

    initial-dashboard

  9. Proporciona un título para la pestaña (por ejemplo, ‘Rotación de cliente’).

Sigue estos pasos y crea dos visualizaciones más:

  • Un gráfico de columnas apiladas que muestra el estado (barras de propiedad de visualización) y la rotación (longitud, color) en los ejes X e Y, respectivamente.

Un gráfico circular que muestra la distribución del plan internacional (segmentos, longitud)

Esto debería resultar en un panel de instrumento similar a la siguiente imagen. Observa que es posible mover visualizaciones en el panel de instrumento usando el comando Mover widget ubicado en la parte superior de cada visualización.

final-dashboard

Los paneles de instrumento son dinámicos por naturaleza y admiten la exploración de datos mediante filtros. En la visualización que muestra ‘Plan internacional’, haz clic en el sector asociado con el valor ‘sí’. Esto crea un filtro que se aplicará a todas las demás visualizaciones (conectadas) en el panel de instrumento actual.

filtered-dashboard

Observa que el segmento de rotación en la visualización de la izquierda ha aumentado significativamente. Esto te muestra que los clientes con un plan internacional tienen más probabilidades de cambiar que los clientes que no tienen un plan internacional. Para eliminar el filtro, haz clic en el icono de filtro de la visualización en la esquina superior derecha, luego selecciona el botón de eliminar filtro que aparece (el ícono es una cruz en un círculo). Al hacer clic en el corte nuevamente se logra el mismo efecto.

Preparación y transformación de datos usando Refine

La fase de preparación de datos cubre todas las actividades necesarias para construir el conjunto de datos final que se alimenta al servicio de aprendizaje automático. Es probable que las tareas de preparación de datos se realicen varias veces y no en ningún orden prescrito. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y limpieza de datos para las herramientas de elaboración de modelos. Esto puede implicar convertir características categóricas en numéricas, normalizar las características y eliminar columnas que no sean relevantes para la predicción (por ejemplo, el número de teléfono del cliente).

Si solo quieres crear un modelo semiautomático o completamente automatizado utilizando el servicio IBM Watson AutoAI y Watson Machine Learning, no se necesita más actividad durante la preparación de datos (para el conjunto de datos actual) porque el servicio AutoAI se encarga de estas operaciones en el fondo. Mostramos cómo se hace esto en el tutorial Automatizar el desarrollo de modelos en IBM Watson Studio de esta ruta de aprendizaje.

Alternativamente, Watson Studio ofrece un servicio llamado Perfeccionar datos que te permite limpiar y transformar datos sin ninguna programación. Para ejecutar el servicio:

  1. Haz clic en Agregar al proyecto en la barra superior de la página de descripción general del proyecto.

  2. En la ventana Elegir tipo de activo, selecciona Data Refinery Flow para crear un nuevo flujo.

  3. En la página siguiente, selecciona el conjunto de datos de rotación de clientes y haz clic en Agregar.

  4. Esto abre la fuente de datos para que puedas transformarlos y verlos.

Ten en cuenta que también es posible iniciar el servicio Perfeccionar datos haciendo clic en Perfeccionar en el panel Vista previa del conjunto de datos.

start-refine

A continuación, se carga el servicio Perfeccionar datos y muestra la siguiente tabla.

refine-data-set

Observa las pestañas en la parte superior izquierda, que te permiten ver los datos en forma de tabla para perfilarlos (como en la sección anterior) y para crear visualizaciones personalizadas de los datos.

Para transformar los datos:

  1. Selecciona los 3 puntos en la columna «número de teléfono» y recurre al comando Eliminar en el menú desplegable. Esto elimina la columna.

    remove-phone-num

  2. Selecciona la columna de función total días minutos. Este es realmente un tipo de cadena, pero debe ser numérico.

  3. Haz clic en el botón Operación en la esquina superior izquierda, que te mostrará algunas transformaciones disponibles.

    transform-operation

Puedes convertir la columna a otro tipo (digamos flotante o entero). Sin embargo, no haremos esto por ahora porque el servicio Machine Learning lo hace por nosotros automáticamente en secreto. Pero, en principio, puedes decidir convertir la columna de «minutos totales del día» en una columna de números enteros y redondearla para mostrar cero decimales. Alternativamente, puedes convertirlo en un tipo flotante. Por ahora, continuemos ejecutando el flujo recién definido y veamos el resultado.

  1. Haz clic en el botón Ejecutar Data Refinery Flow en la barra de herramientas. Su ícono es una flecha.

  2. Selecciona la opción Guardar y crear un trabajo.

    save-and-create-job

  3. En la página siguiente, es posible asigna un nombre a el flujo y darle una descripción opcional. Ten en cuenta que el archivo de salida tendrá el mismo nombre que el nombre del activo, pero con un sufijo «con forma» añadido.

  4. Haz clic en Crear y ejecutar.

La ventana resultante muestra el archivo de entrada, el archivo de salida y las ejecuciones. Ten en cuenta que también hay una pestaña donde es posible programar el flujo para que se ejecute automáticamente.

refine-job-status

Regresa a tu proyecto y verifica que el archivo de salida y el flujo ahora sean parte de los activos de tu proyecto.

new-refine-flow-asset

Si haces clic en el activo de flujo recién creado, verás que la columna «número de teléfono» se ha eliminado.

Data Refinery Flow te permite realizar transformaciones rápidas de datos sin necesidad de programación. De ninguna manera es un reemplazo para Jupyter Notebooks y las poderosas capacidades de numpy y pandas, pero para un proceso de limpieza rápido es muy útil. Para transformaciones y cálculos más complejos, deberías volver a utilizar otras opciones, como Jupyter Notebooks o flujos de SPSS Modeler (que se tratarán en otros tutoriales incluidos en esta ruta de aprendizaje).

Conclusión

Este tutorial cubrió algunas de las herramientas disponibles en Watson Studio para visualizar, preparar y transformar tus datos.

Los temas incluyeron la vista previa y el perfil de tus activos de datos, la creación de un Cognos Dashboard para crear más visualizaciones y el uso de la herramienta Data Refine Flow para realizar transformaciones de datos.

Los tutoriales restantes en esta ruta de aprendizaje analizan formas alternativas de realizar estas tareas, así como dar el siguiente paso, utilizando los datos para desarrollar y desplegar modelos predictivos. El siguiente tutorial demuestra la herramienta AutoAI Experiment de IBM Studio, que es un enfoque no programático para crear, evaluar, desplegar y probar modelos de aprendizaje automático.