Encuentre e implemente modelos de alto rendimiento en minutos

Introducción

Las inversiones estratégicas en IA pueden cambiar las reglas del juego. Para cumplir la promesa de la IA, las organizaciones ahora están abordando las brechas en el conjunto de habilidades, los procesos de implementación y gobernanza. En particular, las empresas buscan una alternativa en la que los científicos de datos novatos puedan comenzar rápidamente, y que los científicos de datos expertos puedan acelerar el tiempo de experimentación de semanas y meses a minutos y horas. Necesitan un entorno de inteligencia artificial y ciencia de datos multimodal donde los especialistas en análisis y datos colaboren con otros expertos y optimicen el rendimiento del modelo de un extremo a otro.

AutoAI es un servicio que automatiza las tareas de aprendizaje automático para facilitar las tareas de los científicos de datos. Prepara automáticamente sus datos para el modelado, elige el mejor algoritmo para su problema y crea canalizaciones para los modelos entrenados.

SPSS Modeler es una solución líder en ciencia de datos visuales y aprendizaje automático. Ayuda a las empresas a acelerar el tiempo de generación de valor y a lograr los resultados deseados al acelerar las tareas operativas para los científicos de datos.

Este tutorial tiene como objetivo mostrar los diferentes usos y opciones para entrenar, comprender e implementar modelos de Aprendizaje Automático utilizando las herramientas de modelado AutoAI y SPSS. Para obtener más información, visite AutoAI y SPSS Modeler

Tiempo Estimado: Este tutorial tarda aproximadamente 45 minutos en completarse, incluida la capacitación en AutoAI y la exploración de las herramientas de modelado de SPSS.

Objetivos de aprendizaje

Este tutorial explica los beneficios del servicio AutoAI en un caso de uso para que pueda comprender mejor cómo se pueden manejar los problemas de regresión y clasificación sin ningún código y cómo se realizan las tareas (ingeniería de características, selección de modelos, ajuste de hiperparámetros, etc.) con este servicio. El tutorial también incluye detalles para elegir el mejor modelo entre las canalizaciones y cómo implementar y usar estos modelos. Por otro lado, construiremos un modelo de aprendizaje automático predictivo con IBM SPSS Modeler. Después de completar este tutorial, podrá: crear un flujo de SPSS Modeler, usar SPSS para inspeccionar datos y obtener información, modificar y preparar datos y entrenar modelos de aprendizaje automático con SPSS.

Prerequisitos

Para poder hacer el tutorial, debe de:

  • Regístrarse para obtener una cuenta de IBM Cloud. (Este tutorial se puede completar utilizando una cuenta de IBM Cloud Lite).
  • Crear una instancia de servicio de almacenamiento de objetos en la nube.
  • Crear una instancia del servicio Watson Machine Learning.

Marco Teórico

IBM Watson Machine Learning, un servicio gestionado en el entorno de IBM Cloud, es la forma más rápida de mover modelos de experimentación en el escritorio al despliegue para producción. Para equipos más pequeños que buscan escalar implementaciones de aprendizaje automático, IBM Watson Machine Learning Server ofrece una instalación simple en cualquier nube pública o privada.

Para ayudar a simplificar el ciclo de gestión la Inteligencia Artificial, AutoAI automatiza:

  • Preparación de datos
  • Desarrollo del modelo
  • Ingeniería de funciones
  • Optimización de hiperparámetros

Parte 1: Experimento AutoAI

Paso 1. Configurar el recurso IBM Cloud Pak for Data

Si ya tiene un recurso IBM Cloud Pak for Data, salte al paso 2.

1. Dentro de su cuenta de IBM Cloud, cree un recurso Cloud Object Storage para almacenar el conjunto de datos que luego cargará para visualizar en la plataforma IBM Cloud Pak for Data.

Crear sesión de Cloud Object Storage

2. Luego, cree un recurso de IBM Watson Machine Learning, elija el plan que mejor se adapte a sus necesidades. Este recurso le permitirá utilizar la plataforma IBM Cloud Pak for Data.

Crear instancia de Watson Machine Learning

3. Puede ingresar a la plataforma IBM Cloud Pak for Data a través del recurso creado a partir de IBM Watson Machine Learning, haga clic en Comenzar

Acceder a la instancia de Machine Learning por Watson Studio

Paso 2. Configurar un nuevo proyecto

Watson Machine Learning es una plataforma integrada diseñada para organizar los componentes de su proyecto, como conjuntos de datos, colaboradores, modelos, cuadernos. Va a utilizar Watson ML para crear un proyecto en el que entrenará un modelo con AutoAI y posteriormente implementar este modelo entrenado.

  1. Ir al menú de hamburguesa (☰) y dar click en Projects.

Abrir sección de proyectos de IBM Cloud Pak for Data

2. Click en New project.

Seleccionar el tipo de proyecto a crear

3. Seleccionar Create an empty project.

Crear un proyecto nuevo vacío

4. Proporcione un nombre y una descripción opcional para el proyecto, seleccione el recurso Cloud Object Storage que creó anteriormente y haga clic en Crear. Nota: Si está utilizando otro tipo de despliegue del servicio IBM Cloud Pak for Data, ignore la opción de servicio Cloud Object Storage.

Definir la información del proyecto a crear

Paso 3. Cargar el conjunto de datos

1. Descargue el archivo billing.csv (CSV, 438 KB).

Este archivo de datos tiene los siguientes atributos:

Customer ID IDs
Contract (Month-to-month, one year, two year)
Paperless Billing (Yes, No)
Payment Method (Bank transfer, Credit card, Electronic check, Mailed check)
Monthly Charges ($)
Total Charges ($)
Churn (Yes, No)

2. From the Project home, click on the Assets tab. Next, either drag and drop the downloaded billing.csv file to the right-hand side pane where it says Drop files here or browse for files to upload, or click on browse and choose the downloaded billing.csv file. Desde la página principal del Proyecto, haga clic en la pestaña Assets. A continuación, arrastre y suelte el archivo billing.csv descargado en el panel lateral derecho donde dice Suelte archivos ó Busque archivos para cargar. También podría hacer click en examinar y elija el archivo descargado billing.csv.

Entrar al panel de Assets

Paso 4. Configurar el ambiente para AutoAI.

1. Para iniciar la experiencia AutoAI, haga clic en «Agregar al proyecto» desde la parte superior y seleccione AutoAI.

Seleccionar AutoAI dentro del proyecto

2. Nombrar el servicio.

Seleccionar el nombre del proyecto a crear

Para asociar una instancia de Watson Machine Learning, haga clic en el enlace indicado. Si tiene una instancia existente, selecciónela en la pestaña existente. Si no es así, cree uno nuevo desde la pestaña «Nuevo».

Después de aprovisionar su instancia de Watson Machine Learning, lo redirige a la misma página. Haga clic en Recargar y luego en Crear.

Paso 5. Configurar una instancia de AutoAI.

Siga los siguientes pasos para configurar su instancia de AutoAI.

1. Puede elegir la fuente desde donde cargar su conjunto de datos (puede cargarlo desde su sistema local o seleccionarlo del proyecto). En este caso, utilizaremos Seleccionar del proyecto.

Seleccionar los archivos a utilizar en el proyecto

2. Seleccinamos nuestro conjunto de datos y hacemos click en Select asset.

Marcar los assets a utilizar dentro del panel de selección

3. Con esto, ahora podemos pasar a configurar el modelo ML.

Por tanto, debemos elegir qué columna será la que vamos a predecir, además, la plataforma nos dirá cuál es el tipo de predicción, la clase positiva, y el optimizador que se nos asigna automáticamente, podemos modificar esto si lo necesitamos.

Exploraremos la configuración del experimento.

Seleccionar y revisar los datos a predecir

La Pestaña de Predicción contiene la configuración de los algoritmos utilizados y el tipo de modelo que se requiere tener, en la Pestaña Runtime obtendremos las configuraciones sobre el tipo de ejecución y cómo usarlo. Finalmente, en la Pestaña Data Source, modificaremos una columna para el experimento: desactivaremos la columna Customer ID para el entrenamiento del modelo, ya que sus valores no deberían tener alguna influencia.

Cuando esté listo, Guardaremos la configuración.

Marcar las fuentes de datos a utilizar

A continuación, ejecutaremos el experimento y esperaremos a que finalice el entrenamiento.

Paso 6. Flujo de AutoAI generado.

El experimento comienza justo después de completar los procesos anteriores.

Después del preprocesamiento de datos, AutoAI identifica los dos algoritmos de mejor rendimiento (de forma predeterminada, pero esta configuración se puede modificar) y para cada uno de estos dos algoritmos, AutoAI genera los siguientes 4 flujos.

AutoAI genera un total de 8 flujos que puede ver, comparar y guardar como modelos.

los puntos azules => Algoritmo «Random Forest». los morados => Algoritmo «XGB Classifier».

Mapa de relaciones dentro del panel del proyecto

Mientras AutoAI genera los modelos, hay dos vistas diferentes a través de las cuales puede visualizar el progreso de la creación de estos flujos . Son el mapa de progreso y el mapa de relaciones como se ve en las siguientes imágenes. Verá que AutoAI ha elegido XGB y Random Forest como los algoritmos de mejor rendimiento para este caso de uso.

La siguiente figura muestra el mapa de relaciones con las relaciones entre cada uno de estos flujos. Coloca el cursor sobre el mapa para ver más información.

Mapa de progreso del proyecto

La siguiente figura muestra la vista de la tabla de clasificación de flujos con los detalles de los ocho flujos junto con métricas de alto nivel. Inferimos que el clasificador XGB con dos conjuntos de optimización de hiperparámetros e ingeniería de características ha generado el mejor modelo posible. Este es el cuarto canal de la secuencia.

Datos ordenados en el panel de pipeline

AutoAI también proporciona una imagen para comparar el rendimiento de cada uno de estos modelos en función de diferentes métricas.

Comparación de la tabla de datos

Paso 7. Seleccionar un Modelo

El siguiente paso es seleccionar el modelo que ofrece el mejor resultado observando las métricas. En este caso, el flujo 4 dio el mejor resultado con la métrica «Precisión». Puede ver los resultados detallados haciendo clic en el flujo correspondiente en la tabla de clasificación. En esta vista se puede encontrar más información estadística, como matriz de confusión y métricas de desempeño (Recall, precisión y F1) entre otras.

Además, puede guardar el flujo del modelo haciendo click en «Guardar como» y luego seleccionando Modelo en la tabla de clasificación o la página de flujos. Simplemente va a guardar el modelo que nos dio el mejor resultado.

Evaluación del modelo previo a guardarlo

Se abre una ventana que pide el nombre del modelo, descripción (opcional), si desea guardar el modelo como modelo wml o como cuaderno para revisar el código, en este caso elegiremos el primero.

Después de completar estos campos, haga clic en Guardar.

Crear el modelo y definir sus detalles

Recibe una notificación para indicar que su modelo está guardado en su proyecto. Haga clic en Ver en proyecto.

Notificación de confirmación al guardar el modelo creado

Paso 8. Implementar y probar el modelo.

1. Para ver el modelo que acaba de guardar, cambie a la pestaña «Assets». Desplácese hasta la sección Modelos y haga clic en el modelo que acaba de guardar.

Confirmar el modelo en el panel de Assets

2. Para que el modelo esté listo para la implementación, haga clic en Promocionar al espacio de implementación.

Promover el uso del modelo desde su panel

3. Consulte el siguiente video para conocer los siguientes pasos.

Animación tutorial sobre el despliegue del modelo

Nota: Si no se muestra la opción para crear un nuevo espacio de implementación, o si parece que uno no está en uso, vuelva a la pestaña Espacio de implementación en el menú principal de IBM Cloud Pak for Data y cree uno nuevo desde cero.

4. Ahora puede probar su modelo desde la interfaz que se proporciona después de la implementación. Puede proporcionar su entrada en formato JSON o ingresar los detalles de entrada en los campos proporcionados en la interfaz.

Nota: Si no ve la opción para abrir la nueva implementación de su modelo, regrese al menú principal y vaya a Implementaciones -> Implementación de su espacio -> Su modelo -> Su implementación y pruébela desde allí.

Resultado de la prueba de despliegue

Prediction’s result:

{ "predictions": [ { "fields": [ "prediction", "probability" ], "values": [ [ "Yes", [ 0.4442618489265442, 0.5557381510734558 ] ] ] } ] }

Desde aquí puede continuar probando las predicciones del modelo con diferentes valores, luego, si necesita agregar este modelo a su aplicación, simplemente use la API del modelo y haga sus solicitudes.

Parte 2: IBM SPSS Modeler

Nota: Para hacer esta parte, debería haber realizado los pasos 1, 2 y 3 de la Parte 1. Si no hizo la Parte 1, por favor vaya y realice los primeros 3 pasos.

Paso 1. Crear un flujo de SPSS Modeler.

1. Para iniciar IBM SPSS Modeler, vaya a la página de inicio del proyecto, haga clic en Agregar al proyecto + y elija Modeler flow

Seleccionar el modelador de flujo del panel de assets

2. Nombre su servicio con el nombre de su preferencia y si quiere de una descripción opcional. Haga clic en Crear. Se le redirigirá a la página principal del flujo.

Configurar el nombre del flujo a crear

Paso 2. Importar los datos

3. Una vez que estemos en la página principal del flujo, debemos agregar el conjunto de datos. En el panel de la izquierda, expanda Importar, luego arrastre y suelte un Nodo de Conjunto de datos en el lienzo. Haga click derecho en el nodo que se colocó en el lienzo y haga clic en Abrir. Se abrirá un panel de la derecha, haga clic en Cambiar conjunto de datos.

Importar los datos a utilizar en el modelo de flujo

4. En esta nueva página, haga clic en Conjunto de datos, luego elija su archivo (en nuestro caso billing.csv) y haga clic en Aceptar.

Seleccionar los archivos a utilizar desde el panel

5. Verifique que en la ubicación de origen se muestre el archivo que eligió antes. Haga clic en Guardar

Guardar el modelo creado desde el panel derecho

Paso 3. Preparar los datos

6. Ahora vamos a agregar un nodo Tipo. En el panel de la izquierda, expanda Operaciones de campo, luego arrastre y suelte un Nodo de tipo en el lienzo. Luego, conecte el Nodo de conjunto de datos al Nodo de tipo haciendo clic en la flecha azul en el conjunto de datos y arrástrelo al nodo de tipo.

Agregar opción tipo al modelo

7. Haga clic derecho en el nodo Type en el lienzo y haga clic en abrir. Haga clic en Leer valores y Guardar

Guardar el archivo creado

Paso 4. Entrenar el modelo

8. Ahora vamos a agregar un nodo de Modelado. En el panel de la izquierda, expanda Modelado, luego arrastre y suelte un Clasificador automático en el lienzo. Luego, conecte Type node al nodo AutoClasificador como en el paso anterior.

Agregar un clasificador automático al modelo

9. Haga clic derecho en el nodo Clasificador automático en el lienzo y haga clic en abrir. Haga clic en Usar campos personalizados. En el objetivo, seleccione CHURN. Luego haga clic en Agregar columnas

Configurar y personalizar el clasificador automático

10. Marque la casilla a la izquierda del nombre del campo. Haga clic en Aceptar. Clic en Guardar

Marcar los campos a utilizar en el modelo

11. Ahora debemos ejecutar el clasificador. Haga clic derecho en el nodo AutoClasificador. Haga clic en Ejecutar. Cuando haya terminado, aparecerá un nuevo nodo llamado CHURN. Click en Ver modelo.

Ejecutar el autoclasificador

12. Aparecerá una nueva vista. Podemos ver los diferentes modelos generados con su precisión. Seleccionaremos el primero y volveremos al flujo.

Seleccionar uno de los nuevos modelos creados desde el panel

Paso 5. Evaluar el modelo

13. Vamos a agregar un nodo de análisis. En el panel de la izquierda, expanda Resultados, luego arrastre y suelte un Nodo de análisis en el lienzo. Conecte el nodo CHURN al nodo Análisis como en los pasos anteriores. Haga clic con el botón derecho en el nodo Análisis y haga clic en EJECUTAR. Aparecerá un panel en la derecha, haga clic en el «ojo» de Análisis para ver los resultados.

Ejecutar el modo de análisis del modelo

14. Obtenemos información sobre los resultados de precisión. Haga clic en Volver al flujo

Observar las analíticas detalladas del modelo de flujo

15. Expanda la pestaña Gráficos, luego arrastre y suelte el Nodo Evaluación en el lienzo. Conecte el Nodo CHURN con el nodo de evaluación. El nodo de evaluación pasará a llamarse automáticamente $ XF-Churn. Haga clic derecho en el nodo y haga clic en «Ejecutar».

Observar la gráfica generada tras ejecutar el modelo

16. Aparecerá un panel de la derecha, haga clic en el «ojo» de Análisis para ver los resultados. Mire el gráfico y haz clic en Volver al flujo

Tras confirmar la gráfica del modelo volver al flujo

Desde aquí puedes seguir probando con diferentes nodos y explorando lo que puede hacer cada uno de ellos. También puede comparar los otros modelos generados. ¡Siéntete libre de exportar!

Conclusiones

Este tutorial le permite probar dos opciones diferentes para explorar el mundo del aprendizaje automático de una manera fácil y sencilla. Como se demostró, no había necesidad de código para obtener información sobre sus datos y crear modelos de aprendizaje automático. Pudo configurar una instancia de IBM Cloud Pak for Data y desplegar los servicios que necesitaba de forma rápida. En ambas opciones pudo subir sus datos, prepararlos, procesarlos, generar diferentes modelos para elegir el mejor, implementarlos y finalmente probarlos. Este tutorial es solo una pequeña parte de todas las grandes cosas que puede hacer con IBM Cloud Pak for Data

Siguientes pasos

Si quiere seguir explorando el mundo de la ciencia de datos y la IA le recomendamos los siguientes recursos:

Contribuidores