¡Participa de la Maratón Behind the Code, la competencia de programación más desafiante! Inscríbete aqui

IBM Cloud Pak for Data on Cloud

En este tutorial utilizaremos las herramientas Data Refinery y Cognos Embeded Dashboard dentro de Watson Studio en CloudPak for Data on Cloud. A su vez, generaremos una conexión con una base de datos DB2.

Prerequisitos

Tener una cuenta en IBM Cloud. En caso de no tenerla aún, podés registrarte en https://cloud.ibm.com/registration. Tener acceso a una base de datos estructurada.

Puedes consultar estos datos cómo ejemplo.

Tiempo estimado

40 min

Resumen:

En el tutorial se mostrará como visualizar de manera sencilla y rápida la información almacenada en una base de datos DB2 mediante un dashboard de Cognos, habiendo realizado una limpieza previa con Data Refinery.

De esta manera, podremos obtener insights sobre nuestra base de datos que se irán actualizando periódicamente.

Parte 1: Conexión a la base de datos.

  1. Ingresá a tu cuenta de IBM Cloud

  2. Crea el servicio de Watson Studio, para ello deberás buscarlo en el catálogo. Una vez que lo encuentres, selecciona el plan Lite y ponle un nombre representativo.

    Watson Studio Dashboard

  3. Una vez creado, dale click a «Get Started. Esto te redirigirá a https://dataplatform.cloud.ibm.com . De ahora en más, podrás acceder al servicio directamente desde este link.

    Seleccionar Get Started en Watson Studio Dashboard

  4. Una vez dentro de Cloud Pak for Data on Cloud, podrás crear tu proyecto donde guardaras todos tus assets. Para ello, hace click en «Create a project». Luego selecciona «crear un proyecto vacío» y elegí un nombre para el mismo. También deberás asignarle una instancia de Object Storage para poder guardar tus assets. Si tenés una creada, podés utilizar esa. De no ser así, tenés que crear una. Para ello, debes seguir los mismos pasos que para crear la instancia de Watson Studio.

    IBM Cloud Pak for Data Dashboard

  5. Una vez creado tu proyecto, te encontrarás en la tab de Overview dentro del mismo. Ingresá a la tab de Assets para poder crear la conexión con la base de datos y demás activos.

    IBM Cloud Pak for Data Assets Dashboard

  6. Hace click en el botón azul ubicado arriba a la derecha para agregar assets a tu proyecto. En este caso, selecciona «Connection» para proporcionar las datos de tu base, posteriormente elegí la base DB2. Si tenés una base DB2 instanciada en tu cuenta de Cloud, los datos de la misma ser completaran automáticamente. Caso contrario, deberás ingresar a las credenciales de la misma y completar la información que te es solicitado. Recordá que en este caso utilizaremos una base DB2 pero podrías seleccionar cualquier de las otras opciones.

  7. Una vez completes todos los campos, ya sea de forma manual o que se te hayan completado automáticamente, testea la conexión y luego créala utilizando los botones de abajo a la derecha.

    Botón crear

  8. Una vez creada la conexión, ya podés traer la data de la base en cuestión. Para ello, desde «Add to Project» deberás seleccionar «Connected Data». Tendrás que elegir desde que fuente, que es la que acabamos de crear y luego elegir la tabla que desees y un nombre para el asset. De esta manera, ya tendrás creado el data set que se alimenta de tu base datos, el cuál irá actualizándose en conjunto con la misma.

    Panel de selección de Data Assets

Parte 2: Data refinery flow.

  1. El siguiente paso es crear un flow en Data Refinery, mediante el cual limpiaremos nuestro dataset. Para ello, haremos click en los tres puntitos a la derecha del Data Asset que hayamos creado y seleccionaremos «Refine».

    Panel de selección de Data Assets, opción refinar

  2. Ingresaremos así a Data Refinery, desde esta interfaz podremos realizar múltiples transformaciones a nuestro dataset. En este caso, eliminaremos las columnas que nos interesan y filtraremos los países según posean una esperanza de vida mayor a 70 años.

    Para eliminar una columna basta con hacer click en los tres puntos al lado del nombre de la misma y seleccionar «Remove».

    Tabla de operaciones

    Para realizar el filtrado, tendremos que seleccionar «Operations» y elegir «Filter». Luego, completaremos el panel que se nos despliega con la información correspondiente. Debemos indicarle que columna queremos filtrar, con qué criterio y respecto de que valor haremos la comparación.

    Panel de configuración de la tabla de operaciones

    Cabe aclarar, que del lado derecho de la pantalla podremos ir viendo los distintos pasos que vamos realizando sobre el dataset. En caso de que queramos eliminar alguno, podemos hacerlo haciendo click en el cesto de basura que aparecerá cuando apoyemos el cursor sobre alguno de ellos.

    Además de las dos transformaciones mencionadas, es posible realizar muchas más. Por ejemplo, eliminar valores duplicados, eliminar valores incompletos o completarlos, concatenar, realizar muestreos, etc. Podes realizar las que consideres necesarias para la limpieza de tu dataset.

  3. Una vez termines de agregar Steps, podes configurar tu dataset de salida. Para ello, en la tab de Información hace click en «Edit» y posteriormente selecciona el nombre del archivo a obtener, el tipo y su codificación. En este ejemplo, utilizaremos los valores por default.

    Panel de información de la tabla de operaciones

  4. Por último, es hora de guardar el flow. Para ello tendrás que hacer click en «Save and create job» como se indica en la imagen. Nos pedirá que le proporcionemos un nombre y luego un entorno.

    Guardar la tabla de operaciones

    Posteriormente, podrás configurar con que periodicidad se realizará el flow y se actualizarán los datos del dataset de salida. (No te olvides que este dataset es el que alimentará el dashboard de Cognos, por lo que de esto dependerá cada cuanto se actualizará el mismo).

    En este caso, la actualización se realizará a cada hora, pero dependerá de cada caso en particular, según como se actualicen los datos y la necesidad de reflejar estos cambios en el Dashboard.

    También es posible seleccionar la fecha de inicio, cuántos minutos pasados de la hora, que días no se deberá realizar, en este ejemplo seleccione sábados y domingos, y en qué día culminará este proceso.

    Una vez elegida esta configuración, le damos click a «Next».

    Panel de configuración de tareas

  5. Corrobora que todo este ok y le dale click a «Create». De esta manera tendrás un flujo de Refiney que se encargará de ir limpiando y actualizando los datos. Nota: es importante verificar que la opción de «overwrite» este tildada para que, a medida que se vayan obteniendo los dataset de salidas se vayan sobre-escribiendo y siempre haya un único dataset.

Parte 3: Cognos Dashboard:

  1. Para agregar el Dashboard deberás hacerlo desde «Add to project» > «Dashboard» /»Panel de Control». Luego, le tendrás que designarle un nombre y asociarle un servicio de Cognos Embeded Dashboard. En caso de no poseer uno, deberás instanciarlo como hicimos previamente con Watson Studio y Object Storage.

  2. El segundo paso es elegir el template que más útil sea, en este caso voy a elegir el «blanco, pero podés elegir el que más se adapte a la información que quieras mostrar.

  3. Una vez dentro del dashboard, vas a poder seleccionar la fuente de datos. Para ello hace click en el primer botón de la izquierda para desplegar el menú de fuentes; luego, selecciona el «+» azul.

    Panel de selección de fuente

  4. Posteriormente, elegí «Data Assets» y luego el csv que se obtiene como resultado del Refinery Flow.

    Cabe aclarar que es posible conectar el Dashboard directamente a la base de datos, pero de esta manera, no tendremos la limpieza y transformaciones de los datos realizada en Data Refinery.

  5. Una vez cargada la data ya podemos comenzar a crear nuestros gráficos.

    Hay 2 maneras posibles para hacerlo:

    Método 1:
    Seleccionar desde la pestaña de data las columnas que se quieren visualizar en el gráfico. Cognos automáticamente creará un gráfico que convine las mismas; si este último no muestra la información de la manera deseada, es posible cambiarlo haciendo click en la esquina superior izquierda del lienzo dónde se podrán ver todos los tipos de gráficos disponibles y seleccionar aquel que más se adapte a nuestra información.

    Dashboard de visualización de la tabla

    Método 2:
    Inversamente, es posible partir de la selección del gráfico y luego agregar las columnas que alimentaran el mismo. Para ello, se deberá hacer click en el menú desplegable de la parte izquierda (el segundo icono) y elegir el tipo de gráfico a representar.

    Panel de elementos a incluir en la visualización

    Habiendo elegido el gráfico, del lado derecho de la pantalla se desplegará la sección de «Fields» donde habrá que indicar qué columnas formaran parte del mismo.

    Para ello, deberás deslizar las columnas, que estarán disponibles automáticamente del lado izquierdo de la pantalla, hasta el campo donde querramos representarla.

    Panel de opciones para visualizar

    Una aclaración importante es que podremos volver a la pestaña de fields siempre que sea necesario, no importa el método con el que hayamos creado el gráfico, y de esta manera se podrá ir modificándolo y probando distintas formas de representar la información.

    Cada gráfico tiene sus particularidades y es posible que un tipo de gráfico posea más campos que en otros, según las características del mismo.

    Por otro lado, el panel de «Properties» nos permite otorgar títulos, cambiar las paletas de colores, los ejes y muchas cosas más.

    Finalmente, de esta manera hemos obtenido dashboard que irá cambiando junto con nuestra base datos, de esta manera podremos visualizar la información limpia y obtener insights sobre la data sin necesidad de actualizar la misma manualmente.