Digital Developer Conference: Hybrid Cloud 2021 | Capacitaciones gratuitas por expertos y partners | 21 de Setiembre ¡Inscríbete Ahora!

Buscar, preparar y comprender datos con Watson Knowledge Catalog

Este tutorial muestra cómo resolver los problemas de gobernanza de los datos empresariales utilizando IBM Watson® Knowledge Catalog en la plataforma IBM Cloud Pak® for Data. Explicaremos cómo utilizar la gobernanza, la calidad de los datos y la gestión activa de políticas para ayudarte a proteger y regular los datos confidenciales, rastrear el linaje de los datos y gestionar los lagos de datos. Este conocimiento te permite descubrir, conservar, categorizar y compartir rápidamente activos de datos, conjuntos de datos, modelos analíticos y sus relaciones con otros miembros de tu organización.

Objetivos de aprendizaje

En este tutorial, aprenderás a:

1.Configurar el catálogo y los datos

2.Añadir colaboradores y controlar el acceso

3.Añadir categorías

4.Añadir clases de datos

5.Añadir términos empresariales

6.Añadir reglas para políticas

Requisitos previos

Tiempo estimado

Completar este tutorial debería llevar aproximadamente 30-45 minutos.

Pasos

NOTA: El catálogo predeterminado es el catálogo de tu empresa. Se crea automáticamente después de instalar el servicio Watson Knowledge Catalog y es el único catálogo en el que se aplican herramientas avanzadas de conservación de datos. El catálogo predeterminado está regulado para que se hagan cumplir las reglas de protección de datos. La vista de activos de información muestra propiedades adicionales de los activos en el catálogo predeterminado para permitir la conservación. Todos los catálogos posteriores que se creen pueden estar regulados o no, no tienen una vista de activos de información y proporcionan herramientas básicas de conservación de datos.

Paso 1. Configurar el catálogo y los datos

Si aún no has iniciado IBM Watson Knowledge Catalog, tendrás que suministrarlo. Abre IBM Watson Knowledge Catalog haciendo clic en el ícono Services (Servicios) en la parte superior derecha de la página de inicio.

Dashboard principal de IBM Cloud Pak for Data

En la sección Data Governance (Gobernanza de datos), haz clic en el módulo Watson Knowledge Catalog.

Catálogo de servicios dentro de IBM Cloud Pak for Data

Sigue las instrucciones para desplegar IBM Watson Knowledge Catalog.

Abre Watson Knowledge Catalog

1.Haz clic en Open (Abrir) en la esquina superior derecha para iniciarlo.

Página descriptiva de Watson Knowledge Catalog

2.Ve al menú hamburguesa (☰) de la parte superior izquierda y selecciona Organize > All catalogs (Organizar > Todos los catálogos).

Página que contiene tus catálogos

3.En la página Your catalogs (Tus catálogos), haz clic en Create catalog (Crear catálogo) o en New Catalog (Nuevo catálogo).

Seleccionar el crear nuevos catálogos dentro del sitio de tus catálogos

4.Asigna un nombre a tu catálogo (TelcoDataCatalog, por ejemplo), así como una descripción opcional, marca Enforce data protection rules (Hacer cumplir reglas de protección de datos) y haz clic en Create (Crear).

Comienzo del proceso de creación del nuevo catálogo

5.Haz clic en OK (Aceptar) en la ventana emergente que se muestra al marcar el recuadro de selección de la pantalla anterior.

Confirmar el mensaje de creación del catálogo

Opción 1: Añadir activos de datos

1.Descarga el archivo Telco-Customer-Churn.csv. En la pestaña Browse Assets (Examinar activos), debajo de Now you can add assets (Ahora es posible añadir activos), haz clic en here (aquí) para añadir tus datos.

Agregar assets al nuevo catálogo

2.También es posible hacer clic en Add to catalog + (Agregar al catálogo +) en la parte superior derecha y elegir Local files (Archivos locales), por ejemplo.

Subir datos locales al catálogo

3.Navega hasta la ubicación en la que has descargado el archivo Telco-Customer-Churn.csv y haz doble clic o haz clic en Open (Abrir). Añade una descripción opcional y haz clic en Add (Añadir).

Confirmar la información de los datos locales a subir

NOTA: Permanece en el catálogo hasta que se complete la carga. Si abandonas el catálogo, se suprimirá el activo incompleto. El archivo Telco-Customer-Churn.csv recién añadido aparecerá en la pestaña Browse Assets (Examinar activos) de tu catálogo.

Dashboard de los datos dentro del catálogo

Opción 2: Añadir conexión

1.Es posible añadir una conexión a una base de datos remota (DB2 Warehouse en IBM Cloud, por ejemplo), seleccionando Add to catalog + > Connection (Agregar al catálogo + > Conexión).

Seleccionar el panel conexiones dentro del dashboard

2.Elige tu base de datos remota y haz clic en ella.

Seleccionar RemoteDB dentro del listado

3.Ingresa los detalles de la conexión y haz clic en Test (Probar). Cuando devuelva un mensaje de éxito, haz clic en Create (Crear).

Panel de prueba de la nueva conexión

La conexión ahora se muestra en el catálogo.

Confirmación de la nueva conexión creada

Opción 3: Añadir datos virtualizados

NOTA: Los datos virtualizados pueden ser añadidos al catálogo predeterminado por personas con acceso de administrador o editor a ese catálogo.

1.Ve al menú hamburguesa de la parte superior izquierda (☰) y selecciona Organize > All catalogs (Organizar > Todos los catálogos); luego haz clic en Add to Catalog + > Connected asset (Añadir al Catálogo + > Activo conectado).

Agregar datos conectados al proyecto

2.Haz clic en Source > Select source (Origen > Seleccionar origen). Navega en DV hasta el esquema, elige la tabla que deseas agregar y haz clic en Select (Seleccionar).

Panel de configuración de los nuevos datos conectados a agregar

Ahora, un usuario puede añadirla a un proyecto como cualquier otro activo de un catálogo.

Paso 2. Añadir colaboradores y controlar el acceso

1.En la pestaña Access Control (Control de acceso), es posible hacer clic en Add Collaborator (Agregar Colaborador) para dar a otros usuarios acceso al catálogo.

Agregar colaboradores al proyecto

2.Para buscar un usuario, haz clic en el nombre para seleccionarlo, elige un rol para el usuario (administrador, editor u observador) y haz clic en Add (Añadir).

Confirmar rol de los colaboradores

3.Para acceder a los datos del catálogo, haz clic en el nombre de los datos.

Panel de control de los assets del proyecto

4.Se abrirá una vista previa de los datos, con metadatos y las primeras filas.

Listado de los datos dentro del proyecto

5.Es posible hacer clic en la pestaña Review (Revisar) y calificar los datos, así como comentar sobre ellos, para proporcionar feedback a tus compañeros de equipo.

Panel de reseñas

Paso 3. Añadir categorías

La abstracción fundamental de IBM Watson Knowledge Catalog es la categoría. Una categoría es análoga a una carpeta. Para añadir una categoría a tus activos, ve al menú hamburguesa de la parte superior izquierda (☰) y elige Organize > Data and AI Governance > Categories (Organizar > Gobernanza de datos e IA > Categorías).

Seleccionar el panel de categorías dentro del Dashboard

Es posible importarlos en formato.csv (opción 1) o añadir categorías manualmente (opción 2).

Opción 1: Importar categorías

Descarga el archivo glossary-organize-categories.csv. Este archivo contiene los datos de las categorías que se importarán.

1.Haz clic en Import (Importar).

Importar categorías al proyecto

2.Haz clic en Add file (Añadir archivo) y navega hasta la ubicación donde descargaste el archivo glossary-organize-categories.csv. A continuación, selecciónalo y haz clic enNext (Siguiente).

Agregar archivo local al proyecto

3.En la opción Select merge (Seleccionar fusión), elige Replace all values (Reemplazar todos los valores) y haz clic en Import (Importar).

Confirmar la importación de datos

Cuando se haya completado, verás el mensaje “The import completed succesfully” (La importación se completó correctamente). Haz clic en Close (Cerrar).

Pantalla de confirmación de la importación de datos

De esta forma, es posible importar categorías, términos empresariales, clasificaciones, políticas, etc. para completar tus catálogos de gobernanza.

Opción 2: Añadir categoría manualmente

1.Haz clic en Create category (Crear categoría).

Seleccionar la creación de nuevas categorías

2.Asigna un nombre a la categoría, como por ejemplo Facturación y una descripción opcional; a continuación, haz clic en Save (Guardar).

Confirmar la nueva categoría

3.Ahora, si eliges Create category (Crear categoría) nuevamente en la pantalla de la categoría Facturación, es posible crear una subcategoría, como por ejemplo Cargos totales.

Seleccionar la carpeta de la nueva categoría

4.Para la categoría Facturación, es posible seleccionar un tipo, como por ejemplo Término empresarial.

Asignar un tipo a la categoría

5.También se pueden crear clasificaciones para los activos, como por ejemplo Información confidencial, Información identificable personalmente o Información personal confidencial, yendo al menú hamburguesa de la parte superior izquierda (☰) y eligiendo Organize > Data and AI Governance > Classifications (Organizar > Gobernanza de datos e IA > Clasificaciones).

Seleccionar el panel de clasificaciones

6.Haz clic en el menú desplegable New classification (Nueva clasificación) y selecciona Crear nueva clasificación (Create new classification). Luego, estas clasificaciones se pueden añadir a la categoría como un tipo.

Crear una nueva clasificación desde el panel de configuración

Paso 4. Añadir clases de datos

Cuando perfiles tus activos, se inferirá una clase de datos a partir de los contenidos siempre que sea posible. También es posible añadir tus propias clases de datos.

1.Para agregar una clase de datos a tus activos, ve al menú hamburguesa de la parte superior izquierda (☰), elige Organize > Data and AI Governance > Data class (Organizar > Gobernanza de datos e IA > Clase de datos) y, a continuación, haz clic en New data class > Create new data class (Nueva clase de datos > Crear nueva clase de datos).

Crear nuevas clases de datos

2.Asigna un nombre a tu nueva clase de datos, como por ejemplo alfanumérica, y una categoría principal o una descripción opcionales; a continuación, haz clic en Save as draft (Guardar como borrador).

Crear una nueva clase de datos, guardarla cómo borrador

3.Una vez creada la clase de datos, podemos añadir administradores para esta clase y asociar clasificaciones y términos empresariales. Cuando hayas finalizado, haz clic en Publish (Publicar).

Panel de control de la nueva clase de datos Confirmar la publicación de la nueva clase de datos

Ahora, agregaremos esa clase de datos a una columna de nuestro activo Telco-Customer-Churn.csv.

1.Vuelve al catálogo que creaste (las instrucciones sugirieron llamarlo TelcoDataCatalog) y ábrelo en la vista de columnas haciendo clic en el menú hamburguesa (☰); a continuación, ve a Organize > All catalogs > TelcoDataCatalog (Organizar > Todos los catálogos > TelcoDataCatalog).

2.En la pestaña Browse Assets (Examinar activos), haz clic en el conjunto de datos Telco-Customer-Churn.csv para obtener la vista previa de columnas/filas.

3.Desplázate hacia la derecha para llegar a la columna ID de cliente, haz clic en la flecha hacia abajo situada junto a Número de cliente y haz clic en View all (Ver todo).

Listado de los datos que encontramos en el proyecto

4.En la ventana que se abre, busca la clase de datos recién creada (alfanumérica), haz clic en ella cuando aparezca en la búsqueda y, a continuación, haz clic en Select (Seleccionar).

Seleccionar la clasificación de los nuevos datos

Paso 5. Añadir términos empresariales

Es posible utilizar los términos empresariales para estandarizar las definiciones de conceptos empresariales de modo que los datos se describan de una forma uniforme y fácil de entender en toda la empresa. Ya has visto cómo crear una categoría y convertirla en un término empresarial. También es posible crear el término empresarial como entidad propia.

1.En el menú hamburguesa de la parte superior izquierda (☰), elige Organize Data and AI Governance > Business terms (Organizar gobernanza de datos e IA > Términos empresariales).

Entrar al panel de Bussiness Terms

2.Haz clic en el menú desplegable New business term (Nuevo término empresarial) situado en la parte superior derecha y luego haz clic en el botón Create new business term (Crear nuevo término empresarial).

Crear un nuevo business term

3.Asigna un nombre al nuevo término empresarial, como por ejemplo Facturación, agrega una descripción opcional y haz clic en Save as draft (Guardar como borrador).

Configurar el nuevo business term

4.Aparecerá una ventana una vez que se haya creado el término. Se mostrará un amplio conjunto de opciones para crear términos relacionados y añadir otros metadatos. Haz clic en Publish (Publicar) para que este término esté disponible para los usuarios de la plataforma.

Panel de control del nuevo business term

5.Añade un comentario opcional y haz clic en Publish (Publicar) en la nueva ventana.

Confirmar la publicación del nuevo business term

6.Ahora vuelve a tu catálogo (las instrucciones sugirieron llamarlo TelcoDataCatalog) y ábrelo en la vista de columnas, yendo al menú hamburguesa (☰) y luego haciendo clic en Organize > All catalogs > TelcoDataCatalog (Organizar > Todos los catálogos > TelcoDataCatalog). En la pestaña Browse Assets (Examinar activos), haz clic en el conjunto de datos Telco-Customer-Churn.csv para obtener la vista previa de columnas/filas. Desplázate hacia la derecha para llegar a la columna TotalCharges (Cargos totales) y haz clic en el ícono Column information (Información de la columna) que parece un ojo.

Organizar los datos por Business Term

7.En la ventana que se abre, haz clic en el ícono edit (editar) que parece un lápiz, junto a Business terms (Términos empresariales).

Editar y asignar los business terms por columnas

8.Introduce Facturación (es decir, el nombre que proporcionaste para el término empresarial) en Business terms (Términos empresariales) y se buscará el término. Haz clic en el término Facturación que aparece y, a continuación, haz clic en Apply (Aplicar).

Confirmar los nuevos business terms asignados

9.Cierra esa ventana una vez que se haya aplicado el término.

10.Ahora, haz lo mismo para agregar el término empresarial Facturación a la columna MonthlyCharges (Cargos mensuales). Ahora se podrán buscar estos términos desde la plataforma. Por ejemplo, volviendo a TelcoDataCatalog de nivel principal, en la barra de búsqueda con el comentario “What assets are you searching for?” (¿Qué activos estás buscando?) introduce el término único de Facturación.

Ejemplo de business terms en acción

Aparecerá el conjunto de datos Telco-Customer-Churn.csv, ya que contiene columnas etiquetadas con el término empresarial Facturación.

Paso 6. Añadir reglas para políticas

Ahora podemos crear reglas para controlar cómo los usuarios pueden acceder a los datos. Crea un término empresarial denominado ID de cliente y asígnalo a la columna ID de cliente del conjunto de datos siguiendo las instrucciones anteriores. Consulta las instrucciones a continuación si necesitas más detalles, pero inténtalo primero por ti mismo y pasa a la sección Añadir una regla si no precisas un recordatorio.

Cómo crear una revisión de términos empresariales

1.En el menú hamburguesa de la parte superior izquierda (☰), elige Organize > Data and AI Governance > Business terms (Organizar > Gobernanza de datos e IA > Términos empresariales).

2.Haz clic en el menú desplegable New business term (Nuevo término empresarial) situado en la parte superior derecha y, a continuación, haz clic en el botón Create new business term (Crear nuevo término empresarial).

3.Asigna el nombre ID de cliente al nuevo término empresarial, agrega una descripción opcional y haz clic en Save as draft (Guardar como borrador). En la siguiente ventana, haz clic en Publish (Publicar). Proporciona un comentario opcional en la ventana emergente y haz clic en Publish (Publicar).

4.Ahora, vuelve a tu TelcoDataCatalog, ábrelo en la vista de columnas desde el menú hamburguesa (☰), Organize > All catalogs (Organizar > Todos los catálogos) y elige TelcoDataCatalog. En la pestaña Browse Assets (Examinar activos), haz clic en el conjunto de datos Telco-Customer-Churn.csv para obtener la vista previa de columnas/filas. Desplázate hacia la derecha para llegar a la columna ID de cliente y haz clic en el ícono Column information (Información de la columna) que parece un ojo.

5.En la ventana que se abre, haz clic en el ícono edit (editar) que parece un lápiz, junto a Términos empresariales.

6.Introduce ID de cliente en Términos empresariales y se buscará el término. Haz clic en el término ID de cliente que aparece y haz clic en Apply (Aplicar).

Añadir una regla

1.En el menú hamburguesa de la parte superior izquierda (☰), elige Organize > Data and AI Governance > Rules (Organizar > Gobernanza de datos e IA > Reglas).

Ir al panel de reglas

2.Haz clic en el menú desplegable New rule (Nueva regla) y selecciona Create new rule (Crear nueva regla).

Crear nuevas reglas

3.Elige Data protection rule (Regla de protección de datos) como el tipo de regla que deseas crear.

Seleccionar el tipo de regla

4.En Details (Detalles), proporciona a tu regla un nombre, un tipo, un acceso y una definición comercial.

5.En Rule builder Condition1 (Condición1 del creador de reglas), completa si el término empresarial contiene un ID de cliente y una acción; a continuación, enmascara los datos en las columnas que contengan caracteres alfanuméricos. Elige el módulo Substitute (Sustituto), que creará un hash no identificable. Esto oculta el ID de cliente real, pero permite que acciones como las combinaciones de bases de datos sigan funcionando. Haz clic en Create (Crear).

Configurar la nueva regla

Ahora, si volvemos a nuestro activo Telco-Customer-Churn.csv en el catálogo, en la columna ID de cliente, tendrá el mismo aspecto que antes, pero un usuario que no sea administrador verá el ícono del candado y que el ID de cliente ahora está sustituido por un valor hash.

Ejemplo de la nueva regla funcionando

Para añadir una regla para ocultar datos, ve a la pestaña Profile (Perfil) y desplázate hasta la columna TotalCharges (Cargos totales). Se puede observar que los datos se han inferido para clasificarlos como Quantity (Cantidad).

Confirmación de cambio en la visualización de los datos

Aquí es donde es posible cambiar la clasificación si la inferida no es la que deseabas.

1.Es posible crear una regla para ocultar la columna TotalCharges (Cargos totales).

Ejemplo de la columna ofuscar

2.Ahora, esa columna tendrá datos que se sustituyen por datos con formato similar.

Resultado final del ejemplo

Resumen

En este tutorial, has aprendido algunas de las eficientes herramientas disponibles para trabajar con datos en la plataforma IBM Cloud Pak for Data. Con IBM Watson Knowledge Catalog, los miembros del equipo pueden trabajar juntos en sus funciones individuales para incorporar los datos y la IA a la empresa.