Enmascaramiento de datos no estructurados con Optim Data Privacy for Unstructured Data

Introducción

Optim Data Privacy for Unstructured Data (DPU) nos permite detectar y modificar datos confidenciales en archivos no estructurados como PDF, imágenes, XML, CSV, entre otros, ayudando a proteger a la organización a mantener y cumplir con los requisitos del GDPR y las regulaciones de privacidad. La solución puede procesar y realizar el enmascaramiento de los datos en un solo archivo o realizar un procesamiento por lotes almacenado en una carpeta.

Objetivos de aprendizaje

En este tutorial, aprenderá a:

  • Cargue datos en la plataforma IBM Optim DPU
  • Transformar datos no estructurados como Imágenes
  • Visualizar los resultados y el enmascaramiento

Prerequisitos

  • Microsoft Windows Server 2012 o nuevo
  • Espacio de memoria física 8GB
  • Optim Data Privacy for Unstructured Data version 2.8.0.2

Tiempo Estimado

Completar este tutorial debería llevar unos 30 minutos.

Sobre los datos

Aprenda a comenzar con la herramienta de Optim Data Privacy for Unstructured Data y se trabajará con archivos de datos no estructurados para realizar el enmascaramiento de imágenes.

Módulos de Optim DPU

Los módulos son ejecutables en formato XML que procesan los diferentes tipos de archivos con los cuales nos permite procesar y realizar el enmascaramiento, la herramienta modificar los parámetros dentro de cada módulo al momento de iniciar el enmascaramiento. Los módulos que vienen por defecto son:

UMASKFF.exe – Procesa archivos planos como CSV, XML, HTML.

UMASKIMG.exe – Modifica imágenes usando OCR para localizar regiones

UMASKXY.exe – Modificación de imágenes utilizando valores X/Y para localizar regiones

UMASKPDF.exe – Ejecutable de alta velocidad para procesar documentos PDF

Pasos

1. Reglas de enmascaramiento

Las reglas son archivos de texto en donde se colocarán las instrucciones sobre como enmascarar los valores en un documento.
En el tab de Rules se listará todas las reglas creadas, así como permite crear y editar y eliminar los archivos de reglas.
Screenshot del panel principal de Optim Data

– Crear una regla de enmascaramiento.

DPU aprovecha las expresiones regulares para encontrar y localizar elementos de datos confidenciales para el enmascaramiento. Una expresión regular o REGEX es una secuencia de caracteres que define un patrón de búsqueda. Las reglas para el enmascaramiento de imágenes se basan en coordenadas X – Y.
Seleccionamos el botón New y automáticamente se abrirá un bloc de notas, en donde se colocará las siguientes reglas y guardamos.

    DrawFillBox|30,48|500,80|0,224,224,224 
    WriteText|30,50|ARIAL|20|1|0,0,0,0|PETER WESTRUP              
    WriteText|30,70|ARIAL|20|1|0,0,0,0|3978 SMITH RD SAN JOSE. CA 95117 
    DrawFillBox|160,370|500,30|0,224,224,224 
    WriteText|160,370|OCR A EXTENDED|26|1|0,0,0,0|:-000000000 00000000 :0101-:

La regla de enmascaramiento nos indica:

  • El valor DrawFillBox nos dibujara un cuadro en donde le indicamos los siguientes parámetros: DrawFillbox |X coord, Y coord| ancho, alto | color de relleno

  • El valor WriteText escribirá encima del cuadro dibujado con el valor DrawFillBox, este tendrá los siguientes parámetros: WriteText |Xcoord, Ycoord|FontName|FontSize|FontStyle|color texto|TEXT

Para poder ejecutar el enmascaramiento de los datos no estructurados con el nuevo archivo de reglas, se debe realizar un click en el botón Set Selected y se visualizara el cambio en la parte superior derecha con el nombre de nuestro archivo de regla Screenshot del panel de reglar de Optim Data

2. Cargar los archivos

En el tab de Build and Execute nos pedirá seleccionar si queremos realizar un enmascaramiento de un solo archivo o de un Folder.

Se seleccionará el botón de Single File para ingresar la ruta del archivo no estructurado (imagen)

Ruta: C:\IBM\InfoSphere\DPU\Samples

Nombre de archivo: BANK CHECK.jpg Nombre de archivo enmascarado: UM_BANK CHECK.jpg Screenshot del panel de ejecución de Optim Data

3. Módulos de Optim DPU

  • Selección de modulo
    Para poder ejecutar el enmascaramiento se debe seleccionar el módulo de Optim DPU previamente mencionados. Para este tutorial se seleccionará UMASKIMGXY.exe Screenshot del panel de selección del módulo
  • Visualización de modulo

Para poder visualizar los nuevos parámetros que se han actualizado para la realización del enmascaramiento seleccionamos en el botón Open XML. Se abrirá el XML con los parámetros del módulo UMASKIMGXY.exe Screenshot del código desplegado

4. Ejecución de enmascaramiento

Para iniciar el proceso de enmascaramiento de la imagen nos aseguramos de que el módulo y las reglas estén seleccionadas adecuadamente. Screenshot del panel con el módulo seleccionado correctamente

Adicional vamos a desmarcar la casilla Generate script only y seleccionamos el botón Set and Run.
Se abrirá automáticamente una ventana de comandos con el script necesario para correr el enmascaramiento, luego de unos segundos se cerrará automáticamente. Screenshot de la consola de Windows

5. Visualización de enmascaramiento

Abrimos la carpeta en donde se encontraba la imagen inicial y seleccionamos la imagen BANK CHECK.jpg Un cheque bancario con los datos importantes resaltados Ahora luego del enmascaramiento con la herramienta Optim Data Privacy for Unstructured Data (DPU) visualizamos en la carpeta el archivo UM_BANK CHECK.jpg El cheque bancario luego de haber sido procesado

Conclusión

Hemos visto algunas de las capacidades de la herramienta de Optim Data Privacy for Unstructured Data (DPU). Vimos cómo podemos enmascarar datos de acuerdo con sus coordenadas de una imagen, como el nombre de la persona del cheque, la dirección y el código del cheque realizado. Adicionalmente vimos que la herramienta brinda distintos módulos para realizar el enmascaramiento en distintos archivos no estructurados.