¡Participa de la Maratón Behind the Code, la competencia de programación más desafiante! Inscríbete aqui

Crear un gráfico de conocimiento desde documentos

Nota: Este patrón forma parte de un patrón compuesto. Estos son patrones de código que pueden ser aplicaciones independientes o una continuación de otro patrón de código. Este patrón compuesto consiste en:

Resumen

En cualquier empresa, los documentos de Microsoft Word se utilizan comúnmente. Ellos contienen información en la forma de texto bruto, tablas e imágenes. Y todos los documentos contienen hechos importantes para esa empresa. Este patrón de código aborda el problema de extraer conocimiento de textos y tablas en documentos Word específicos del área. Creamos un gráfico de conocimiento en función del conocimiento extraído, lo que permite que ese conocimiento se pueda consultar. Esto le da lo mejor de los dos mundos: capacitación y un enfoque basado en reglas para extraer conocimiento de los documentos.

Descripción

Uno de los principales desafíos en la industria actual es cómo hacer que las máquinas entiendan los datos de documentos como las personas entienden el contexto y la intención del documento al leerlo. El primer paso hacia esta meta es convertir la información no estructurada (texto libre y textos en tablas) a un formato semiestructurado y luego procesarla más. Es ahí en donde los gráficos juegan un papel importante, al dar forma y estructura a la información no estructurada presente en los documentos. Este patrón de código analiza el problema de extraer conocimiento de textos y tablas en documentos Word específicos del área. Un gráfico de conocimiento específico del área se basa en el conocimiento extraído, lo que permite que ese conocimiento se pueda consultar. Es posible utilizar este patrón de código para moldear su análisis y utilizar los datos para realizar un procesamiento adicional y obtener mejores insights.

El patrón de código demuestra una forma de obtener insights de un documento que contiene texto bruto e información en tablas utilizando IBM Cloud, los servicios de IBM Watson, el paquete de Python Mammoth, Python NLTK e IBM Watson Studio.

Con este patrón de código, obtiene:

  • La capacidad de procesar tablas en archivos .docx junto con texto libre.
  • Una estrategia para combinar los resultados de un análisis en tiempo real de Watson NLU, junto con los resultados de las reglas definidas por el experto en la materia o dominio.

Flujo

flujo

  1. Los datos del texto no estructurado de los archivos .docx (tablas HTML y texto libre) que deben analizarse y correlacionarse se extraen de los documentos utilizando código Python personalizado.
  2. El texto se clasifica utilizando NLU y se etiqueta con el patrón de código Extender la clasificación de texto de Watson.
  3. El texto se correlaciona con otro texto utilizando el patrón de código Correlacionar documentos.
  4. Los resultados se filtran utilizando código Python.
  5. Se creó el gráfico de conocimiento.

Instrucciones

Encuentre las etapas detalladas de este patrón en LÉAME. Esos pasos le mostrarán cómo:

  1. Crear los servicios de IBM Cloud.
  2. Ejecutar utilizando una Jupyter Notebook en IBM Watson Studio.
  3. Analizar los resultados.