Crea, ejecuta y gestiona aplicaciones con Red Hat OpenShift en IBM Cloud. | 22 al 24 de Junio Inscríbete ya

Desarrollar soluciones sólidas basadas en machine learning

En 2013, IBM® reconoció los datos como el siguiente recurso natural más importante. Poco después de eso, la CEO de IBM, Ginni Rometty, señaló que las empresas que toman decisiones de miles de millones de dólares basadas en instintos en lugar de obtener insights del modelo predictivo de datos se están preparando esencialmente para el fracaso.

‘¿Qué es Machine Learning?’ es una pregunta que se presenta a menudo. Ahora más que nunca, las organizaciones están viendo que la integración de soluciones basadas en machine learning puede ayudarlas a estar un paso más adelante. Un informe de Gartner publicado en 2017 predijo que las tecnologías de inteligencia artificial estarán en casi todos los nuevos productos de software para 2020. Sin embargo, aunque comprenden la importancia de adoptar soluciones basadas en machine learning, las organizaciones están luchando para dar este salto. Volvamos a 2019 cuando Gartner informa que solo el 37 % de las organizaciones se han adaptado a la inteligencia artificial de alguna forma.

Si bien cada organización está destinada a tener sus propios contratiempos, se descubrió que la mayoría de estos problemas son comunes en todos los ámbitos. En este artículo, analizo los problemas más graves que enfrentan las organizaciones y los desarrolladores en su experiencia con la inteligencia artificial y sugiero algunas formas de mitigarlos.

Manejo de datos no estructurados

Los datos son la espina dorsal para desarrollar un modelo de machine learning con alta precisión. Pero eso implica desafíos propios. A menudo, verás que las aplicaciones heredadas nunca han tenido el requisito de almacenar datos históricos extensos. Esto conduce a menos datos o a datos menos representados. Además, los datos que están disponibles para entrenar y probar el modelo se almacenan en múltiples fuentes. La recopilación de estos datos de estas fuentes puede resultar complicada. Para abordar estos problemas, se aplican varias herramientas y técnicas de recopilación de datos durante la fase de preprocesamiento de datos.

Los datos disponibles se representan con mayor frecuencia en formatos no estructurados como emails y notas. Estos datos deben etiquetarse de manera uniforme para que los algoritmos de machine learning los reconozcan durante el entrenamiento del modelo. Una vez que estos conjuntos de datos hayan sido etiquetados, se pueden aplicar varios algoritmos de machine learning supervisados a los conjuntos de datos. Sin embargo, también hay algunas técnicas no supervisadas como clustering que se pueden aplicar a conjuntos de datos de grupo que no están etiquetados.

¿Eres nuevo en machine learning? Entonces, aquí tienes una introducción para comprender los fundamentos.

La privacidad y seguridad de los datos son otros dos factores restrictivos que deben abordarse cuando se trata de datos sensibles o personales. Sin embargo, existen herramientas de gobernanza de datos disponibles que identifican automáticamente estos campos sensibles y pueden proporcionar muchas opciones para enmascararlos. Aquí una descripción general sobre cómo controlar tus datos mediante Watson Knowledge Catalog.

Adquirir las habilidades

Dentro del ámbito de la inteligencia artificial, varias personas son necesarias para desarrollar y gestionar un ciclo de vida de la inteligencia artificial. Administrador de datos, ingeniero de datos, analista de datos y científico de datos son solo algunos. Las organizaciones tienden a generalizar estas personas, lo que a menudo puede conducir a la falta de un equipo completo que es esencial para el éxito.

El desarrollo de un modelo predictivo requiere una gran cantidad de conocimiento de varios algoritmos complejos de machine learning. Python y R son algunos de los lenguajes conocidos que amplían las sólidas bibliotecas que admiten el desarrollo de soluciones basadas en machine learning. A pesar de la gran demanda de especialistas en machine learning en todo el mundo, no hay suficiente disponibilidad de personas con las habilidades necesarias.

Aprende cómo desarrollar y probar tu primer modelo de machine learning con Python y scikit-learn.

Simplificar el proceso para ahorrar tiempo

El desarrollo de un modelo predictivo requiere mucho tiempo. Un ciclo de vida de desarrollo de modelos típico implica el proceso de recopilar, preparar, analizar e infundir insights en los datos de forma iterativa hasta que se logre la eficiencia deseada del proceso. Tener recursos limitados no ayuda en esta situación.

La automatización de estas tareas de desarrollo de modelos ayudará a los desarrolladores a simplificar la gestión del ciclo de vida de su inteligencia artificial. Las herramientas de Automated machine learning (AutoML) presentan una forma automatizada de preparar datos, aplicar algoritmos de machine learning y crear pipelines de modelos que se adapten mejor al conjunto de datos y al caso de uso de un desarrollador. Esto permite a los desarrolladores centrarse en aspectos específicos del proceso. Las herramientas de AutoML como AutoAI permiten a especialistas y a no especialistas generar fácilmente múltiples pipelines de modelos. La serie Simplifica el ciclo de vida de tu inteligencia artificial con AutoAI es una inmersión profunda en AutoAI y explica cómo se pueden encontrar y desplegar modelos de alto rendimiento en minutos usando tecnologías basadas en AutoML.

Escala a medida que tu proyecto se expande

Las organizaciones suelen comenzar experimentando en un proyecto piloto antes de tomar decisiones sobre el cambio a soluciones basadas en inteligencia artificial. Después de obtener resultados convincentes durante esta fase piloto, comienzan el proceso de creación de una solución escalable. Una de las mayores dificultades que enfrentan las organizaciones durante esta transición es la incapacidad de prever las necesidades de recursos para una solución escalable. Un conjunto de datos de muestra y procesadores menos eficientes, como las CPU, son suficientes para desarrollar el proyecto piloto. Pero, para poner estos proyectos en producción, necesitan GPU, lagos de almacenamiento de datos, soluciones basadas en la nube y otros requisitos de infraestructura que puedan aumentar exponencialmente las estimaciones de costos.

Para mitigar algunos de los problemas relacionados con la infraestructura, IBM Watson™ Studio ofrece una solución basada en la nube que, en colaboración, permite a los desarrolladores realizar tareas completas, como preparar datos y desarrollar modelos. Watson Studio ofrece varios servicios como AutoAI y SPSS Modeler para desarrollar modelos. La ruta de aprendizaje de Introducción a Watson Studio explora cómo se pueden manejar los distintos pasos implicados en el desarrollo de una solución de machine learning utilizando esta solución.

Infundir confianza y fiabilidad

Hasta ahora, los desafíos que he discutido fueron principalmente dificultades técnicas que enfrentan los desarrolladores al tratar de implementar soluciones basadas en machine learning. Pero el aspecto más importante para adaptarse a las nuevas tecnologías es la capacidad de desarrollar la confianza entre los usuarios. Si bien confiamos en algoritmos de machine learning para tomar decisiones críticas, también es importante garantizar que las decisiones que se toman sean justas y libres de cualquier tipo de sesgo.

Una vez entrenado e implementado el modelo de machine learning, las predicciones que hace este modelo se comportan como una caja negra. Si existieran formas de realizar ingeniería inversa y encontrar explicaciones de por qué se hizo una determinada previsión, los modelos serían más confiables. Si se descubre que un modelo no funciona correctamente durante este proceso, se realizan ajustes en los datos subyacentes o se ajustan los algoritmos para improvisar el modelo. Además, pocos sectores exigen la inclusión de las razones detrás de cada previsión que se hizo, y en situaciones como estas, la explicabilidad del modelo no es una opción. Watson OpenScale ayuda a rastrear estos resultados para los modelos de machine learning que se crean y ejecutan en cualquier lugar. Aprende a gestionar la inteligencia artificial de producción con confianza y seguridad.

Dar el siguiente paso

En este artículo, he cubierto muchos aspectos, desde el creciente interés de las organizaciones en adoptar soluciones basadas en inteligencia artificial en su dominio hasta ideas sobre disponibilidad de datos, conjuntos de habilidades, recursos, soluciones que consumen mucho tiempo y problemas relacionados con la infraestructura como los principales impedimentos para la adopción. Con eso, sugiero Watson Knowledge Catalog, AutoAI, Watson Studio y Watson OpenScale como posibles formas de mitigar algunos de los problemas.

Como siguiente paso, sugiero que investigues algunas de estas áreas con más profundidad, para obtener experiencia práctica con las tecnologías correspondientes y ver cómo hemos avanzado en el empaquetado y simplificación de la adopción de soluciones de machine learning en el nivel empresarial. Además, IBM Cloud Pak for Data actúa como una solución integral y propia de la nube para utilizar cada una de estas ofertas independientes como un paquete. Empieza a explorar IBM Cloud Pak for Data, donde analizamos los estudios de casos de machine learning en IBM Cloud Pak for Data, una plataforma totalmente integrada de datos e inteligencia artificial.