Cómo sacarle el jugo a los datos

Un sistema de inteligencia automática y capaz de aprender en base a la experiencia suena como una fantasía productiva, y lo es, porque existe un alto potencial de generar beneficios a corto y largo plazo. Pero, para poder llevar esta fantasía a la realidad, el primer paso que hay que tomar en cualquier industria es dar una mirada profunda a los datos que ya existen.

No todos los datos son creados por igual, a veces las empresas se demoran en instaurar un ERP (Enterprise Resource Planning, que significa “sistema de planificación de recursos empresariales”) Incluso una vez que estén instaurados estos sistemas de manejo de información centralizada, resulta bastante difícil acceder a los datos sin un equipo intermediario deTI. Esto resulta en que la cantidad de datos históricos puede ser menor a lo que se necesita o bien que incluso existiendo una gran acumulación de datos, requiera invertir tiempo y esfuerzo para extraerlos.

¿Pero realmente se necesitan tantos datos?

Existe una corriente de pensamiento en el mundo del datascience llamada "Centrada en el modelo" que se basa en aprovechar cantidades limitadas de datos para crear modelos que se ajusten a las restricciones. Esto es posible gracias al gran esfuerzo de desarrollo de nuevos algoritmos hechos por profesionales altamente calificados. Sin embargo, esta capacidad de investigación generalmente requiere ciclos más largos de desarrollo puesto a que se deben probar y modificar varios modelos antes de encontrar uno que se adapte al contexto real los datos disponibles.


En cambio, la corriente "Centrada en los datos" cada vez va tomando mayor fuerza y tiene que ver con la capacidad de robustecer los datos.

Veamos un ejemplo:

En un proceso de análisis de calidad de un producto, existen aquellos que cumplen con los requisitos y aquellos que no. Un cliente quiere utilizar un sistema de inteligencia artificial de visión computacional para realizar esta clasificación de forma automatizada. Lo primero que se necesita es un portafolio de imágenes para analizar, si es que las fotos difieren mucho entre sí, no importa qué tan grande termine siendo tu base de datos con fotos, probablemente solamente una pequeña fracción será posible de analizar.
Aquí es donde existe una oportunidad de robustecer los datos. Es necesario que las fotos sean homogéneas, es decir,  lo más parecidas posibles (misma luminosidad, resolución, distancia del objeto, etc.) y para esto se pueden tomar distintos caminos, ya sea entregando un protocolo de realidad aumentada o una cabina de fotos portátil. La solución específica dependerá ya del contexto del cliente.


En el ejemplo anterior, si se hubiese trabajado con imágenes heterogéneas, quizás se podría de igual manera un modelo que sea capaz de clasificarlas automáticamente, sin embargo, este desarrollo incurre en altos costos de tiempo dedicado al preprocesamiento y transformación de las imágenes, lo cual no hubiese sido necesario al diseñar un sistema de recopilación de imágenes homogéneas que no necesitan tanto procesamiento, incluso obteniendo resultados de desarrollo mucho antes.


Entonces cuál debería ser el enfoque: ¿El modelo o la calidad del dato?

Depende, cada usuario tiene su propia realidad y limitantes que no son tan fáciles de generalizar en una sola regla. Sin embargo, es importante conocer estas dos formas de ver los datos y tomar en consideración las diferencias de resultados que se pueden obtener en ambas. El aprendizaje para alguien interesado en desarrollar proyectos de datascience es que:


Si no se cuentan con los datos necesarios, siempre se puede armar la estructura para recopilarlos, y en el caso de que los tenga, es importante hacer un análisis de las restricciones que implican para los tiempos y resultados esperados.

En Perceptron, contamos con la expertise necesaria para crear, mejorar y adaptar modelos de alta complejidad para generar soluciones de fácil implementación. Pero también contamos con la capacidad de detectar y proponer mejoras en el sistema de recopilación. Creemos que el valor está en satisfacer las necesidades del cliente, y a la vez tener claridad en los tiempos de desarrollo e inversión que esto significa.

te podria interesar

Publicaciones relacionadas