Tuesday, December 28, 2021

Datos sintéticos vs datos reales: mejores, más baratos y con menos líos legales

Llevaba unos días en esto de las vacaciones de Navidad sin leer (casi) nada y alejado de mis pantallas, cuando sentí algo parecido a un síndrome de abstinencia que me llevó de nuevo a mis fuentes de información, esas que en me ayudan a separar el grano de la paja en este micromundo en expansión que es la tecnología 

La noticia de que Meta (la ex-facebook) ha comprado discretamente (¿hay algo discreto en ese sector?) AI.Reverie una pequeña empresa neoyorquina de generación de datos sintéticos me llevó a estudiar que son los datos sintéticos y por que son tan importantes 

Hay mucho ruido vacío entorno al concepto de los datos (bla bla) ya que realmente los datos individuales NO son el nuevo el nuevo petróleo ni nada parecido, más bien granos de arena que solo adquieren valor cuando juntamos millones de ellos   

Precisamente por eso la generación de datos sintéticos o datos artificiales generados por algoritmos y por tanto NO extraídos del mundo real es ahora tan importante para empresas como Meta que han apostado a medio plazo por entornos recreados como el Metaverso 

Todos los sistemas de Inteligencia Artificial necesitan enormes cantidades de datos para ser entrenados y mejorar sus resultados hasta niveles que igualen o superen la percepción humana, si sumamos a esto la nueva susceptibilidad entorno al uso de datos ya sea de personas o de procesos y añadimos el mayor coste de los datos reales frente a los artificiales (por ejemplo, una imagen identificada puede costar 6 dólares y su equivalente sintética 6 centavos) entonces entenderemos por que en un par de años el uso de estos datos sintéticos será mayor que el de datos reales 

El concepto de dato sintético lo creó y definió hace 30 años Donald B. Rubin, un profesor de estadística de Harvard en 1993 cuando colaboraba con el gobierno norteamericano para mejorar el censo de población que sistemáticamente subestimaba el número de personas pobres y que mediante simulación permitió generar datos estadísticamente validos pero que NO se reflejaban  

Por eso, Meta (la ex-Facebook) NO es pionera en el uso de datos sintéticos ya que hay decenas de empresas de sectores tan dispares como los hospitales o la automoción que los usan hace años, por ejemplo la alemana BMW (que puede llegar a ofrecer hasta 100 opciones diferentes en cada coche) obtiene datos sintéticos de su factoría simulada (digital twin factory) para mejorar los procesos de producción 

De hecho existe un nicho creciente de empresas que provee de datos sintéticos a empresas y organismos como la citada AI.Reverie que con apenas 4 años de existencia y una veintena de empleados consiguió un contrato de 950 millones con la US Air Force para crear un sistema mejorado de gestión de escenarios de guerra antes de ser comprada por Meta 

Lo paradójico del dato sintético es que al ser capaz de producir múltiples variaciones de un mismo dato (por ejemplo una imagen o el desarrollo de una enfermedad) es más útil para alimentar los sistemas de IA que los datos que hasta ahora llamamos reales....

PS: Tengo la impresión que en breve nuestros datos personales no van a valer nada y que las leyes europeas como la GDPR se van a quedar como puertas en medio del campo      



No comments: