Llevaba unos días en esto de las vacaciones de Navidad sin leer (casi) nada y alejado de mis pantallas, cuando sentí algo parecido a un síndrome de abstinencia que me llevó de nuevo a mis fuentes de información, esas que en me ayudan a separar el grano de la paja en este micromundo en expansión que es la tecnología
La noticia de que Meta (la ex-facebook) ha comprado discretamente (¿hay algo discreto en ese sector?) AI.Reverie una pequeña empresa neoyorquina de generación de datos sintéticos me llevó a estudiar que son los datos sintéticos y por que son tan importantes
Hay mucho ruido vacío entorno al concepto de los datos (bla bla) ya que realmente los datos individuales NO son el nuevo el nuevo petróleo ni nada parecido, más bien granos de arena que solo adquieren valor cuando juntamos millones de ellos
Precisamente por eso la generación de datos sintéticos o datos artificiales generados por algoritmos y por tanto NO extraídos del mundo real es ahora tan importante para empresas como Meta que han apostado a medio plazo por entornos recreados como el Metaverso
Todos los sistemas de Inteligencia Artificial necesitan enormes cantidades de datos para ser entrenados y mejorar sus resultados hasta niveles que igualen o superen la percepción humana, si sumamos a esto la nueva susceptibilidad entorno al uso de datos ya sea de personas o de procesos y añadimos el mayor coste de los datos reales frente a los artificiales (por ejemplo, una imagen identificada puede costar 6 dólares y su equivalente sintética 6 centavos) entonces entenderemos por que en un par de años el uso de estos datos sintéticos será mayor que el de datos reales
El concepto de dato sintético lo creó y definió hace 30 años Donald B. Rubin, un profesor de estadística de Harvard en 1993 cuando colaboraba con el gobierno norteamericano para mejorar el censo de población que sistemáticamente subestimaba el número de personas pobres y que mediante simulación permitió generar datos estadísticamente validos pero que NO se reflejaban
Por eso, Meta (la ex-Facebook) NO es pionera en el uso de datos sintéticos ya que hay decenas de empresas de sectores tan dispares como los hospitales o la automoción que los usan hace años, por ejemplo la alemana BMW (que puede llegar a ofrecer hasta 100 opciones diferentes en cada coche) obtiene datos sintéticos de su factoría simulada (digital twin factory) para mejorar los procesos de producción
De hecho existe un nicho creciente de empresas que provee de datos sintéticos a empresas y organismos como la citada AI.Reverie que con apenas 4 años de existencia y una veintena de empleados consiguió un contrato de 950 millones con la US Air Force para crear un sistema mejorado de gestión de escenarios de guerra antes de ser comprada por Meta
Lo paradójico del dato sintético es que al ser capaz de producir múltiples variaciones de un mismo dato (por ejemplo una imagen o el desarrollo de una enfermedad) es más útil para alimentar los sistemas de IA que los datos que hasta ahora llamamos reales....
PS: Tengo la impresión que en breve nuestros datos personales no van a valer nada y que las leyes europeas como la GDPR se van a quedar como puertas en medio del campo
No comments:
Post a Comment