Friday, January 24, 2025

Espacio por recorrer y estado real rendimiento en LLM´s: último examen de la humanidad


A la hora de evaluar con cierta seriedad el nivel de rendimiento de los LLM tenemos dos vias de divergente fiabilidad: 

una, leer artículos más o menos divulgativos o incluso informes producidos por las propias empresas que  desarrollan los modelos y que lógicamente los usan más como herramienta de marketing que como un análisis neutral de su verdadera precisión 

la segunda es recurrir a los benchmark o comparativas de rendimiento como MMLU , que es la que generalmente vemos más citada cuando aparece una versión nueva de un modelo LLM, y que es bastante atractiva (clickbait) cuando se quiere impresionar sobre lo lejos que han llegado los bots que procesan lenguaje 

el problema con estos benchmark es que la mayoría  de ellos están ya cerca de la saturación, es decir que las mediciones que ofrecen sobre los modelos más conocidos, como GPT o Claude se acercan a rendimientos del 90%, lo que no deja demasiado espacio para una mejora o si lo prefieres nos ofrecen la impresión de que la IA sabelotodo (aka AGI) está a unos meses de distancia

Para poner las cosas en un su lugar o añadir algo de claridad, el CAIS, una organización no lucrativa de San Francisco y Scale una empresa que ofrece datos etiquetados digamos de calidad para entrenar modelos de IA han desarrollado un nuevo  benchmark llamado pomposamente El ultimo examen de la humabidad (LHE en inglés) para evaluar la precisión real ante preguntas complejas 

Los resultados de este test LHE dejan a los LLM en niveles cercanos al 10% de precisión a la hora de responder a test de 3000 preguntas de un centenar de temáticas, lo que nos aleja bastante del optimismo divulgado sobre estos modelos de apenas 2 años de antigüedad 

Los propios análisis del LHE no obstante advierten que seria plausible que los LLM alcanzaran un 50% de precisión al final en este mismo año, basandose en datos sobre su progresión, con un importante matiz añadido:

Aunque un LLM alcanzara el 100% de precisión en el LHE eso no significaría que la AI ha alcanzado la Inteligencia General ni que no se necesiten otras mediciones adicionales de rendimiento  ...

No comments: