A la hora de evaluar con cierta seriedad el nivel de rendimiento de los LLM tenemos dos vias de divergente fiabilidad:
una, leer artículos más o menos divulgativos o incluso informes producidos por las propias empresas que desarrollan los modelos y que lógicamente los usan más como herramienta de marketing que como un análisis neutral de su verdadera precisión
la segunda es recurrir a los benchmark o comparativas de rendimiento como MMLU , que es la que generalmente vemos más citada cuando aparece una versión nueva de un modelo LLM, y que es bastante atractiva (clickbait) cuando se quiere impresionar sobre lo lejos que han llegado los bots que procesan lenguaje
el problema con estos benchmark es que la mayoría de ellos están ya cerca de la saturación, es decir que las mediciones que ofrecen sobre los modelos más conocidos, como GPT o Claude se acercan a rendimientos del 90%, lo que no deja demasiado espacio para una mejora o si lo prefieres nos ofrecen la impresión de que la IA sabelotodo (aka AGI) está a unos meses de distancia
Para poner las cosas en un su lugar o añadir algo de claridad, el CAIS, una organización no lucrativa de San Francisco y Scale una empresa que ofrece datos etiquetados digamos de calidad para entrenar modelos de IA han desarrollado un nuevo benchmark llamado pomposamente El ultimo examen de la humabidad (LHE en inglés) para evaluar la precisión real ante preguntas complejas
Los resultados de este test LHE dejan a los LLM en niveles cercanos al 10% de precisión a la hora de responder a test de 3000 preguntas de un centenar de temáticas, lo que nos aleja bastante del optimismo divulgado sobre estos modelos de apenas 2 años de antigüedad
Los propios análisis del LHE no obstante advierten que seria plausible que los LLM alcanzaran un 50% de precisión al final en este mismo año, basandose en datos sobre su progresión, con un importante matiz añadido:
Aunque un LLM alcanzara el 100% de precisión en el LHE eso no significaría que la AI ha alcanzado la Inteligencia General ni que no se necesiten otras mediciones adicionales de rendimiento ...
No comments:
Post a Comment