No me cabe ninguna duda del profundo, duradero y diversificado impacto que va a tener la IA, lo que me obliga (y agradezco) a seguir este apasionante viaje del que saldrá otro sociedad-mercado-cultura
Lo que si tengo dudas razonables es del modelo económico, que hasta el momento, sustenta a las empresas de IA. Hay demasiados puntos de fuga en lo que muchas veces parece un modelo de subvención cruzada (te compro chips y tu inviertes en mi empresa) , un nuevo player en el mercado publicitario o un ensayo previo a la espera de lanzar un producto IA que nos convenza de reemplazar todos o parte de los dispositivos que poseemos
Hace un año la china Deepseek lanzo un modelo LLM (R1) que cuestionó esto precisamente: si la carrera hacia más capacidad de computación, más data centers, más inversión (+Capex !!) era el mejor camino para popularizar la IA como la commodity universal del conocimiento
En esencia y simplificando bastante: Deepseek aparentemente logró acercarse mucho a los modelos de OpenAI, pero con un coste que no superaba los 294.000 US$, usando los chips H-800 que US permite vender a China, una cantidad que debe ser lo que se gasta una de estas empresas en catering
Semilovidado ya este más que significativo contratiempo y con las previsiones de inversión en niveles de ficción sin ciencia, ahora nos enteramos que OpenAI presentó ayer una queja-memorándum al Comite que supervisa las (dificiles) relaciones entre los US y el Partido Comunista chino, señalado que Deepseek se está aprovechando de los modelos que ellos desarrollan
Aparentemente Deepseek estaría utilizando un conocido proceso en el desarrollo de modelos LLM llamado destilación (distillation) que permite crear modelos más pequeños pero que sirven para tareas nicho (como traducir documentos)
La técnica es relativamente sencilla, a partir de un modelo llamado Profesor se trasfiere su conocimiento a otro más pequeño llamado estudiante, de modo que este último ofrece resultados comparables al primero, pero claro a un coste mucho menor
¿El problema? de donde sacas el Teacher, que es la queja de OpenAI, o sea, que según ellos Deepseek está utilizando sus modelos sin permiso ninguno para entrenar a su modelo estudiante, lo que es una forma descarada de plagio
Hablar de plagio en un desarrollador de LLM parece una broma, porque todo lo que se ha podido usar como datos de entrenamiento se ha usado hasta que alguien ha puesto una demanda. Lo que no niega la denuncia que hace OpenAI, pero también nos hace pensar si con modelos más pequeños destilados no se podría hacer el 80% de las tareas que se hacen actualmente con la IA, lo que nuevamente cuestiona la rueda especulativa

No comments:
Post a Comment