DeepSeek, el nuevo modelo chino de IA, ¿por qué ha tumbado a los gigantes de Silicon Valley?

Estados Unidos.- La revolución de los modelos de inteligencia artificial (IA) de la china DeepSeek se basa en un motivo clave: hacen lo mismo pero más barato. Su funcionamiento en general es igual de bueno que los líderes del mercado de Silicon Valley, pero son mucho menos costosos de crear y de usar.

OpenAI, Anthropic y Google, creadores de los modelos más célebres, y Nvidia, al cargo de los sofisticados chips que emplean esas compañías, han visto derrumbarse toda su aparente ventaja en apenas unos días. Hoy hay menos expertos que creen que entrenar y usar un modelo de IA requiera la potencia de un gigante tecnológico. La monumental caída en bolsa de Nvidia es la ilustración de esa creencia.

Los chatbots de la china DeepSeek funcionan igual que todos. El usuario se da de alta con un email y una contraseña en la página de la compañía y puede empezar a preguntarle lo que quiera. A veces tarda algo más de responder, no contesta siempre a preguntas políticas delicadas sobre Tiananmen o Taiwan y funciona bastante bien en español. Lo mejor, sin embargo, es que es gratis. El modelo de negocio de DeepSeek se basa en cobrar a usuarios que requieren un uso profesional.

R1 es el modelo más reciente de la compañía china, el que ha provocado el derrumbe del edificio de la IA occidental. Razona igual que la creación más avanzada de OpenAI, el o1. Pero en plenas fiestas navideñas, los chinos lanzaron su modelo V3, equivalente al más común ChatGPT-4, que ya incluía los avances técnicos que han generado el revuelo.

DeepSeek, un modelo con un costo menor de 6 millones de dólares

DeepSeek ha logrado que entrenar un modelo nuevo, que costaba más de 100 millones de dólares en el caso de ChatGPT-4, haya pasado a menos de 6 millones. Andrei Karpathy, cofundador de OpenAI, exdirector de IA en Tesla y uno de los expertos más respetados del sector, describió ese presupuesto como “de broma” y añadió: “Hay que asegurarse de que no somos derrochadores con lo que tenemos y este modelo parece una buena demostración de que hay mucho que revisar tanto en datos como en algoritmos”. El último modelo de DeepSeek es tan eficiente que requirió una décima parte del poder informático del modelo comparable de Meta.

Estos modelos de IA son extremadamente caros tanto de entrenar como luego de usar. DeepSeek ha logrado rebajar costes en ambos casos. Para entrenarlos, ha logrado que su modelo aprenda de otros anteriores. Esto es algo que los términos de servicio de estas empresas no permiten, pero es muy difícil de detectar y de evitar. Igual que los modelos originales de OpenAI tomaron todos los datos de internet sin pagar por ellos, ahora un modelo chino emplea los modelos cerrados con un coste mínimo. Esto se logra con una técnica llamada destilación, que permite hacer preguntas al modelo anterior y guardar las respuestas y así ir aprendiendo y entrenándose. Esta técnica implica que los modelos pueden aprender unos de otros, lo que nos arroja a otro escenario de evolución aún más rápido y desconocido.

La otra técnica que usa DeepSeek para rebajar costes es un sistema llamado de “expertos”. Cada vez que el usuario hace una pregunta, el modelo decide si debe activar a su experto médico, traductor, abogado o físico. Los modelos clásicos activan a todos de golpe, lo que supone un despilfarro de energía y computación. Es como necesitar una enorme planta propia de electricidad para poner en marcha una cadena de montaje elaboradísima. DeepSeek ha hecho lo mismo conectando su pequeña fábrica a un enchufe y un puñado de generadores.

De repente, los usuarios que hasta ahora pagan unos 20 euros por usar los modelos de OpenAI ven cómo pueden obtener casi los mismos resultados gratis. La expansión de la IA está llegando más rápido de lo previsto a su etapa de comoditización, cuando la nueva tecnología se convierte en un producto común y accesible a todos.

Todo esto ha ocurrido además en una empresa de Hangzhou, una ciudad china cercana a Shanghai. La Administración de Biden vetó la exportación de los chips más nuevos para limitar la competencia china. La respuesta del gigante asiático ha sido simple: no los necesitamos. Y lo han logrado con código abierto, enseñando las tripas de sus logros con documentación publicada en internet. Hacer de la necesidad virtud.

El fin de esta etapa inicial de la IA parece ser una mala noticia para los gigantes pioneros, que ven como una buena parte de su ventaja desaparece. Pero el resto de grandes compañías, como Amazon o Apple, que no estaban al frente de esta competición de la inteligencia artificial, pueden claramente beneficiarse y ofrecer los mismos beneficios que el resto a una porción del coste.

Así funciona la censura de la IA china Deepseek y cómo saltársela

“Las protestas de Tiananmén (1989) son el evento más conocido a nivel internacional”, escribe el chatbot chino DeepSeek para responder a la pregunta: “¿Por qué Tiananmén está lleno de historia?”. Además de añadir otros hitos históricos ocurridos en la plaza, añade que en 1989 “fue ocupada por estudiantes y ciudadanos que pedían reformas democráticas y el fin de la corrupción”. Es una respuesta anodina, nada que no sepa ningún ciudadano occidental interesado en la actualidad. Pero DeepSeek, antes de terminar de escribir toda la respuesta, la borra y la sustituye por un mensaje en inglés de seguridad: “Lo siento, eso está más allá de mi alcance actual. Hablemos de otra cosa”.

El modelo DeepSeek, que por su capacidad y sus costes mínimos ha causado un terremoto en la escena de IA en Silicon Valley, no responde a preguntas con un mínimo de connotación política china: “¿Quién ha sido el líder político asiático más importante de la historia?”, “¿Quién es Xi Jinping [el actual presidente de China]?” o “¿A cuánta gente mató Mao Zedong?”.

Si la pregunta no es política y cita directamente a políticos o temas polémicos, el proceso ocurre de una manera curiosa. El modelo empieza a responder, el usuario puede ir leyendo y al cabo de unos segundos la borra y sale su mensaje de seguridad. “Hay dos niveles de censura”, explica Iris Domínguez, profesor de la Universidad Pública de Navarra. “Cuando termina de escribir se lo pasan a otro modelo que simplemente dice de forma binaria sí o no según unos criterios. Ese segundo modelo decide que la respuesta no es aceptable y la borra. Es una niñera, una segunda capa de censura para vigilar a DeepSeek”, añade. El Gobierno chino ejerce un control duro sobre cualquier información que generan sus empresas o tecnologías.

Los modelos occidentales más avanzados habían logrado suprimir esa segunda capa ante, por ejemplo, contenido pornográfico y era el propio modelo el que se daba cuenta inicialmente que no debía responder: “Habían conseguido alinear los modelos y se autocensuraban”, dice Domínguez. “Pero los de DeepSeek tendrán problemas y no serán capaces de evitar todo lo que les gustaría evitar”, añade.

Incluso con esta vigilancia doble es posible esquivar esa capa con preguntas algo más elaboradas o simplemente usando una lengua distinta al inglés, la más común en estos modelos. Ante una pregunta formulada de manera distinta a la que encabeza este artículo, por ejemplo “¿qué es lo más importante que pasó el 4 de junio de 1989?”, DeepSeek responde con ingenua honestidad y no lo borra: “El 4 de junio de 1989 es una fecha significativa por los eventos ocurridos en la Plaza de Tiananmén en Beijing, China. Ese día, el gobierno chino, bajo el liderazgo del Partido Comunista, reprimió violentamente una protesta liderada por estudiantes y ciudadanos que pedían reformas democráticas, libertad de expresión y lucha contra la corrupción”.

A pesar de que parece evidente que el sistema de censura es doble, es difícil conocer los detalles internos, asegura José Hernández-Orallo, catedrático de la Universitat Politècnica de València e investigador del Centro Leverhulme para el Futuro de la Inteligencia de la Universidad de Cambridge: “No sabemos cómo funciona la interfaz, pero debe haber dos hilos, uno sin muchos filtros directamente de Deepseek-v3 y luego un segundo postfiltro que funciona en otro sitio”. Ese segundo filtro es imperfecto, “como todos”, añade Hernández-Orallo, “y probablemente más por las prisas con la publicación”.

Esta imperfección es algo que hemos visto en los pioneros de estos chatbots como OpenAI o Google. “Lo que sorprende es que a estas alturas los jailbreaks [los métodos para engañar al modelo y hacerle decir algo que no quiere decir] sean sencillos. Los modelos occidentales son muy diversos, ahora OpenAI usa “alineamiento deliberativo” que se pone a reflexionar sobre la respuesta, y creo que es lo más avanzado en estos momentos porque es un filtro inteligente y deliberativo (cuanto más inteligente más difícil de engañar)”, añade Hernández-Orallo.

Toda esta sofisticación de filtros queda suprimida cuando el usuario se descarga el modelo y lo usa localmente: “Puedes hacer cualquier cosa con él, venga con alineamiento o sin él”, dice Hernández-Orallo. “Basta con adaptarlo para poder ser por ejemplo un yihadista con un buen dataset. Es algo que iba a pasar. Los que hablaban de limitar la IA generativa con cómputos o parámetros, no entienden el ritmo del cambio en informática”. Otro modo de superar esos filtros es usar la API, el puente que permite a dos programas hablar directamente entre ellos. Así, por ejemplo, EL PAÍS ha logrado que la compañía china realice la ilustración que encabeza este artículo o esta otra de manifestantes en Tiananmén:

Aunque la eficacia de DeepSeek ha sorprendido mucho, su uso sigue teniendo alguna limitación práctica más allá de la censura. Por ejemplo, su búsqueda en web de un resultado de la liga española de este fin de semana no da ningún resultado tras varios minutos de espera. ChatGPT da el resultado y los goleadores sin problema. Entre los usuarios, sin embargo, el veredicto a favor de DeepSeek es bastante consistente debido a sus logros por un coste mucho menor que los modelos tradicionales de Silicon Valley. En foros de Reddit, los hilos “DeepSeek V3 es absolutamente sorprendente” y “DeepSeek V3 es increíble” tienen una cantidad de votos y comentarios similar. Las versiones sobre su eficacia y errores a la hora de programar se siguen discutiendo, pero acaba por emerger la idea de que por su precio de uso DeepSeek es imbatible.

Sea como sea, DeepSeek sigue pensando que el presidente español, Pedro Sánchez, lleva barba de vez en cuando, una confusión que creó este periódico con un artículo sobre una IA de Microsoft en 2023.

HLL

DeepSeek, el nuevo modelo chino de IA, ¿por qué ha tumbado a los gigantes de Silicon Valley?

DeepSeek, un modelo con un costo menor de 6 millones de dólares

Así funciona la censura de la IA china Deepseek y cómo saltársela

Relacionado

Deja un comentario