DeepSeek: La inteligencia artificial china que impacta en Wall Street y genera dudas
Rob Garver -VOA
Los investigadores chinos respaldados por un fondo de cobertura con sede en Hangzhou lanzaron recientemente una nueva versión de un modelo de lenguaje grande (LLM) llamado DeepSeek-R1 que rivaliza con las capacidades de los productos más avanzados fabricados en Estados Unidos, pero que, según se informa, lo hace con menos recursos informáticos y a un costo mucho menor.
High Flyer, el fondo de cobertura que respalda a DeepSeek, dijo que el modelo casi iguala el rendimiento de los LLM construidos por empresas estadounidenses como OpenAI, Google y Meta, pero lo hace utilizando solo unos 2.000 chips de computadora de la generación anterior fabricados por el líder de la industria con sede en Estados Unidos, Nvidia, mientras que cuesta solo unos 6 millones de dólares en potencia de procesamiento para entrenarlo.
En comparación, el sistema de IA de Meta, Llama, utiliza alrededor de 16.000 chips y, según se informa, le cuesta a Meta mucho más dinero entrenarlo.
Modelo de código abierto
El aparente avance en las capacidades de IA chinas se produce después de años de esfuerzos por parte del gobierno de Estados Unidos para restringir el acceso de China a semiconductores avanzados y al equipo utilizado para fabricarlos. En los últimos dos años, bajo la presidencia de Joe Biden, Estados Unidos puso en marcha múltiples medidas de control de las exportaciones con el objetivo específico de frenar el progreso de China en el desarrollo de la IA.
DeepSeek parece haber innovado para alcanzar parte de su éxito, desarrollando algoritmos nuevos y más eficientes que permiten que los chips del sistema se comuniquen entre sí de manera más efectiva, mejorando así el rendimiento.
Al menos parte de lo que hicieron los desarrolladores de DeepSeek R1 para mejorar su rendimiento es visible para los observadores externos a la empresa, porque el modelo es de código abierto, lo que significa que los algoritmos que utiliza para responder a las consultas son públicos.
Reacción del mercado
La noticia sobre las capacidades de DeepSeek provocó una amplia venta masiva de acciones tecnológicas en los mercados estadounidenses el lunes, ya que los inversores comenzaron a preguntarse si los planes muy publicitados de las empresas estadounidenses de invertir cientos de miles de millones de dólares en centros de datos de IA y otras infraestructuras preservarían su dominio en el campo. Cuando los mercados cerraron el lunes, el índice Nasdaq, con una gran presencia de empresas tecnológicas, había bajado un 3,1 % y el precio de las acciones de Nvidia se había desplomado casi un 17 %.
Sin embargo, no todos los expertos en IA creen que la reacción de los mercados al lanzamiento de DeepSeek R1 esté justificada, o que las afirmaciones sobre el desarrollo del modelo deban tomarse al pie de la letra.
Mel Morris, director ejecutivo de Corpora.ai, un motor de investigación de IA con sede en el Reino Unido, dijo a la VOA que, si bien DeepSeek es una pieza impresionante de tecnología, cree que la reacción del mercado ha sido excesiva y que se necesita más información para juzgar con precisión el impacto que DeepSeek tendrá en el mercado de la IA.
“Siempre hay una reacción exagerada a las cosas, y la hay hoy, así que retrocedamos un poco y analicemos lo que estamos viendo aquí”, dijo Morris. “En primer lugar, no tenemos una comprensión real de exactamente cuál fue el costo o la escala de tiempo involucrada en la construcción de este producto. Simplemente no lo sabemos. … Afirman que es significativamente más barato y eficiente, pero no tenemos pruebas de ello”.
Morris dijo que si bien el rendimiento de DeepSeek puede ser comparable al de los productos OpenAI, “aún no he visto nada que me convenza de que realmente han superado el paso cuántico en el costo de operación de este tipo de modelos”.
Dudas sobre los orígenes
Lennart Heim, un científico de datos de la Corporación RAND, dijo a la VOA que si bien es evidente que DeepSeek R1 se beneficia de algoritmos innovadores que mejoran su rendimiento, estuvo de acuerdo en que el público en general en realidad sabe relativamente poco sobre cómo se desarrolló la tecnología subyacente.
Heim dijo que no está claro si el costo de capacitación de 6 millones de dólares citado por High Flyer en realidad cubre todos los gastos de la compañía, incluidos el personal, los costos de datos de capacitación y otros factores, o es solo una estimación de lo que habría costado una «ejecución» de capacitación final en términos de potencia de procesamiento bruta. Si es esto último, dijo Heim, la cifra es comparable a los costos incurridos por mejores modelos estadounidenses.
También cuestionó la afirmación de que DeepSeek se desarrolló con solo 2.000 chips. En una publicación de blog escrita durante el fin de semana, señaló que se cree que la compañía tiene operaciones existentes con decenas de miles de chips Nvidia que podrían haberse utilizado para hacer el trabajo necesario para desarrollar un modelo que sea capaz de funcionar con solo 2.000.
“Este amplio acceso a los ordenadores fue probablemente crucial para desarrollar sus técnicas de eficiencia mediante ensayo y error y para ofrecer sus modelos a los clientes”, escribió.
También señaló que la decisión de la empresa de lanzar la versión R1 de su LLM la semana pasada, poco después de la investidura de un nuevo presidente de Estados Unidos, parecía de naturaleza política. Dijo que estaba “claramente destinada a sacudir la confianza del público en el liderazgo de la IA de Estados Unidos durante un momento crucial en la política estadounidense”.
Dean W. Ball, investigador del Mercatus Center de la Universidad George Mason, también fue cauteloso al declarar que DeepSeek R1 ha trastocado de alguna manera el panorama de la IA.
“Creo que Silicon Valley y Wall Street están exagerando hasta cierto punto”, dijo a la VOA. “Pero al final del día, R1 significa que es probable que la competencia entre Estados Unidos y China siga siendo feroz, y que debemos tomarla en serio”.
El debate sobre el control de las exportaciones
El aparente éxito de DeepSeek ha sido utilizado como prueba por algunos expertos para sugerir que los controles de las exportaciones establecidos bajo la administración Biden pueden no haber tenido los efectos previstos.
“Como mínimo, esto sugiere que los enfoques estadounidenses en materia de IA y los controles de las exportaciones pueden no ser tan eficaces como afirman los defensores”, dijo a la VOA Paul Triolo, socio de DGA-Albright Stonebridge Group.
“La disponibilidad de GPU muy buenas pero no de vanguardia (por ejemplo, que una empresa como DeepSeek puede optimizar para cargas de trabajo de inferencia y entrenamiento específicas) sugiere que el enfoque de los controles de las exportaciones en el hardware y los modelos más avanzados puede estar fuera de lugar”, dijo Triolo. “Dicho esto, no está claro cómo DeepSeek podrá seguir el ritmo de líderes mundiales como OpenAI, Google, Anthropic, Mistral, Meta y otros que seguirán teniendo acceso a los mejores sistemas de hardware”.
Otros expertos, sin embargo, argumentaron que los controles de las exportaciones simplemente no han estado en vigor el tiempo suficiente para mostrar resultados.
Sam Bresnick, investigador del Centro de Seguridad y Tecnología Emergente de la Universidad de Georgetown, dijo a la VOA que sería “muy prematuro” calificar las medidas de fracaso.
“El director ejecutivo de DeepSeek ha dicho públicamente que la mayor limitación a la que se enfrentan es el acceso a recursos informáticos de alto nivel”, dijo Bresnick. “Si [DeepSeek] tuviera tanta capacidad informática a su alcance como Google, Microsoft, OpenAI, etc., habría un aumento significativo en su rendimiento. Así que… no creo que DeepSeek sea la prueba irrefutable que algunas personas afirman que es [para demostrar que los controles de exportación] no funcionan”.
Bresnick señaló que los controles de exportación más estrictos se impusieron recién en 2023, lo que significa que sus efectos pueden estar apenas comenzando a sentirse. Dijo que la verdadera prueba de su eficacia será si las empresas estadounidenses son capaces de seguir superando a China en los próximos años.