Hace poco más de una semana pudimos ser testigos de un tumulto en el NASDAQ (Bolsa de valores de empresas tecnológicas con sede en Nueva York) viendo cómo se hundía la cotización de una compañía que poca gente conocía: Nvidia. Esta empresa, hace ya bastantes años, se hizo un hueco en el mercado desarrollando chips para tarjetas gráficas muy apreciadas por los diseñadores y usuarios de videojuegos y gráficos por computadora. Famosa todavía es su GeForce y el rendimiento que logró obtener de simples ordenadores. Estos chips denominados GPU (Unidad de Procesamiento Gráfico, por sus siglas en inglés) son capaces de hacer multitud de cálculos en paralelo y ahí Nvidia no tenía rival. Con el advenimiento de la IA (Inteligencia Artificial), estas GPU mostraron ser ideales para la cantidad de cálculos que la nueva tecnología requería y Nvidia, desde su posición privilegiada y dominante, logró convertirse en la empresa más valiosa del mundo superando a Apple. Parecía que no tenía techo, cada acción suya llegó a cotizar más de 153 dólares. Las nuevas empresas de la IA como Google, OpenAI, Microsoft o Meta necesitaban los productos de Nvidia y sus principales competidores, Intel, Broadcom o AMD parecían estar todavía muy lejos. Esta empresa suscitaba de sus competidores lo que su pronunciación en inglés significa en español: “Envidia”.
Aunque conseguir imitar la inteligencia humana siempre ha sido un objetivo desde los principios de la informática, los primeros algoritmos ya se diseñaron en los años 60 del siglo pasado, ese objetivo quedó estancado hasta el presente siglo debido a que requería un alto poder de computación que los ordenadores eran incapaces de ofrecer. El reciente desarrollo procesadores, las técnicas de almacenamiento de datos mejoradas y las redes de telecomunicación de alta velocidad han dejado un camino expedito para la IA.
Las redes neuronales están están basadas en el funcionamiento del cerebro humano imitando el comportamiento de esas células nerviosas"
Podemos decir que uno los conceptos fundamentales en los que se basa la IA son potentes algoritmos de procesado de datos, denominados genéricamente Big Data, que permiten analizar una ingente cantidad de información pudiendo identificar patrones o tendencias para que la IA pueda tomar decisiones o hacer predicciones razonadas. El otro gran concepto y no necesariamente desligado del anterior son las redes neuronales. Como indica su nombre, están basadas en el funcionamiento del cerebro humano imitando el comportamiento de esas células nerviosas.
Generalmente una red neuronal está compuesta por varias capas, la de entrada de datos, la de salida de datos y las que desafortunadamente se han denominado capas ocultas que es donde se procesa la información y de las que se dice que nadie sabe realmente lo que ahí dentro ocurre; yo diría más bien que es bastante complicado intentar hacer un seguimiento de lo que ahí dentro pasa debido a que puede haber miles de millones de nodos. Cada nodo (que es un pequeño programa informático o algoritmo) aplica una función matemática a la entrada que recibe y pasa el resultado a la siguiente capa.

- Esquema de una red neuronal con los nodos de cada capa representados en diferentes colores. -
- Foto: J. J. M.
Se han diseñado diferentes tipos de redes neuronales en función de cómo funcionan las capas ocultas. Dentro de los más comunes, las redes feedforward son las más sencillas ya que la información sólo fluye en una dirección, hacia la derecha en nuestro dibujo, no hay bucles; se utilizan generalmente para clasificar y buscar patrones. Para el reconocimiento de imágenes se usan las redes convolucionales; en cambio, para procesar el lenguaje natural humano las redes recurrentes y redes de memoria a corto y largo plazo son las más adecuadas, estas sí implementan bucles y almacenamiento en sus nodos.
Generalmente un mismo modelo de IA integra casi todos los tipos de redes neuronales que hay y dependiendo del tipo de problema a tratar la información se envía a un tipo de red u otro para hacer más eficiente el procesado.
Si realmente queremos acometer los problemas de diario y hacer la IA verdaderamente útil se necesitan redes con millones y millones nodos distribuidos en miles y miles de capas ocultas que, aunque simples, consumen mucha energía. Pensemos por analogía que el cerebro humano es el órgano que más energía necesita y está compuesto por aproximadamente ochenta y seis mil millones de neuronas. Análogamente tenemos miles de millones de nodos en nuestros modelos de IA, pero tenemos que enseñarlos o como se dice en el argot entrenarlos.
El rendimiento de la IA China ha demostrado estar a la altura del resto de IAs"
El entrenamiento de la IA es, sin duda, el proceso más costoso pues requiere una cantidad de información impresionante (toda la que exista en internet, por ejemplo, y podamos suministrarle), además de consumir muchísima energía y emplear mucho tiempo en ello. Si, por ejemplo, queremos que nuestra IA reconozca un coche en una foto que le pasamos, habrá que pasarle antes miles y miles de fotos de coches de todos los modelos, en distintas posiciones, diferentes colores, etc, para que aprenda y cuando en el futuro vea la foto de un coche que no se le haya pasado antes pueda reconocer en ella ese tipo de vehículo.
Aunque existen diversas maneras de entrenar a la IA. La más sencilla es el aprendizaje por refuerzo donde la IA aprende a base de recompensas o castigos; es decir, le ponemos una tarea y si las decisiones que toma son correctas la premiamos con un punto y si son incorrectas le quitamos un punto, el objetivo de la IA es obtener la máxima puntuación. Este método es utilizado para juegos o robots. En el otro extremo, la forma más complicada de entrenamiento es el denominado aprendizaje profundo ya que a la red se le presentan los datos de entrada (la foto de un gato, por ejemplo) y le decimos lo que queremos a la salida (que identifique un gato). Lo impresionante de esto es que la red lo hace todo, coge los datos en su capa de entrada y los pasa por sus capas ocultas hacia adelante y hacia atrás ajustando parámetros, funciones matemáticas, en los nodos hasta que obtiene la salida deseada. Es decir, la red va aprendiendo sola y con cuantos más datos se le alimente más inteligente se vuelve. Como vemos, la información no está almacenada como datos explícitos en ningún sitio concreto, está distribuida en los parámetros de los nodos. No se nos debe olvidar mencionar una técnica denominada destilación y que se usa para entrenar IAs pequeñas (alumno) adquiriendo el conocimiento de un modelo de IA mucho más grande y complejo (profesor) y así aprovechar los recursos computacionales y de memoria de ese profesor.
DeepSeek ha sido como una entrada de aire fresco en el mundo de la IA porque, y esta es su principal característica, es de código abierto"
Teniendo ya claro cómo funciona la IA y cómo se le entrena podemos hacer una clasificación sencilla de los distintos que actualmente existen. La denominada IA débil o estrecha (Narrow AI) está diseñada para realizar tareas muy específicas y es la que hay tras Alexa, Siri o aplicaciones de Google como Lens, OK Google, etc. La IA Fuerte (General AI) es aquella que puede hacer tareas como si fuera un humano, ChatGPT o Gemini todavía no llegan a este nivel, pero cada vez están más cerca. La IA Superinteligente será aquella que superará al ser humano en todos los aspectos, de momento sólo existe en la teoría.
Pero volvamos al principio de este artículo: ¿Qué razones había para que la aparición de DeepSeek hiciera que se desplomaran las acciones de Nvidia? DeepSeek ha sido como una entrada de aire fresco en el mundo de la IA porque, y esta es su principal característica, es de código abierto, por lo que cualquier desarrollador puede acceder y modificar sus algoritmos para mejorarlo. Es muy eficiente con los recursos, pues ha necesitado comparativamente muchas menos horas de entrenamiento y menos GPUs (2000 frente a las 16000 que empleó ChatGPT-4) además esas GPUs no eran las más avanzadas de Nvidia por estar prohibida su exportación a China. En términos de consumo energético y coste total, DeepSeek es muy económica en comparación con su competencia. El rendimiento de la IA China ha demostrado estar a la altura del resto de IAs.
En su contra se ha comentado que, aun siendo una empresa privada, no hay que olvidar que el Gobierno chino tiene garantizado el acceso a sus datos bajo circunstancias específicas, su seguridad y ética queda en entredicho. Se ha podido comprobar que la herramienta se autocensura cuando se le pregunta por asuntos incómodos para régimen popular chino. También se sospecha que se ha utilizado en su entrenamiento la técnica de destilación bebiendo conocimiento de ChatGPT de una manera algo irregular o ilícita.
El hundimiento de Nvidia en Bolsa se achacó a la irrupción de DeepSeek, ya que, al ser mucho más eficiente y utilizar menos GPUs en teoría más antiguas y baratas, haría que otros modelos de IA imitaran su técnica. Esto, sin duda, redundaría en un consumo menor de GPUs de las que Nvidia es el mayor fabricante mundial. Personalmente esto a mí me suena a excusa. Hay un dicho que reza: “Si piensas que algo puede afectar a las acciones en la bolsa, seguro que les afecta.” No es lógico que la aparición de DeepSeek no haya afectado a sus directos rivales como OpenAI o Google, pero sí a Nvidia. ¿No sería que las acciones de Nvida estaban sobrevaloradas? ¿No sería que esas acciones necesitaban una corrección a la baja para ponerlas en su verdadero valor, por lo que había que pinchar esa burbuja y evitar que siguiera creciendo? ¿Fue la aparición de DeepSeek fue la excusa perfecta para pincharla?