DeepSeek el modelo chino de IA que desafía a Silicon Valley y sacude la tecnología global; provoca caída del 18% en las acciones de Nvidia

DeepSeek el modelo chino de IA que desafía a Silicon Valley y sacude la tecnología global; provoca caída del 18% en las acciones de Nvidia

DeepSeek, la empresa china de inteligencia artificial fundada por el visionario Liang Wenfeng, está transformando el panorama tecnológico global. Su modelo de lenguaje de código abierto, DeepSeek-R1, no solo ha superado a sus rivales en costos y rendimiento, sino que también ha desatado una guerra de precios y cuestionado el modelo cerrado de Silicon Valley, convirtiéndose en la aplicación más descargada en Estados Unidos y marcando un hito en la democratización de la IA.

DeepSeek-R1, un modelo de inteligencia artificial tentativamente de código abierto desarrollado por la empresa china DeepSeek, está revolucionando el mercado tecnológico y desafiando el dominio de Silicon Valley con un enfoque innovador, eficiente y abierto.

¿Qué es DeepSeek?

DeepSeek es una empresa china de inteligencia artificial con sede en Hangzhou, Zhejiang. Fue fundada en mayo de 2023 como una escisión del fondo de cobertura High-Flyer, dirigido por Liang Wenfeng, un entusiasta de la inteligencia artificial y experto en aprendizaje automático. High-Flyer, fundada en 2016, utilizó IA para revolucionar el comercio financiero antes de crear un laboratorio dedicado al desarrollo de modelos de inteligencia artificial general.

A pesar de la reticencia inicial de las firmas de capital de riesgo para financiar el proyecto, DeepSeek logró posicionarse como un referente en la industria al desarrollar modelos de lenguaje de gran tamaño con un costo significativamente menor en comparación con sus rivales. Según estimaciones, la empresa acumuló más de 10,000 GPU Nvidia A100 antes de las restricciones estadounidenses a los chips de IA en China, algunas de las cuales indican que esa cifra podría superar las 50,000 unidades.

DeepSeek cuenta con dos modelos principales: DeepSeek-R1-Zero y DeepSeek-R1. La diferencia radica en el proceso de entrenamiento:

  1. DeepSeek-R1-Zero: Este modelo fue entrenado exclusivamente con aprendizaje por refuerzo sin pasar por un ajuste previo supervisado. Este enfoque permitió que el modelo desarrollara habilidades avanzadas como la autoverificación, el razonamiento reflexivo y la creación de cadenas de pensamiento largas para abordar problemas complejos. Sin embargo, también presentó limitaciones, como repeticiones innecesarias o textos menos claros.
  2. DeepSeek-R1: Para superar esas limitaciones, los desarrolladores incorporaron un ajuste inicial supervisado antes de aplicar el aprendizaje por refuerzo. Este modelo logra un rendimiento comparable a estándares líderes en tareas como resolución de problemas matemáticos, programación y razonamiento lógico.

DeepSeek-R1: Potencia y accesibilidad

El modelo insignia de la compañía, DeepSeek-R1, utiliza un enfoque innovador basado en aprendizaje por refuerzo para el razonamiento avanzado. Su versión lanzada en 2024, ofreció un rendimiento comparable al de ChatGPT y otros gigantes tecnológicos, pero con una inversión mucho menor, lo que le ganó el apodo de “el Pinduoduo de la IA” por su capacidad para ofrecer alta calidad a bajo costo.

DeepSeek también destacó por hacer que su modelo de inteligencia artificial generativa interesada en el código abierto, permitiendo que investigadores y empresas de todo el mundo accedieran al código fuente, documentos de diseño y herramientas para modificarlos y adaptarlos a sus necesidades. Este movimiento disruptivo fomentó una mayor colaboración global y aumentó la presión sobre los modelos cerrados de Silicon Valley.

De acuerdo con la compañía DeepSeek no solo han creado estos modelos, sino que también han compartido su código de forma abierta, incluyendo variantes más pequeñas y optimizadas que mantienen un alto rendimiento. Esto beneficia a la comunidad de investigación al facilitar el desarrollo de herramientas más accesibles y eficientes.

Un aspecto destacado es el proceso de destilación, mediante el cual los conocimientos adquiridos por los modelos más grandes se transfieren a modelos más pequeños, reduciendo los costos de hardware sin perder eficacia.

Aplicaciones y ventajas clave

  • Razonamiento avanzado: DeepSeek puede analizar problemas complejos con explicaciones detalladas y autoevaluaciones.
  • Adaptabilidad: Gracias a su diseño modular, puede personalizarse para distintas áreas como educación, programación y ciencias.
  • Accesibilidad: Al compartir su código y optimizar modelos pequeños, DeepSeek permite que más investigadores utilicen inteligencia artificial avanzada.

Sin embargo, existen expertos que discrepan respecto a que  los modelos de Deep Seek sean completamente de código abierto. El profesor de Standford, Percy Liang, explicó a través de X que sus modelos no podrían ser considerados completemente de código abierto ya que señala que no hay acceso al código de entrenamiento/procesamiento de datos y casi ninguna información sobre los datos. «El código abierto verdadero nos permite estudiar y modificar artefactos. Podemos estudiar los artículos de DeepSeek (que están muy bien escritos, pero aún omiten detalles) y podemos ajustar sus modelos, pero no podemos entenderlos ni modificarlos a un nivel profundo», señaló el académico.

Impacto global y desafíos a Silicon Valley

Este lunes, el chatbot de inteligencia artificial de DeepSeek -R1 se convirtió en la aplicación gratuita más descargada en los Estados Unidos en la App Store de Apple, superando a ChatGPT. Este éxito provocó una caída del 18% en el precio de las acciones de Nvidia, marcando un impacto directo en la percepción de los modelos occidentales.

Además, DeepSeek no solo ha forzado una reducción en los precios de los modelos de IA de gigantes tecnológicos chinos como ByteDance, Tencent, Baidu y Alibaba, sino que también está desafiando el enfoque de exclusividad de Silicon Valley. Su modelo abierto y rentable pone en jaque el paradigma de los sistemas cerrados y controlados por grandes corporaciones tecnológicas.

¿Por qué importa DeepSeek?

El éxito de DeepSeek-R1 demuestra que los modelos de IA pueden ser avanzados, accesibles y económicamente sostenibles. Su crecimiento también ilustra el cambio en el equilibrio de poder tecnológico, con China emergiendo como un jugador clave en la democratización de la inteligencia artificial.

DeepSeek, impulsada por su capacidad para combinar innovación técnica, costos reducidos y apertura, no solo está redefiniendo la industria, sino que también está marcando un antes y un después en el futuro de la inteligencia artificial global.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *