La nueva factura de la IA: tokens más baratos, costos más opacos y bots que roban cómputo

La nueva factura de la IA: tokens más baratos, costos más opacos y bots que roban cómputo

OpenAI, Anthropic y DeepSeek muestran cómo está cambiando el negocio de las APIs de inteligencia artificial: pago por uso, “inflación” de tokens, modelos chinos baratos y nuevos ataques que explotan credenciales para consumir cómputo ajeno.

El costo de usar inteligencia artificial por API parece estar bajando. Hay modelos más baratos, descuentos por volumen, procesamiento por lotes, caché de prompts y versiones ligeras diseñadas para tareas masivas. Pero esa caída de precios cuenta solo una parte de la historia. En realidad, la factura de la IA se está volviendo más difícil de entender.

Hasta hace poco, comparar servicios de inteligencia artificial parecía relativamente simple: cuánto costaba un millón de tokens de entrada y cuánto costaba un millón de tokens de salida. Esa unidad sigue siendo importante, pero ya no alcanza para explicar el costo real. Ahora también cuentan el tokenizador, la memoria caché, el nivel de razonamiento, la duración de las tareas agénticas, el uso de herramientas, los límites de gasto y hasta la seguridad de las credenciales.

La nueva economía de las APIs de IA no solo se mide por precio. Se mide por consumo.

Anthropic y la inflación invisible de los tokens

Un primer caso es Anthropic. Con Claude Opus 4.7, la empresa mantuvo el precio nominal de su modelo más avanzado: 5 dólares por millón de tokens de entrada y 25 dólares por millón de tokens de salida, el mismo precio que Claude Opus 4.6. Sin embargo, el cambio importante no ocurrió en la tabla de precios, sino en la forma en que el modelo convierte texto en tokens.

Anthropic reconoció que Opus 4.7 usa un tokenizador actualizado y que el mismo texto puede mapearse a más tokens: aproximadamente entre 1.0 y 1.35 veces más, dependiendo del tipo de contenido. La empresa también advirtió que el modelo “piensa más” en niveles altos de esfuerzo, especialmente en tareas agénticas, lo que puede producir más tokens de salida.

El resultado es una paradoja: el precio por token no cambia, pero el mismo trabajo puede requerir más tokens. En términos prácticos, una tarea que antes se resolvía con cierta cantidad de tokens puede consumir más unidades facturables después de la actualización.

OpenRouter, una plataforma que enruta solicitudes a distintos modelos, analizó más de un millón de peticiones de usuarios que migraron de Opus 4.6 a Opus 4.7 y encontró incrementos de costo de entre 12% y 27% para prompts de más de 2,000 tokens, aunque los prompts cortos fueron una excepción porque el modelo tendió a responder con menos tokens.

Esta es una nueva forma de “inflación” en las APIs de IA: no sube necesariamente la tarifa oficial, pero sí puede subir el número de unidades necesarias para hacer lo mismo.

Para los usuarios finales, la diferencia puede parecer invisible. Para empresas que procesan millones de solicitudes, sistemas RAG, agentes de programación o asistentes internos con contexto largo, el cambio puede impactar directamente en la factura.

OpenAI lleva Codex al pago por uso

OpenAI muestra otra parte de la transformación. La empresa anunció que los equipos de ChatGPT Business y Enterprise pueden agregar licencias solo para Codex con precios de pago por uso, sin una tarifa fija por licencia. Según OpenAI, estas licencias exclusivas de Codex no tienen límites de tarifa y el uso se factura según el consumo de tokens.

La decisión mueve a Codex hacia una lógica más cercana a la infraestructura cloud que al software tradicional. En lugar de pagar únicamente por asiento o por acceso mensual, los equipos pagan por lo que realmente consumen.

OpenAI presenta el cambio como una forma de facilitar pilotos pequeños: equipos reducidos pueden probar Codex en flujos críticos, medir valor y escalar después. La empresa también redujo el precio anual de ChatGPT Business de 25 a 20 dólares por participante, mientras mantiene licencias estándar para quienes necesitan mayor acceso a ChatGPT y límites incluidos de Codex.

El movimiento es importante porque confirma una tendencia más amplia: las herramientas de IA empresarial ya no se venden solo como suscripciones. Empiezan a venderse como capacidad computacional bajo demanda.

Eso puede reducir la barrera de entrada. Un equipo puede iniciar sin comprometerse con grandes licencias. Pero también traslada más responsabilidad al usuario: si el uso crece, si se automatizan más tareas o si varios agentes empiezan a trabajar en paralelo, el costo final dependerá menos del número de personas y más de la intensidad del consumo.

La pregunta deja de ser “cuánto cuesta tener acceso” y pasa a ser “cuánto cuesta operar”.

DeepSeek y la presión china sobre los precios

Mientras OpenAI y Anthropic sofisticaron sus esquemas de cobro, DeepSeek está presionando desde el otro extremo: precios agresivamente bajos.

Reuters reportó que DeepSeek lanzó su nuevo modelo DeepSeek-V4-Pro con un descuento de 75% para desarrolladores y redujo a una décima parte el precio de los cache hits de entrada en toda su línea de APIs. La familia V4 incluye una versión Pro, más potente, y una versión Flash, más ligera y barata.

Esta presión no es nueva. En 2025, DeepSeek ya había introducido descuentos de hasta 75% en horarios de baja demanda para desarrolladores, una medida que Reuters interpretó como una señal de presión sobre competidores dentro y fuera de China.

El atractivo es evidente: para tareas de alto volumen, prototipos, agentes de bajo costo, extracción de información, clasificación o automatizaciones internas, un modelo más barato puede ser suficiente. No todas las aplicaciones necesitan el modelo más caro del mercado.

El fenómeno también tiene una dimensión geopolítica ya que DeepSeek-V4 fue adaptado para tecnología de chips Huawei, en un contexto en el que China busca reducir su dependencia de proveedores estadounidenses de hardware avanzado.

Así, la competencia por precios no es solo una carrera comercial. También forma parte de una disputa más amplia por infraestructura, semiconductores y autonomía tecnológica.

Para Silicon Valley, los modelos chinos representan una presión incómoda. No necesariamente porque todas las empresas los adopten en producción para datos sensibles, sino porque obligan a comparar costo y rendimiento. Si un modelo más barato resuelve tareas suficientemente bien, el precio de los modelos premium empieza a necesitar una justificación más clara.

La economía de la IA se está dividiendo en capas: modelos de frontera para tareas críticas, modelos medianos para producción cotidiana y modelos baratos para automatización masiva.

El reverso del pago por uso: bots que queman tokens ajenos

Pero la misma lógica que hace flexible el pago por uso también abre un nuevo frente de riesgo: el robo de acceso a cómputo de IA.

En seguridad ya circula el término LLMjacking, usado para describir ataques en los que actores maliciosos explotan credenciales, claves de API, proxies o endpoints mal configurados para consumir servicios de modelos de lenguaje a costa de otra cuenta.

Aquí no se roban “tokens” como activos digitales, sino la llave que permite gastarlos. Una API key expuesta puede funcionar como una tarjeta de crédito técnica: quien la encuentra puede enviar miles de solicitudes, quemar presupuesto y dejar la factura a la víctima.

TechRadar reportó una campaña analizada por GreyNoise en la que se registraron más de 91,000 sesiones de ataque contra sistemas de IA expuestos entre octubre de 2025 y enero de 2026. Los atacantes probaron proxies mal configurados, formatos compatibles con OpenAI y Google Gemini, y distintos endpoints de modelos para detectar qué servicios estaban accesibles.

La técnica no siempre empieza con un ataque ruidoso. En algunos casos, los bots envían preguntas simples, como una consulta básica de conocimiento general, para identificar si detrás del endpoint hay un modelo de IA funcionando. La intención inicial no es necesariamente generar contenido, sino mapear qué modelo está disponible, cómo responde y si el acceso expuesto conecta con una cuenta de pago.

Una vez identificado el acceso, puede ser usado directamente o revendido. En esta economía, el botín no es una base de datos ni una cartera cripto: es capacidad de cómputo.

Este punto es clave para empresas pequeñas, medios, desarrolladores independientes y startups. Una credencial filtrada en GitHub, un archivo .env mal protegido o un proxy expuesto pueden convertirse en una factura inesperada. En un mercado donde cada token cuesta, la seguridad deja de ser un asunto separado del precio: forma parte del costo real de usar IA.

Una factura más barata, pero menos predecible

La tendencia general parece contradictoria. Por un lado, usar IA por API es cada vez más accesible. Hay modelos ligeros, competencia china, descuentos por caché y esquemas de pago por uso que permiten empezar con menos inversión inicial.

Por otro lado, el costo real se volvió más difícil de anticipar. No basta con ver la tabla de precios. También hay que entender cómo tokeniza cada modelo, cuánto razona, cuántos pasos ejecuta un agente, qué tanto se reutiliza el contexto, qué herramientas llama, qué límites de gasto existen y qué tan protegidas están las credenciales.

Anthropic muestra que un modelo puede mantener el mismo precio y aun así cambiar el costo efectivo de uso. OpenAI muestra que el software empresarial de IA se mueve hacia consumo medible. DeepSeek muestra que los modelos baratos pueden presionar a todo el mercado. Y el LLMjacking muestra que, cuando todo se cobra por uso, robar acceso equivale a robar presupuesto de cómputo.

La pregunta central para quienes usan IA ya no es solo cuánto cuesta un millón de tokens. Es quién controla el consumo, cómo se mide, qué tan predecible es la factura y qué pasa si alguien más empieza a gastar en tu nombre. La IA se está abaratando. Pero su factura, cada vez más, exige saber leer la letra técnica pequeña.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *