DeepSeek V4 se lanzó el 23 de abril de 2026 y, a diferencia de la mayoría de los lanzamientos de modelos de vanguardia, las rutas gratuitas son reales. El chat web oficial ejecuta V4-Pro sin necesidad de tarjeta de crédito. Los pesos tienen licencia MIT y se pueden descargar hoy mismo. Agregadores como OpenRouter y Chutes suelen ofrecer niveles gratuitos a los pocos días de un lanzamiento de DeepSeek. Si sumamos todo, puedes ejecutar cargas de trabajo serias de V4 por cero dólares antes de decidir si recargar una cuenta.
Esta guía detalla cada ruta sin costo que podemos verificar, cuál se adapta a cada caso de uso y cómo configurar una colección lista para producción en Apidog para que el salto a la facturación de pago sea fluido cuando el uso aumente.
Para una descripción general a nivel de producto, consulta qué es DeepSeek V4. Para el recorrido completo por la API, consulta cómo usar la API de DeepSeek V4.
En resumen
- chat.deepseek.com — chat web gratuito en V4-Pro con alternadores Think High y Think Max. Sin tarjeta. Funciona hoy.
- Pesos de Hugging Face + tu propia GPU — licencia MIT, V4-Flash funciona en 2 a 4 H100, V4-Pro necesita un clúster.
- Niveles gratuitos de OpenRouter y Chutes — pasarelas de terceros que suelen abrir cuotas gratuitas en modelos DeepSeek dentro de una semana de su lanzamiento.
- Proveedores de inferencia de Hugging Face — un endpoint compartido y con límite de tasa que expone V4 para experimentación temprana.
- Créditos de prueba de Kaggle, Colab y RunPod — cómputo gratuito para ejecuciones únicas cuando quieras probar el autoalojamiento.
- Cada ruta gratuita limita el uso. Para cargas de trabajo de producción, pasa a la facturación de pago antes de que el límite te afecte.

Ruta 1: chat.deepseek.com (la ruta gratuita predeterminada)
La ruta gratuita más rápida y fiable es la interfaz de chat oficial. V4-Pro es el modelo predeterminado; el alternador en la parte superior del cuadro de redacción cambia entre los modos de razonamiento Sin Pensar, Pensar Alto y Pensar Máximo.

Configuración
- Abre chat.deepseek.com.
- Inicia sesión con correo electrónico, Google o WeChat.
- Confirma que el modelo activo sea V4-Pro.
- Empieza a escribir.
Lo que obtienes
- La ventana de contexto completa de 1M de tokens.
- Carga de archivos para PDF, imágenes y paquetes de código.
- Búsqueda web bajo demanda.
- Los tres modos de razonamiento, incluido Think Max.
- Historial de conversaciones y carpetas.
Cómo son los límites
DeepSeek no publica un límite estricto de mensajes por día; el nivel gratuito tiene un límite suave bajo carga. Un uso intensivo puede ralentizar las respuestas o poner las solicitudes en cola, pero raramente bloquea por completo. Si empiezas a ver límites de tasa persistentes, esa es la señal para reducir el ritmo o pasar a la API.
Tareas adecuadas para la interfaz web: probar si V4 supera a Claude con tu prompt más difícil, pegar un tarball de repositorio para una revisión arquitectónica, ejecutar Think Max contra un contrato que de otra manera pagarías a un abogado para que leyera. Tareas no adecuadas: cualquier cosa que necesite automatización o reproducibilidad.
Ruta 2: Autoalojar V4-Flash en tu propia GPU
V4-Flash es la variante con licencia MIT que la mayoría de las personas pueden autoalojar de manera realista. Con un total de 284B y 13B activos, una máquina multi-H100 lo ejecuta en FP8 con un rendimiento serio, y una cuantificación INT4 lo instala en una sola tarjeta de 80GB.
El costo aquí es el hardware, no la licencia. Si ya tienes capacidad de GPU, esta es la ruta gratuita más duradera; no puede ser limitada por tasa, obsoleta o retirada.
Descargar los pesos
pip install -U "huggingface_hub[cli]"
huggingface-cli login
huggingface-cli download deepseek-ai/DeepSeek-V4-Flash \
--local-dir ./models/deepseek-v4-flash
Espera aproximadamente 500GB en FP8. Reserva espacio en disco.
Servir con vLLM
pip install "vllm>=0.9.0"
vllm serve deepseek-ai/DeepSeek-V4-Flash \
--tensor-parallel-size 4 \
--max-model-len 1048576 \
--dtype auto \
--port 8000
Una vez que esté activo, apunta cualquier cliente compatible con OpenAI a http://localhost:8000/v1. El endpoint acepta la misma forma de solicitud que la API de pago de DeepSeek; Apidog lo ve como otra URL base y todas tus colecciones guardadas funcionan sin modificaciones.
Verificación de la realidad del hardware
| Variante | Tarjetas mínimas (FP8) | Tarjetas mínimas (INT4) | Rendimiento realista |
|---|---|---|---|
| V4-Flash | 2 × H100 80GB | 1 × H100 80GB | 50 a 150 tok/s |
| V4-Pro | 16 × H100 80GB | 8 × H100 80GB | dependiente del clúster |
Si no tienes tarjetas inactivas, las cuentas suelen favorecer la API frente al alquiler de GPUs por hora. La ruta autoalojada es principalmente para equipos con capacidad existente o requisitos de cumplimiento estrictos.
Ruta 3: Nivel gratuito de OpenRouter
OpenRouter es una pasarela a nivel de solicitud que agrega modelos de pesos abiertos y cerrados detrás de una única API. La plataforma abre rutinariamente niveles gratuitos en los nuevos lanzamientos de DeepSeek, y el patrón se ha mantenido para V3, V3.1 y V3.2.

Configuración
- Regístrate en openrouter.ai.
- Crea una clave API.
- Consulta el catálogo de modelos para
deepseek/deepseek-v4-proodeepseek/deepseek-v4-flash; las variantes gratuitas suelen tener el sufijo:free. - Llamar con el SDK compatible con OpenAI.
from openai import OpenAI
client = OpenAI(
api_key=OPENROUTER_KEY,
base_url="https://openrouter.ai/api/v1",
)
response = client.chat.completions.create(
model="deepseek/deepseek-v4-flash:free",
messages=[{"role": "user", "content": "Write a Python CLI for semver bumping."}],
)
print(response.choices[0].message.content)
Límites
Los niveles gratuitos en OpenRouter suelen limitar a unos pocos cientos de solicitudes por día por clave y reducen la prioridad bajo carga. Perfecto para prototipos, poco fiable para producción.
Ruta 4: Proveedores de inferencia de Hugging Face
Hugging Face ejecuta una superficie de inferencia alojada que expone puntos de control V4 poco después de su lanzamiento. Los límites de tasa son estrictos y la latencia varía, pero es gratuita de usar.
from huggingface_hub import InferenceClient
client = InferenceClient(model="deepseek-ai/DeepSeek-V4-Flash")
response = client.chat_completion(
messages=[{"role": "user", "content": "Summarize the V4 technical report in 5 bullets."}],
max_tokens=512,
)
print(response.choices[0].message.content)
El token de HF es gratuito. Para un uso más intensivo, actualiza a una cuenta Pro; los límites de tasa se relajan, pero el costo sigue siendo un orden de magnitud inferior al de la API oficial para cargas de trabajo comparables.
Ruta 5: Créditos de prueba en Colab, Kaggle, RunPod y Lambda
Cada proveedor importante de alquiler de GPU ofrece créditos de prueba. Bien usados, cubren experimentos puntuales de V4-Flash sin gastar dinero real.
- Google Colab. El nivel gratuito T4 es demasiado pequeño para V4. Colab Pro+ ofrece 500 unidades de cómputo al mes, suficiente para un puñado de experimentos V4-Flash en una A100.
- Kaggle. Horas de GPU semanales gratuitas en T4 y P100. Demasiado pequeño para V4-Pro, a veces suficiente para experimentos de V4-Flash cuantificado.
- RunPod. Un crédito de prueba de $10 cubre unas pocas horas en una H100. Suficiente para iniciar vLLM, ejecutar un conjunto de pruebas de rendimiento y cerrarlo.
- Lambda. Promociones ocasionales de horas gratuitas en H100 y H200; consulta la página de registro para ver las ofertas activas.
Ninguna de estas son rutas gratuitas a largo plazo. Funcionan bien para un experimento limitado y nada más.
Construye una colección Apidog agnóstica al proveedor
El beneficio práctico de tantas rutas gratuitas es que puedes probar el mismo prompt en todas ellas sin duplicar el trabajo. El flujo de trabajo:
- Descarga Apidog.
- Crea una colección con cuatro entornos:
chat(marcador de posición),deepseek(https://api.deepseek.com/v1),openrouter(https://openrouter.ai/api/v1),self-hosted(http://localhost:8000/v1). - Guarda una única solicitud POST en
{{BASE_URL}}/chat/completions. - Almacena la clave de cada proveedor como una variable secreta para que el cuerpo de la solicitud sea idéntico en todos los entornos.
- Cambia de entorno para hacer pruebas A/B del mismo prompt en cada backend.
Este es el mismo patrón utilizado para la colección del nivel gratuito de GPT-5.5; una herramienta, cada proveedor, sin trabajo duplicado.
¿Qué ruta gratuita deberías elegir?
Cuatro heurísticas cubren la mayoría de las decisiones.
- Quiero formarme una opinión en cinco minutos. Usa chat.deepseek.com.
- Quiero prototipar un producto. Usa el nivel gratuito de OpenRouter hasta que alcances el límite, luego recarga en DeepSeek.
- Tengo GPUs y una necesidad de cumplimiento. Autoalojar V4-Flash en vLLM.
- Necesito uso gratuito a largo plazo. No existe tal cosa. Todo nivel gratuito alojado tiene un límite. Combina chat.deepseek.com para el trabajo interactivo con una recarga de pago modesta para la automatización.
Cuándo dejar el uso gratuito
Tres señales indican que has superado el nivel gratuito.
- Se te aplica un límite de tasa más de una vez al día. Eso significa que la carga de trabajo es lo suficientemente grande como para merecer un presupuesto.
- Necesitas SLAs. Los niveles gratuitos no los incluyen. La API oficial sí.
- Necesitas registrar, auditar o cumplir normativas. La API de pago devuelve registros de facturación claros; la mayoría de los niveles gratuitos de los agregadores no lo hacen.
Cuando ocurra cualquiera de estas situaciones, pasa a la API oficial. La recarga mínima es de $2 y el precio por token es el más bajo en el nivel de frontera.
Preguntas Frecuentes
¿Es chat.deepseek.com realmente gratuito?Sí. Sin tarjeta de crédito, sin reloj de prueba. El servicio tiene un límite suave pero no está bloqueado por un muro de pago.
¿Necesito una cuenta de Hugging Face para descargar los pesos?Técnicamente no, el repositorio es público. Prácticamente sí; una cuenta iniciada te ofrece mejores límites de tasa en la descarga.
¿Qué ruta gratuita ejecuta el verdadero V4-Pro?chat.deepseek.com ejecuta el V4-Pro completo. Los niveles gratuitos de OpenRouter suelen incluir V4-Flash. Si necesitas resultados de V4-Pro y no quieres pagar, el chat web es la ruta fiable.
¿Puedo usar un nivel gratuito para un producto?No de manera responsable. Los niveles gratuitos tienen límites de tasa, cambian los términos y a veces desaparecen. Si estás enviando V4 a clientes, usa la API de pago o autoalójalo.
¿El autoalojamiento es realmente gratuito?La licencia es gratuita. El hardware no. Si ya posees capacidad de GPU, el costo marginal es la electricidad. Si alquilas, las cuentas suelen perder frente a la API de pago.
¿Habrá un nivel gratuito de Apidog para probar?Apidog es gratuito para el diseño y prueba de API; solo cuesta créditos cuando accedes a APIs de pago a través de él. Así que sí, puedes combinar un espacio de trabajo gratuito de Apidog con chat.deepseek.com u OpenRouter para un flujo de trabajo totalmente gratuito.
