Los desarrolladores buscan constantemente IA de vanguardia que equilibre la inteligencia pura con un costo inicial cero. Los modelos Qwen3.5 ofrecen exactamente eso a través de Ollama. Lanzados por Alibaba, estos agentes multimodales de peso abierto establecen nuevos estándares en razonamiento, codificación, visión y uso de herramientas. Los ejecutas instantáneamente a través de las etiquetas de la nube de Ollama, sin descargas masivas ni clústeres de GPU empresariales.
Obtienes acceso inmediato a un modelo MoE híbrido 397B-A17B que activa solo 17B parámetros por pasada. La arquitectura combina la atención lineal Gated DeltaNet con el enrutamiento disperso de mezcla de expertos, ofreciendo un rendimiento 8.6 veces más rápido que el Qwen3-Max anterior con un contexto de 32K y 19 veces más rápido con 256K. Los puntos de referencia confirman su superioridad: MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 y Tool Decathlon 38.3. Por lo tanto, puedes experimentar con agentes nativos de visión-lenguaje y soporte para 201 idiomas en el nivel gratuito de Ollama antes de considerar cualquier actualización de pago.
Esta guía cubre cada detalle técnico que necesitas. Instalarás Ollama, descargarás las etiquetas exactas, interactuarás a través de la CLI y la API, integrarás Apidog para pruebas rigurosas, construirás aplicaciones reales, optimizarás el rendimiento y solucionarás problemas comunes. Al final, desplegarás flujos de trabajo impulsados por qwen3.5 que rivalizan con los gigantes de la nube, pero que se mantienen dentro de los límites de uso gratuito.
Qué Convierte a Qwen3.5 en una Potencia Técnica
Qwen3.5 avanza la serie con un preentrenamiento en corpus multilingües, STEM y de razonamiento enriquecidos bajo un filtrado más estricto. Los ingenieros escalaron el aprendizaje por refuerzo en entornos de millones de agentes, priorizando la dificultad y la generalizabilidad sobre métricas estrechas. El resultado: paridad entre generaciones con modelos que superan 1T parámetros, manteniendo la eficiencia.

La variante insignia —Qwen3.5-397B-A17B— utiliza un mecanismo de atención híbrido. La atención lineal a través de Gated Delta Networks maneja secuencias largas, mientras que el MoE disperso enruta los tokens a expertos especializados. El vocabulario se expande a 250K tokens, aumentando la eficiencia de codificación en un 10–60% en todos los idiomas. El entrenamiento multimodal nativo de fusión temprana fusiona los tokens de texto y visión desde el principio, logrando un 100% de eficiencia de entrenamiento en comparación con los pipelines solo de texto.
En Ollama accedes a dos etiquetas listas para usar:
- qwen3.5:cloud – Solo texto, contexto de 256K, herramientas y modos de pensamiento habilitados.
- qwen3.5:397b-cloud – Soporte completo de visión-lenguaje, procesa imágenes y documentos junto con texto.
Ambos exponen el pensamiento (cadena de pensamiento), herramientas (búsqueda web, intérprete de código) y comportamientos agénticos de fábrica. Por lo tanto, puedes alternar entre respuestas rápidas y razonamiento profundo con un solo parámetro.

Los puntos de referencia hablan por sí solos. En codificación, Qwen3.5 obtiene 76.4 en SWE-bench Verified y 83.6 en LiveCodeBench v6. En matemáticas, alcanza 91.3 en AIME26 y 94.8 en HMMT. Las tareas de visión llegan a 93.1 en OCRBench y 88.6 en MathVision. Las métricas de agente incluyen 72.9 en BFCL-V4 y 86.7 en TAU2-Bench. La cobertura multilingüe abarca 201 idiomas con las mejores puntuaciones en MMMLU (88.5) y WMT24++ (78.9). Accedes a este rendimiento a través de un simple comando ollama run en el nivel gratuito.
Por Qué Ollama Ofrece Acceso Gratuito a Qwen3.5
Ollama abstrae la gestión de modelos en un único binario. Ejecutas los mismos comandos tanto si los pesos están en tu disco como en la infraestructura de la nube de Ollama. El plan gratuito permite un uso ligero de los modelos en la nube, perfecto para exploración, prototipos y cargas de trabajo moderadas. Por lo tanto, evitas el tamaño bruto de 807 GB del modelo completo de 397B y comienzas a hacer prompts en segundos.

Los modelos locales permanecen ilimitados una vez descargados, pero para qwen3.5 las etiquetas oficiales se dirigen a Ollama Cloud. Las importaciones de la comunidad como frob/qwen3.5 (GGUF quants) te permiten ejecutar versiones cuantificadas localmente si posees suficiente RAM (214 GB+ para MXFP4 de 4 bits). Eliges la ruta que coincida con tu hardware y patrón de uso. Ollama maneja el enrutamiento de forma transparente.
Además, Ollama expone una API REST compatible con OpenAI en el puerto 11434. Integras qwen3.5 en cualquier lenguaje o framework sin cambiar el código del cliente. Apidog hace que esa integración sea a prueba de balas permitiéndote simular respuestas, validar esquemas y generar colecciones de prueba automáticamente.
Requisitos del Sistema y Prerrequisitos
Las etiquetas de la nube imponen requisitos locales casi nulos. Solo necesitas:
- 8 GB de RAM (16 GB recomendados)
- Conexión a internet estable (la inferencia ocurre de forma remota)
- Ollama 0.5.0 o posterior
Para ejecuciones locales de GGUF de la comunidad, debes calcular cuidadosamente las necesidades de VRAM. La cuantificación MXFP4 de 4 bits de la variante 397B-A17B ocupa aproximadamente 214 GB de disco y necesita ~256 GB de RAM del sistema con descarga MoE para más de 25 tokens/s en Macs de gama alta. Las variantes densas más pequeñas de series Qwen anteriores (si se portan) escalan linealmente. Por lo tanto, empiezas con las etiquetas de la nube y pasas a las cuantificaciones locales solo cuando requieres operación sin conexión o un mayor rendimiento.
También instalas Git y un editor de código. Apidog se ejecuta en Windows, macOS y Linux; descarga la aplicación de escritorio para un mejor rendimiento.
Instalando Ollama en Todas las Plataformas
Instalas Ollama con un solo comando en cada sistema operativo principal.
macOS
brew install ollama
Luego inicia:
ollama serve
Windows
Descarga el instalador desde ollama.com y ejecútalo. Ollama se inicia automáticamente. Abre PowerShell y escribe:
ollama serve
Linux
curl -fsSL https://ollama.com/install.sh | sh
ollama serve
Verificas la instalación con:
ollama --version
Esperas una salida que muestre la última compilación. Si el servicio no se inicia, verifica la disponibilidad del puerto 11434 y las reglas del firewall. Ahora controlas un tiempo de ejecución LLM completo.
Descargando y Ejecutando Modelos Qwen3.5
Descargas el modelo con un solo comando. Ollama descarga solo los metadatos para las etiquetas de la nube y enruta la inferencia de forma remota.
ollama pull qwen3.5:cloud
Para capacidades de visión:
ollama pull qwen3.5:397b-cloud
Lanzas una sesión interactiva:
ollama run qwen3.5:cloud
Aparece el prompt. Escribe:
Explain the hybrid MoE architecture of Qwen3.5 in technical detail.
Qwen3.5 responde con explicaciones precisas de Gated DeltaNet, enrutamiento disperso de expertos y predicción de múltiples tokens. Sales con /bye.
Para ejecutar en segundo plano para uso de API:
ollama serve
Luego, en otra terminal, mantienes el modelo activo con:
ollama run qwen3.5:cloud --keep-alive 24h
Interacción por Línea de Comandos y Modelfiles
Personalizas el comportamiento con Modelfiles. Crea un archivo llamado Modelfile:
FROM qwen3.5:cloud
SYSTEM """
You are an expert systems architect. Always respond with step-by-step reasoning, code examples, and performance calculations.
"""
PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95
Creas el modelo personalizado:
ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect
Ahora posees un asistente especializado adaptado para la documentación técnica y las revisiones de arquitectura. Repites el proceso para agentes de codificación, análisis de visión o traducción multilingüe.
Aprovechando la API REST de Ollama
Ollama expone potentes puntos finales. Envías finalizaciones de chat con:
curl http://localhost:11434/api/chat -d '{
"model": "qwen3.5:cloud",
"messages": [
{ "role": "system", "content": "You are a helpful coding assistant." },
{ "role": "user", "content": "Write a FastAPI endpoint that calls qwen3.5 for sentiment analysis." }
],
"stream": false,
"options": {
"temperature": 0.2,
"num_predict": 2048
}
}'
Recibes una respuesta JSON completa que contiene message.content, total_duration y el recuento de tokens. Habilitas el streaming configurando "stream": true y procesas eventos enviados por el servidor en tiempo real.
Para embeddings:
curl http://localhost:11434/api/embeddings -d '{
"model": "qwen3.5:cloud",
"prompt": "Technical documentation on hybrid MoE models"
}'
Por lo tanto, construyes pipelines RAG, búsqueda semántica y capas de clasificación alrededor de qwen3.5.
Probando y Depurando con Apidog
Abres Apidog y creas un nuevo proyecto llamado “Ollama Qwen3.5”. Establece la URL base en http://localhost:11434/api.

Añades el punto final /chat:
- Método: POST
- Esquema del cuerpo de la solicitud: define
model, arreglo demessages, objeto deoptions - Esquema de respuesta: captura
message,done, campos de tiempo
Importas la especificación OpenAPI oficial de Ollama si está disponible o construyes colecciones manualmente. Apidog autogenera casos de prueba, valida esquemas JSON y soporta variables de entorno para alternar entre qwen3.5:cloud y Modelfiles personalizados.
Creas una colección “Vision Tasks” y pruebas la entrada multimodal:
{
"model": "qwen3.5:397b-cloud",
"messages": [
{
"role": "user",
"content": [
{ "type": "text", "text": "Describe this diagram in detail." },
{ "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
]
}
]
}
Apidog muestra la vista previa de la imagen, envía la solicitud y te permite inspeccionar el uso de tokens, la latencia y los rastros de razonamiento. Guardas aserciones para un tiempo de respuesta < 5s y la presencia de términos técnicos. Exportas la colección como documentación Markdown o la compartes con tu equipo.
Por lo tanto, eliminas las conjeturas. Cada parámetro, cada campo de respuesta y cada error se vuelve visible y repetible. Pequeños refinamientos en Apidog, como añadir scripts previos a la solicitud para calentar el modelo, se traducen en una fiabilidad de grado de producción.
Creando Aplicaciones Reales con Qwen3.5 y Ollama
Integras qwen3.5 en aplicaciones Python usando el cliente oficial:
import ollama
from fastapi import FastAPI
app = FastAPI()
@app.post("/analyze")
async def analyze_code(request: dict):
response = ollama.chat(
model='qwen3.5:cloud',
messages=[{'role': 'user', 'content': request['code']}],
options={'temperature': 0.1}
)
return {"analysis": response['message']['content']}
Expones este punto final, añades limitación de velocidad y monitoreas el consumo de tokens a través de Apidog.
Para Node.js utilizas el paquete npm de Ollama y transmites respuestas a frontends de React. Implementas la llamada a herramientas definiendo funciones en la solicitud y analizando tool_calls de la salida del modelo. Qwen3.5 soporta de forma nativa el uso adaptativo de herramientas, por lo que encadenas búsquedas web, ejecución de código y análisis de archivos en agentes autónomos.
Containerizas toda la pila con Docker Compose:
services:
ollama:
image: ollama/ollama
ports:
- "11434:11434"
apidog-tests:
image: your-test-image
depends_on:
- ollama
Por lo tanto, despliegas entornos consistentes en desarrollo, staging y producción.
Funciones Avanzadas: Uso de Herramientas, Visión y Contexto Largo
Activas el modo de pensamiento incluyendo enable_thinking: true en clientes compatibles o solicitándolo explícitamente. El modelo genera etiquetas <thinking> antes de las respuestas finales, lo que te da visibilidad sobre su cadena de razonamiento.
Para la visión, envías imágenes o URLs en base64. La etiqueta 397b-cloud procesa gráficos, capturas de pantalla de código y documentos con una precisión de 85.0 MMMU. Por lo tanto, construyes pipelines de comprensión de documentos que extraen tablas, diagramas y notas escritas a mano.
El manejo de contexto largo alcanza los 256K tokens en Ollama. Puedes alimentar bases de código enteras o documentos de investigación y pedir resúmenes, análisis de diferencias o refactorización arquitectónica. Monitoreas el uso del contexto con el campo context en las respuestas e implementas estrategias de ventana deslizante cuando te acercas a los límites.
Optimización del Rendimiento y Resolución de Problemas
Mantienes los modelos activos con --keep-alive. Reduces la latencia configurando un num_predict más bajo para tareas simples y más alto para razonamientos complejos.
Problemas comunes y soluciones:
- Límite de tasa en el nivel gratuito: Monitoreas el uso en el panel de control de Ollama y cambias a prompts más ligeros o a solicitudes por lotes.
- Conexión rechazada: Confirmas que
ollama servese está ejecutando y que el puerto 11434 está escuchando. - Respuestas lentas: Añades
options: { "num_gpu": 999 }para forzar la máxima aceleración. - Errores de visión: Verificas la codificación base64 y los límites de tamaño de imagen.
Registras cada llamada a la API a través de Apidog para identificar rápidamente los cuellos de botella. Por lo tanto, mantienes un alto tiempo de actividad incluso en el plan gratuito.
Conclusión
Ahora posees una hoja de ruta técnica completa para usar los modelos qwen3.5 de forma gratuita con Ollama. Instalaste el tiempo de ejecución, descargaste las etiquetas de la nube, dominaste las interacciones de CLI y API, potenciado las pruebas con Apidog, construiste aplicaciones de producción y las optimizaste para cargas de trabajo reales. Cada paso aprovecha comandos activos, parámetros precisos y resultados medibles.
Pequeñas acciones —descargar Apidog, crear un Modelfile o añadir una sola aserción— se acumulan en una productividad transformadora. Experimenta hoy mismo con agentes multimodales de vanguardia sin tarjetas de crédito ni tickets de infraestructura. El nivel gratuito de Ollama elimina todas las barreras.
