Cómo Usar Qwen 3.5 con Ollama: Guía Paso a Paso

Ashley Innocent

Ashley Innocent

3 March 2026

Cómo Usar Qwen 3.5 con Ollama: Guía Paso a Paso

Apidog para empresas

Despliegue local

SSO & RBAC

Conforme con SOC 2

Explorar Apidog Enterprise

En resumen

Ollama proporciona la forma más sencilla de ejecutar modelos pequeños de Qwen 3.5 (0.8B, 2B, 4B y 9B) localmente en su máquina Mac, Linux o Windows. Con un simple comando ollama run, puede acceder a funciones de IA capaces sin los costos de la API en la nube. Descargue Ollama, obtenga un modelo y comience a chatear en menos de 5 minutos.

imagen-30.png

Introducción

Ejecutar modelos de lenguaje grandes localmente se ha vuelto muy popular, y Ollama lo hace sencillo. Si desea utilizar los modelos Qwen 3.5 de Alibaba sin enviar datos a la nube o pagar tarifas por token, Ollama es la respuesta.

💡
Al desarrollar aplicaciones que llaman a LLMs locales como Qwen 3.5 a través de la API de Ollama, necesitará una forma confiable de probar y validar las respuestas. Las herramientas de prueba de API de Apidog le permiten configurar pruebas automatizadas para sus puntos finales de la API de Ollama, asegurando que las respuestas sean correctas y cumplan con sus expectativas. Cree aserciones de prueba para el tiempo de respuesta, la estructura del contenido y el manejo de errores; salte a la sección de la API de Ollama para ver cómo probar su configuración.
botón

Esta guía le explica todo lo que necesita saber sobre cómo ejecutar modelos pequeños de Qwen 3.5 con Ollama. Ya sea que necesite el modelo compacto 0.8B para tareas rápidas o el modelo más grande 9B para un razonamiento complejo, cubriremos la instalación, el uso y la integración.

Por qué usar Ollama para Qwen 3.5

Ollama se ha convertido en la solución preferida para la implementación local de LLM:

Configuración sencilla
Sin configuraciones complejas de Docker o Python. Descargue una aplicación y estará listo.

Privacidad primero
Sus datos permanecen en su máquina. Esto es importante para datos comerciales o cualquier información sensible.

Sin costos de API
Después de descargar los modelos, ejecutarlos es gratis. Sin tarifas por token ni suscripciones.

Capacidad sin conexión
Utilice la IA en cualquier lugar, incluso sin internet.

Aceleración de hardware
Ollama utiliza automáticamente la aceleración de GPU cuando está disponible, lo que hace que la inferencia local sea rápida.

Instalación de Ollama

Instalación en Mac

Si tiene un Mac, la instalación tarda segundos:

# Descargar desde ollama.com o usar Homebrew
brew install ollama

Eso es todo. Ollama detectará automáticamente Apple Silicon (M1/M2/M3) y utilizará Metal para la aceleración de GPU.

Instalación en Linux

Para servidores Linux o WSL:

# Instalación rápida
curl -fsSL https://ollama.com/install.sh | sh

Instalación en Windows

Los usuarios de Windows pueden descargar el instalador. La versión de Windows admite la aceleración de GPU a través de DirectML.

imagen-32.png

Verificación

Después de la instalación, verifique que todo funcione:

ollama --version

Debería ver el número de versión. Ahora vamos a obtener algunos modelos Qwen.

Ejecución de modelos Qwen 3.5

Obteniendo su primer modelo

Ollama simplifica la descarga de modelos:

9B: 
ollama run qwen3.5:9b

4B: 
ollama run qwen3.5:4b 

2B: 
ollama run qwen3.5:2b 

0.8B
ollama run qwen3.5:0.8b

Cada descarga de modelo tarda unos minutos dependiendo de la velocidad de su internet. El modelo 2B tiene un tamaño de alrededor de 1.5GB, mientras que el modelo 9B es de aproximadamente 5GB.

Iniciando una sesión de chat

Una vez obtenido, comience a chatear inmediatamente:

ollama run qwen3.5:9b

Verá un indicador donde puede escribir directamente:

>>> ¿Qué es la computación cuántica en términos sencillos?
La computación cuántica es un tipo de computación donde...

Escriba sus preguntas y presione Enter. Presione Ctrl+D para salir.

Listando modelos disponibles

Vea lo que tiene instalado:

ollama list

La salida muestra cada modelo, su tamaño y la última vez que lo usó.

Eliminando modelos

Libere espacio en disco eliminando los modelos que no necesite:

ollama remove qwen3.5:9b

Comparación y selección de modelos

Elegir el modelo correcto depende de su hardware y caso de uso:

Modelo Parámetros Tamaño aprox. del modelo (BF16, precisión completa) RAM necesaria (BF16, guía Unsloth) Mejor para
Qwen3.5-0.8B 0.8B ~1.6 GB ~9 GB Edge y móvil ultraligero: autocompletado rápido, chatbots simples, herramientas pequeñas, visión/OCR básico en dispositivos de muy gama baja.
Qwen3.5-2B 2B ~4 GB ~9 GB Asistentes ligeros, agentes pequeños, ayuda básica para codificación, multimodal decente en laptops con RAM modesta.
Qwen3.5-4B 4B ~8 GB ~14 GB Asistente de desarrollo de "autocompletado inteligente", agentes ligeros, mejor razonamiento y multimodal que 2B, mientras sigue siendo fácil de ejecutar localmente.
Qwen3.5-9B 9B ~18 GB ~19 GB Asistente general potente, buen multilingüe + visión, utilizable como IA local principal en una máquina con 16–24 GB de RAM/VRAM.

Recomendación para la mayoría de los usuarios: Comience con qwen2.5:2b. Ofrece el mejor equilibrio entre capacidad y velocidad. Actualice a 4B o 9B solo si necesita mayor capacidad de razonamiento.

API de Ollama para desarrolladores

Ollama ejecuta un servidor API local al que sus aplicaciones pueden llamar. Esto es perfecto para integrar Qwen 3.5 en sus proyectos.

Iniciando el servidor API

Ollama se ejecuta como un servicio en segundo plano por defecto. La API está disponible en:

http://localhost:11434

Completado de chat básico

Envíe solicitudes al punto final de chat:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "qwen3.5:0.8b",
    "messages": [
      {"role": "user", "content": "¿Qué es Python?"}
    ],
    "stream": false
  }'

Respuesta:

imagen-34.png

Respuestas en streaming

Para salida en tiempo real, habilite el streaming:

curl http://localhost:11434/api/chat \
  -d '{
    "model": "Qwen3.5-9B",
    "messages": [{"role": "user", "content": "Cuenta hasta 5"}],
    "stream": true
  }'

Esto transmite tokens a medida que se generan.

Punto final de generación

Para prompts que no son de chat:

curl http://localhost:11434/api/generate \
  -d '{
    "model": "qwen3.5:0.8b",
    "prompt": "Escribe un haiku sobre programación",
    "stream": false
  }'

Integración con sus aplicaciones

Integración con Python

import requests

url = "http://localhost:11434/api/chat"
payload = {
    "model": "qwen3.5:0.8b",
    "messages": [
        {"role": "user", "content": "Explica la recursividad"}
    ],
    "stream": False
}

response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])

Integración con JavaScript/Node.js

const response = await fetch('http://localhost:11434/api/chat', {
  method: 'POST',
  headers: {'Content-Type': 'application/json'},
  body: JSON.stringify({
    model: "qwen3.5:0.8b",
    messages: [{role: 'user', content: '¿Qué es una API?'}]
  })
});

const data = await response.json();
console.log(data.message.content);

Probando su integración con Apidog

Al crear aplicaciones que llaman a Ollama, utilice herramientas de prueba de API para validar las respuestas. Así es como puede probar su API de Ollama con Apidog:

  1. Cree una nueva solicitud POST a http://localhost:11434/api/chat
  2. Establezca Content-Type en application/json
  3. Agregue el cuerpo de la solicitud:
{
  "model": "qwen3.5:0.8b",
  "messages": [{"role": "user", "content": "Hola"}],
  "stream": false
}
imagen-33.png

Apidog le permite crear casos de prueba automatizados que validan la calidad de la respuesta, prueban diferentes prompts y monitorean sus puntos finales de LLM locales. Esto asegura que su integración funcione de manera confiable en producción.

Rendimiento y requisitos de hardware

Aceleración de GPU

Ollama usa automáticamente la GPU cuando está disponible:

Rendimiento esperado

Modelo GPU Tokens/seg (aprox)
0.8B M1/M2 40-50
2B M1/M2 20-30
4B M1/M2 10-15
9B M3 Max 15-20

La inferencia solo con CPU será significativamente más lenta (5-10 veces).

Requisitos de memoria

RAM mínima por modelo:

Tener más RAM de la mínima ayuda con la capacidad de respuesta.

Solución de problemas comunes

"Ollama no encontrado"

Asegúrese de que Ollama esté en su PATH. En Mac/Linux, reinicie su terminal después de la instalación.

Rendimiento lento

  1. Verifique si se está utilizando la GPU: ollama list muestra información del modelo
  2. Solo para CPU: espere velocidades más lentas
  3. Cierre otras aplicaciones de GPU

Fallo en la descarga del modelo

Intente de nuevo con una conexión a internet más rápida. Si usa una VPN, intente sin ella.

Conexión API rechazada

Asegúrese de que Ollama esté en ejecución: ollama serve (normalmente se ejecuta automáticamente)

Sin memoria

Use un modelo más pequeño. El modelo 9B necesita una RAM significativa. Cierre otras aplicaciones.

Conclusión

Ollama simplifica la ejecución de modelos Qwen 3.5 localmente. Ya sea que sea un desarrollador que crea aplicaciones de IA o simplemente quiera experimentar con LLMs locales, el proceso lleva minutos en lugar de horas.

La combinación de las sólidas capacidades multilingües de Qwen 3.5 y la sencilla interfaz de Ollama convierte a esta en una de las formas más fáciles de comenzar con la IA local.

Próximos pasos: Una vez que haya configurado su API de Ollama, use Apidog para crear casos de prueba automatizados que validen la calidad de la respuesta, prueben diferentes prompts y monitoreen sus puntos finales de LLM locales. Comience con Apidog gratis.

botón

Preguntas frecuentes

¿Cuál es la diferencia entre Ollama y otros métodos de implementación?

Ollama está diseñado para la simplicidad. A diferencia de Docker o la implementación manual de modelos, maneja todo (descarga de modelos, aceleración de GPU, servicio de API) con comandos sencillos.

¿Puedo usar Ollama con otros modelos Qwen?

Sí, Ollama admite muchos modelos. Consulte ollama.com/library para ver la lista completa.

¿Cómo actualizo los modelos Qwen en Ollama?

Obtenga la última versión: ollama pull qwen2.5:2b. Esto descarga actualizaciones si están disponibles.

¿Puedo ejecutar varios modelos a la vez?

Sí, pero cada modelo utiliza memoria. La mayoría de los sistemas pueden ejecutar 1-2 modelos simultáneamente.

¿Están seguros mis datos con Ollama?

Sí. Todo se ejecuta localmente. No se envían datos a servidores externos.

¿Puedo ajustar los modelos Qwen usando Ollama?

Ollama es solo para inferencia. Para el ajuste fino, necesitará otras herramientas como adaptadores LoRA.

¿Cómo cambio el puerto que usa Ollama?

Establezca la variable de entorno OLLAMA_HOST antes de ejecutar: export OLLAMA_HOST=0.0.0.0:8080

Practica el diseño de API en Apidog

Descubre una forma más fácil de construir y usar APIs