En resumen
Ollama proporciona la forma más sencilla de ejecutar modelos pequeños de Qwen 3.5 (0.8B, 2B, 4B y 9B) localmente en su máquina Mac, Linux o Windows. Con un simple comando ollama run, puede acceder a funciones de IA capaces sin los costos de la API en la nube. Descargue Ollama, obtenga un modelo y comience a chatear en menos de 5 minutos.

Introducción
Ejecutar modelos de lenguaje grandes localmente se ha vuelto muy popular, y Ollama lo hace sencillo. Si desea utilizar los modelos Qwen 3.5 de Alibaba sin enviar datos a la nube o pagar tarifas por token, Ollama es la respuesta.
Esta guía le explica todo lo que necesita saber sobre cómo ejecutar modelos pequeños de Qwen 3.5 con Ollama. Ya sea que necesite el modelo compacto 0.8B para tareas rápidas o el modelo más grande 9B para un razonamiento complejo, cubriremos la instalación, el uso y la integración.
Por qué usar Ollama para Qwen 3.5
Ollama se ha convertido en la solución preferida para la implementación local de LLM:
Configuración sencilla
Sin configuraciones complejas de Docker o Python. Descargue una aplicación y estará listo.
Privacidad primero
Sus datos permanecen en su máquina. Esto es importante para datos comerciales o cualquier información sensible.
Sin costos de API
Después de descargar los modelos, ejecutarlos es gratis. Sin tarifas por token ni suscripciones.
Capacidad sin conexión
Utilice la IA en cualquier lugar, incluso sin internet.
Aceleración de hardware
Ollama utiliza automáticamente la aceleración de GPU cuando está disponible, lo que hace que la inferencia local sea rápida.
Instalación de Ollama
Instalación en Mac
Si tiene un Mac, la instalación tarda segundos:
# Descargar desde ollama.com o usar Homebrew
brew install ollama
Eso es todo. Ollama detectará automáticamente Apple Silicon (M1/M2/M3) y utilizará Metal para la aceleración de GPU.
Instalación en Linux
Para servidores Linux o WSL:
# Instalación rápida
curl -fsSL https://ollama.com/install.sh | sh
Instalación en Windows
Los usuarios de Windows pueden descargar el instalador. La versión de Windows admite la aceleración de GPU a través de DirectML.

Verificación
Después de la instalación, verifique que todo funcione:
ollama --version
Debería ver el número de versión. Ahora vamos a obtener algunos modelos Qwen.
Ejecución de modelos Qwen 3.5
Obteniendo su primer modelo
Ollama simplifica la descarga de modelos:
9B:
ollama run qwen3.5:9b
4B:
ollama run qwen3.5:4b
2B:
ollama run qwen3.5:2b
0.8B
ollama run qwen3.5:0.8bCada descarga de modelo tarda unos minutos dependiendo de la velocidad de su internet. El modelo 2B tiene un tamaño de alrededor de 1.5GB, mientras que el modelo 9B es de aproximadamente 5GB.
Iniciando una sesión de chat
Una vez obtenido, comience a chatear inmediatamente:
ollama run qwen3.5:9b
Verá un indicador donde puede escribir directamente:
>>> ¿Qué es la computación cuántica en términos sencillos?
La computación cuántica es un tipo de computación donde...
Escriba sus preguntas y presione Enter. Presione Ctrl+D para salir.
Listando modelos disponibles
Vea lo que tiene instalado:
ollama list
La salida muestra cada modelo, su tamaño y la última vez que lo usó.
Eliminando modelos
Libere espacio en disco eliminando los modelos que no necesite:
ollama remove qwen3.5:9b
Comparación y selección de modelos
Elegir el modelo correcto depende de su hardware y caso de uso:
| Modelo | Parámetros | Tamaño aprox. del modelo (BF16, precisión completa) | RAM necesaria (BF16, guía Unsloth) | Mejor para |
|---|---|---|---|---|
| Qwen3.5-0.8B | 0.8B | ~1.6 GB | ~9 GB | Edge y móvil ultraligero: autocompletado rápido, chatbots simples, herramientas pequeñas, visión/OCR básico en dispositivos de muy gama baja. |
| Qwen3.5-2B | 2B | ~4 GB | ~9 GB | Asistentes ligeros, agentes pequeños, ayuda básica para codificación, multimodal decente en laptops con RAM modesta. |
| Qwen3.5-4B | 4B | ~8 GB | ~14 GB | Asistente de desarrollo de "autocompletado inteligente", agentes ligeros, mejor razonamiento y multimodal que 2B, mientras sigue siendo fácil de ejecutar localmente. |
| Qwen3.5-9B | 9B | ~18 GB | ~19 GB | Asistente general potente, buen multilingüe + visión, utilizable como IA local principal en una máquina con 16–24 GB de RAM/VRAM. |
Recomendación para la mayoría de los usuarios: Comience con qwen2.5:2b. Ofrece el mejor equilibrio entre capacidad y velocidad. Actualice a 4B o 9B solo si necesita mayor capacidad de razonamiento.
API de Ollama para desarrolladores
Ollama ejecuta un servidor API local al que sus aplicaciones pueden llamar. Esto es perfecto para integrar Qwen 3.5 en sus proyectos.
Iniciando el servidor API
Ollama se ejecuta como un servicio en segundo plano por defecto. La API está disponible en:
http://localhost:11434
Completado de chat básico
Envíe solicitudes al punto final de chat:
curl http://localhost:11434/api/chat \
-d '{
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "¿Qué es Python?"}
],
"stream": false
}'
Respuesta:

Respuestas en streaming
Para salida en tiempo real, habilite el streaming:
curl http://localhost:11434/api/chat \
-d '{
"model": "Qwen3.5-9B",
"messages": [{"role": "user", "content": "Cuenta hasta 5"}],
"stream": true
}'
Esto transmite tokens a medida que se generan.
Punto final de generación
Para prompts que no son de chat:
curl http://localhost:11434/api/generate \
-d '{
"model": "qwen3.5:0.8b",
"prompt": "Escribe un haiku sobre programación",
"stream": false
}'
Integración con sus aplicaciones
Integración con Python
import requests
url = "http://localhost:11434/api/chat"
payload = {
"model": "qwen3.5:0.8b",
"messages": [
{"role": "user", "content": "Explica la recursividad"}
],
"stream": False
}
response = requests.post(url, json=payload)
result = response.json()
print(result["message"]["content"])
Integración con JavaScript/Node.js
const response = await fetch('http://localhost:11434/api/chat', {
method: 'POST',
headers: {'Content-Type': 'application/json'},
body: JSON.stringify({
model: "qwen3.5:0.8b",
messages: [{role: 'user', content: '¿Qué es una API?'}]
})
});
const data = await response.json();
console.log(data.message.content);
Probando su integración con Apidog
Al crear aplicaciones que llaman a Ollama, utilice herramientas de prueba de API para validar las respuestas. Así es como puede probar su API de Ollama con Apidog:
- Cree una nueva solicitud POST a
http://localhost:11434/api/chat - Establezca Content-Type en
application/json - Agregue el cuerpo de la solicitud:
{
"model": "qwen3.5:0.8b",
"messages": [{"role": "user", "content": "Hola"}],
"stream": false
}
Apidog le permite crear casos de prueba automatizados que validan la calidad de la respuesta, prueban diferentes prompts y monitorean sus puntos finales de LLM locales. Esto asegura que su integración funcione de manera confiable en producción.
Rendimiento y requisitos de hardware
Aceleración de GPU
Ollama usa automáticamente la GPU cuando está disponible:
- Apple Silicon (M1/M2/M3): Usa Metal, muy eficiente
- GPUs NVIDIA: Usa CUDA, excelente rendimiento
- GPUs AMD: Usa ROCm en Linux
- Solo CPU: Funciona, pero más lento
Rendimiento esperado
| Modelo | GPU | Tokens/seg (aprox) |
|---|---|---|
| 0.8B | M1/M2 | 40-50 |
| 2B | M1/M2 | 20-30 |
| 4B | M1/M2 | 10-15 |
| 9B | M3 Max | 15-20 |
La inferencia solo con CPU será significativamente más lenta (5-10 veces).
Requisitos de memoria
RAM mínima por modelo:
- 0.8B: 2GB de RAM disponible
- 2B: 4GB de RAM disponible
- 4B: 8GB de RAM disponible
- 9B: 16GB de RAM disponible
Tener más RAM de la mínima ayuda con la capacidad de respuesta.
Solución de problemas comunes
"Ollama no encontrado"
Asegúrese de que Ollama esté en su PATH. En Mac/Linux, reinicie su terminal después de la instalación.
Rendimiento lento
- Verifique si se está utilizando la GPU:
ollama listmuestra información del modelo - Solo para CPU: espere velocidades más lentas
- Cierre otras aplicaciones de GPU
Fallo en la descarga del modelo
Intente de nuevo con una conexión a internet más rápida. Si usa una VPN, intente sin ella.
Conexión API rechazada
Asegúrese de que Ollama esté en ejecución: ollama serve (normalmente se ejecuta automáticamente)
Sin memoria
Use un modelo más pequeño. El modelo 9B necesita una RAM significativa. Cierre otras aplicaciones.
Conclusión
Ollama simplifica la ejecución de modelos Qwen 3.5 localmente. Ya sea que sea un desarrollador que crea aplicaciones de IA o simplemente quiera experimentar con LLMs locales, el proceso lleva minutos en lugar de horas.
La combinación de las sólidas capacidades multilingües de Qwen 3.5 y la sencilla interfaz de Ollama convierte a esta en una de las formas más fáciles de comenzar con la IA local.
Próximos pasos: Una vez que haya configurado su API de Ollama, use Apidog para crear casos de prueba automatizados que validen la calidad de la respuesta, prueben diferentes prompts y monitoreen sus puntos finales de LLM locales. Comience con Apidog gratis.
Preguntas frecuentes
¿Cuál es la diferencia entre Ollama y otros métodos de implementación?
Ollama está diseñado para la simplicidad. A diferencia de Docker o la implementación manual de modelos, maneja todo (descarga de modelos, aceleración de GPU, servicio de API) con comandos sencillos.
¿Puedo usar Ollama con otros modelos Qwen?
Sí, Ollama admite muchos modelos. Consulte ollama.com/library para ver la lista completa.
¿Cómo actualizo los modelos Qwen en Ollama?
Obtenga la última versión: ollama pull qwen2.5:2b. Esto descarga actualizaciones si están disponibles.
¿Puedo ejecutar varios modelos a la vez?
Sí, pero cada modelo utiliza memoria. La mayoría de los sistemas pueden ejecutar 1-2 modelos simultáneamente.
¿Están seguros mis datos con Ollama?
Sí. Todo se ejecuta localmente. No se envían datos a servidores externos.
¿Puedo ajustar los modelos Qwen usando Ollama?
Ollama es solo para inferencia. Para el ajuste fino, necesitará otras herramientas como adaptadores LoRA.
¿Cómo cambio el puerto que usa Ollama?
Establezca la variable de entorno OLLAMA_HOST antes de ejecutar: export OLLAMA_HOST=0.0.0.0:8080
