Introducción
Los Mac con Apple Silicon han cambiado el despliegue local de modelos de IA, ofreciendo una potencia computacional sin precedentes en hardware de consumo. Con el lanzamiento de Deepseek V3 0323, un potente modelo de lenguaje grande (LLM), los usuarios de Mac ahora pueden ejecutar modelos de IA de última generación localmente utilizando MLX, el marco de aprendizaje automático de Apple específicamente optimizado para Apple Silicon. Esta guía completa te guía a través de todo el proceso de configuración y ejecución de Deepseek V3 0323 en tu Mac, con benchmarks de rendimiento y comparaciones con otros modelos líderes como Claude Sonnet 3.7.

¿Qué es Deepseek V3 0323?

Deepseek V3 0323 es parte de la familia de modelos Deepseek V3, una serie de modelos de lenguaje grandes avanzados desarrollados por el laboratorio chino de IA DeepSeek. El modelo representa una capacidad de IA de vanguardia con un sólido rendimiento en diversas tareas de lenguaje, generación de código, razonamiento y creación de contenido creativo. El "0323" en el nombre indica su fecha de lanzamiento (23 de marzo), siguiendo la convención de DeepSeek de incluir las fechas de lanzamiento en los nombres de los modelos.

Los últimos modelos de la familia Deepseek V3 son impresionantemente potentes y se han lanzado bajo la licencia MIT, lo que los hace totalmente de código abierto y disponibles tanto para uso personal como comercial. Esto representa un cambio significativo con respecto a las versiones anteriores que tenían restricciones de licencia personalizadas.
Benchmarks y rendimiento de Deepseek V3 0304
La familia de modelos Deepseek V3 ha mostrado resultados de benchmark impresionantes en varias métricas. Mirando específicamente a Deepseek V3 0304 (la versión anterior a 0323), los datos de rendimiento muestran que iguala o supera a muchas alternativas comerciales.

Resultados clave de los benchmarks
Según las pruebas independientes y la información de Paul Gauthier, Deepseek V3 obtuvo un 55% en el benchmark políglota aider, mejorando significativamente con respecto a las versiones anteriores. Esto lo posiciona como el modelo número 2 sin pensamiento/razonamiento, solo por detrás de Claude Sonnet 3.7.
En términos de rendimiento práctico, los modelos Deepseek V3 demuestran:
- Fuertes capacidades de razonamiento: Excelente rendimiento en problemas complejos que requieren pensamiento de varios pasos
- Excelencia en la generación de código: Particularmente fuerte en tareas de programación políglota
- Seguimiento de instrucciones: Alta adherencia a instrucciones específicas
- Retención de contexto: Uso eficaz del contexto proporcionado para respuestas precisas
- Precisión del conocimiento: Información fáctica fiable con mínimas alucinaciones
Deepseek V3 vs Claude 3.7 Sonnet vs Claude 3.7 Sonnet Thinking vs o3-mini
Al comparar Deepseek V3 0304 con Claude Sonnet 3.7:

Si bien Claude Sonnet 3.7 supera en algunos benchmarks, la capacidad de Deepseek V3 para ejecutarse localmente en hardware de consumo con MLX representa una ventaja significativa para los usuarios que priorizan la privacidad, el acceso sin conexión y la eficiencia de costes.
Sí, puedes ejecutar Deepseek V3 0324 en Mac Studio con MLX
The new Deep Seek V3 0324 in 4-bit runs at > 20 toks/sec on a 512GB M3 Ultra with mlx-lm! pic.twitter.com/wFVrFCxGS6
— Awni Hannun (@awnihannun) March 24, 2025
Ejecutar Deepseek V3 en tu máquina local con MLX ofrece varias ventajas clave:
- Privacidad: Tus datos nunca salen de tu dispositivo, lo que garantiza una privacidad total
- Sin costes de API: Evita pagar por el uso de la API y los límites de tokens
- Control total: Personaliza la configuración y afina según sea necesario
- Sin dependencia de Internet: Utiliza el modelo sin conexión
- Baja latencia: Experimenta tiempos de respuesta más rápidos sin retrasos en la red
- Optimización de Apple Silicon: MLX está diseñado específicamente para aprovechar el Neural Engine en los chips de la serie M
Requisitos de hardware para ejecutar Deepseek V3 0323 localmente
Antes de empezar, asegúrate de que tu Mac cumple estos requisitos mínimos:
- Mac con Apple Silicon (serie M1, M2, M3 o M4)
- Mínimo 16 GB de RAM (se recomiendan 32 GB)
- Al menos 700 GB de espacio de almacenamiento libre (el modelo completo es de aproximadamente 641 GB, aunque las versiones cuantificadas requieren menos)
Para un rendimiento óptimo al ejecutar el modelo completo:
- 64 GB+ de RAM
- Chips M2 Ultra, M3 Ultra o M4
El rendimiento varía significativamente según las especificaciones de tu Mac. Según el desarrollador de MLX, Awni Hannun, el último Deepseek V3 puede ejecutarse a velocidades superiores a 20 tokens por segundo en un Mac Studio M3 Ultra de 512 GB utilizando la cuantificación de 4 bits.
Guía paso a paso para ejecutar Deepseek V3 0323 localmente
Paso 1: Configuración de tu entorno
Primero, vamos a configurar un entorno virtual de Python para mantener nuestras dependencias organizadas:
# Create a new directory for your project
mkdir deepseek-mlx
cd deepseek-mlx
# Create a virtual environment
python3 -m venv env
# Activate the environment
source env/bin/activate
Paso 2: Instalar los paquetes necesarios
MLX y MLX-LM son los paquetes principales necesarios para ejecutar Deepseek V3 con MLX:
# Install MLX and MLX-LM
pip install mlx mlx-lm
# Optional: Install PyTorch nightly (suppresses warnings)
pip install --pre torch --index-url <https://download.pytorch.org/whl/nightly/cpu>
Paso 3: Instalar la herramienta de línea de comandos LLM
La herramienta de línea de comandos llm
simplifica el trabajo con modelos de lenguaje. Vamos a instalarla junto con el plugin MLX:
pip install llm
pip install llm-mlx
Paso 4: Descargar el modelo Deepseek V3 0323
Hay dos enfoques para descargar el modelo:
Opción A: Versión estándar (calidad completa)
# Download the full model (requires significant disk space)
llm mlx download-model deepseek-ai/DeepSeek-V3-0323
Opción B: Versión cuantificada (tamaño más pequeño, calidad ligeramente inferior)
# Download the 4-bit quantized model (recommended for most users)
llm mlx download-model mlx-community/DeepSeek-V3-0323-4bit
La descarga tardará algún tiempo dependiendo de la velocidad de tu conexión a Internet. El modelo cuantificado de 4 bits reduce significativamente el requisito de almacenamiento a aproximadamente 350 GB, manteniendo la mayor parte del rendimiento.
Paso 5: Probar el modelo
Una vez que se descarga el modelo, puedes probarlo con un simple prompt:
# Test with a basic prompt
llm chat -m mlx-community/DeepSeek-V3-0323-4bit
Esto iniciará una sesión de chat interactiva con el modelo Deepseek V3 0323. Ahora puedes escribir tus prompts e interactuar con el modelo.
Paso 6: Ejecutar como un servidor API local
Para un uso más flexible, puedes ejecutar Deepseek V3 0323 como un servidor API local:
# Start the server
python -m mlx_lm.server --model mlx-community/DeepSeek-V3-0323-4bit --port 8080
El servidor se iniciará en localhost:8080, proporcionando un punto final de API compatible con OpenAI en http://localhost:8080/v1/chat/completions.
Paso 7: Interactuar con la API
Crea un script simple de Python para interactuar con tu servidor API local:
import requests
import json
def chat_with_model(prompt):
url = "<http://localhost:8080/v1/chat/completions>"
headers = {"Content-Type": "application/json"}
data = {
"messages": [{"role": "user", "content": prompt}],
"temperature": 0.7,
"max_tokens": 500
}
response = requests.post(url, headers=headers, json=data)
return response.json()["choices"][0]["message"]["content"]
# Test the API
response = chat_with_model("Explain quantum computing in simple terms")
print(response)
Consejos para la optimización del rendimiento
Para obtener el mejor rendimiento de Deepseek V3 en tu Mac:
- Cierra otras aplicaciones: Minimiza los procesos en segundo plano para liberar memoria
- Ajusta la ventana de contexto: Las ventanas de contexto más pequeñas utilizan menos memoria
- Cuantificación: Utiliza la cuantificación de 4 bits para un mejor rendimiento en máquinas de especificaciones más bajas
- Refrigeración: Asegura una ventilación adecuada para tu Mac durante el uso prolongado
- Ajuste de parámetros: Experimenta con la temperatura y la configuración de top_p para diferentes casos de uso
Afinando Deepseek V3
Para aplicaciones especializadas, es posible que desees afinar Deepseek V3 en tus propios datos:
# Install fine-tuning dependencies
pip install datasets peft trl
# Run fine-tuning script (example)
python fine_tune_mlx.py \\\\
--model mlx-community/DeepSeek-V3-0323-4bit \\\\
--dataset your_dataset.json \\\\
--output-dir fine_tuned_model \\\\
--epochs 3
Incrustando el modelo en aplicaciones
Para integrar Deepseek V3 en tus aplicaciones, puedes utilizar el servidor API o interactuar directamente con MLX:
from mlx_lm import load, generate
# Load the model
model, tokenizer = load("mlx-community/DeepSeek-V3-0323-4bit")
# Generate text
prompt = "Explain the theory of relativity"
tokens = tokenizer.encode(prompt)
generation = generate(model, tokens, temp=0.7, max_tokens=500)
# Print the result
print(tokenizer.decode(generation))
Problemas comunes y resolución de problemas
- Errores de falta de memoria: Intenta utilizar una cuantificación más agresiva o reduce tu ventana de contexto
- Velocidad de generación lenta: Cierra las aplicaciones en segundo plano y asegúrate de una refrigeración adecuada
- Fallos de instalación: Asegúrate de que estás utilizando Python 3.9+ y de que has actualizado pip
- Errores de carga del modelo: Comprueba que tienes suficiente espacio en disco y que has descargado correctamente el modelo
- Problemas de conexión API: Verifica que el servidor se está ejecutando y que el puerto no está en uso por otra aplicación
Conclusión
Ejecutar Deepseek V3 0323 localmente en tu Mac con MLX proporciona una solución de IA potente y centrada en la privacidad sin las limitaciones de los servicios basados en API. Con un rendimiento de benchmark que se acerca al de los principales modelos comerciales como Claude Sonnet 3.7, Deepseek V3 representa un logro impresionante en la IA de código abierto.
La combinación de la eficiencia computacional de Apple Silicon y la optimización de MLX para estos chips hace que el despliegue local sea cada vez más práctico, incluso para modelos grandes que antes requerían infraestructura en la nube. A medida que estas tecnologías sigan avanzando, la brecha entre la IA local y la basada en la nube seguirá reduciéndose, lo que permitirá a los usuarios tener más control, privacidad y flexibilidad en sus aplicaciones de IA.
Tanto si eres un desarrollador que busca integrar capacidades de IA en tus aplicaciones, un investigador que explora las capacidades del modelo o simplemente un entusiasta que quiere experimentar la IA de vanguardia, ejecutar Deepseek V3 0323 localmente con MLX ofrece un camino emocionante y accesible hacia adelante.
