Cómo ejecutar Deepseek V3 0323 localmente con MLX

Introducción

Los Mac con Apple Silicon han cambiado el despliegue local de modelos de IA, ofreciendo una potencia computacional sin precedentes en hardware de consumo. Con el lanzamiento de Deepseek V3 0323, un potente modelo de lenguaje grande (LLM), los usuarios de Mac ahora pueden ejecutar modelos de IA de última generación localmente utilizando MLX, el marco de aprendizaje automático de Apple específicamente optimizado para Apple Silicon. Esta guía completa te guía a través de todo el proceso de configuración y ejecución de Deepseek V3 0323 en tu Mac, con benchmarks de rendimiento y comparaciones con otros modelos líderes como Claude Sonnet 3.7.

💡

Para los desarrolladores que buscan optimizar el desarrollo y las pruebas de su API, Apidog ofrece una plataforma integral para el diseño, las pruebas y la documentación de API. Apidog aporta automatización al desarrollo de API, haciendo que tu proceso sea más rápido y eficiente.

button

¿Qué es Deepseek V3 0323?

Rendimiento de Deepseek V3 0323 vs Deepseek V3

Deepseek V3 0323 es parte de la familia de modelos Deepseek V3, una serie de modelos de lenguaje grandes avanzados desarrollados por el laboratorio chino de IA DeepSeek. El modelo representa una capacidad de IA de vanguardia con un sólido rendimiento en diversas tareas de lenguaje, generación de código, razonamiento y creación de contenido creativo. El "0323" en el nombre indica su fecha de lanzamiento (23 de marzo), siguiendo la convención de DeepSeek de incluir las fechas de lanzamiento en los nombres de los modelos.

Los últimos modelos de la familia Deepseek V3 son impresionantemente potentes y se han lanzado bajo la licencia MIT, lo que los hace totalmente de código abierto y disponibles tanto para uso personal como comercial. Esto representa un cambio significativo con respecto a las versiones anteriores que tenían restricciones de licencia personalizadas.

Benchmarks y rendimiento de Deepseek V3 0304

La familia de modelos Deepseek V3 ha mostrado resultados de benchmark impresionantes en varias métricas. Mirando específicamente a Deepseek V3 0304 (la versión anterior a 0323), los datos de rendimiento muestran que iguala o supera a muchas alternativas comerciales.

Resultados clave de los benchmarks

Según las pruebas independientes y la información de Paul Gauthier, Deepseek V3 obtuvo un 55% en el benchmark políglota aider, mejorando significativamente con respecto a las versiones anteriores. Esto lo posiciona como el modelo número 2 sin pensamiento/razonamiento, solo por detrás de Claude Sonnet 3.7.

En términos de rendimiento práctico, los modelos Deepseek V3 demuestran:

Fuertes capacidades de razonamiento: Excelente rendimiento en problemas complejos que requieren pensamiento de varios pasos
Excelencia en la generación de código: Particularmente fuerte en tareas de programación políglota
Seguimiento de instrucciones: Alta adherencia a instrucciones específicas
Retención de contexto: Uso eficaz del contexto proporcionado para respuestas precisas
Precisión del conocimiento: Información fáctica fiable con mínimas alucinaciones

Deepseek V3 vs Claude 3.7 Sonnet vs Claude 3.7 Sonnet Thinking vs o3-mini

Al comparar Deepseek V3 0304 con Claude Sonnet 3.7:

Si bien Claude Sonnet 3.7 supera en algunos benchmarks, la capacidad de Deepseek V3 para ejecutarse localmente en hardware de consumo con MLX representa una ventaja significativa para los usuarios que priorizan la privacidad, el acceso sin conexión y la eficiencia de costes.

Sí, puedes ejecutar Deepseek V3 0324 en Mac Studio con MLX

The new Deep Seek V3 0324 in 4-bit runs at > 20 toks/sec on a 512GB M3 Ultra with mlx-lm! pic.twitter.com/wFVrFCxGS6
— Awni Hannun (@awnihannun) March 24, 2025

Ejecutar Deepseek V3 en tu máquina local con MLX ofrece varias ventajas clave:

Privacidad: Tus datos nunca salen de tu dispositivo, lo que garantiza una privacidad total
Sin costes de API: Evita pagar por el uso de la API y los límites de tokens
Control total: Personaliza la configuración y afina según sea necesario
Sin dependencia de Internet: Utiliza el modelo sin conexión
Baja latencia: Experimenta tiempos de respuesta más rápidos sin retrasos en la red
Optimización de Apple Silicon: MLX está diseñado específicamente para aprovechar el Neural Engine en los chips de la serie M

Requisitos de hardware para ejecutar Deepseek V3 0323 localmente

Antes de empezar, asegúrate de que tu Mac cumple estos requisitos mínimos:

Mac con Apple Silicon (serie M1, M2, M3 o M4)
Mínimo 16 GB de RAM (se recomiendan 32 GB)
Al menos 700 GB de espacio de almacenamiento libre (el modelo completo es de aproximadamente 641 GB, aunque las versiones cuantificadas requieren menos)

Para un rendimiento óptimo al ejecutar el modelo completo:

64 GB+ de RAM
Chips M2 Ultra, M3 Ultra o M4

El rendimiento varía significativamente según las especificaciones de tu Mac. Según el desarrollador de MLX, Awni Hannun, el último Deepseek V3 puede ejecutarse a velocidades superiores a 20 tokens por segundo en un Mac Studio M3 Ultra de 512 GB utilizando la cuantificación de 4 bits.

Guía paso a paso para ejecutar Deepseek V3 0323 localmente

Paso 1: Configuración de tu entorno

Primero, vamos a configurar un entorno virtual de Python para mantener nuestras dependencias organizadas:

# Create a new directory for your project
mkdir deepseek-mlx
cd deepseek-mlx

# Create a virtual environment
python3 -m venv env

# Activate the environment
source env/bin/activate

Paso 2: Instalar los paquetes necesarios

MLX y MLX-LM son los paquetes principales necesarios para ejecutar Deepseek V3 con MLX:

# Install MLX and MLX-LM
pip install mlx mlx-lm

# Optional: Install PyTorch nightly (suppresses warnings)
pip install --pre torch --index-url <https://download.pytorch.org/whl/nightly/cpu>

Paso 3: Instalar la herramienta de línea de comandos LLM

La herramienta de línea de comandos llm simplifica el trabajo con modelos de lenguaje. Vamos a instalarla junto con el plugin MLX:

pip install llm
pip install llm-mlx

Paso 4: Descargar el modelo Deepseek V3 0323

Hay dos enfoques para descargar el modelo:

Opción A: Versión estándar (calidad completa)

# Download the full model (requires significant disk space)
llm mlx download-model deepseek-ai/DeepSeek-V3-0323

Opción B: Versión cuantificada (tamaño más pequeño, calidad ligeramente inferior)

# Download the 4-bit quantized model (recommended for most users)
llm mlx download-model mlx-community/DeepSeek-V3-0323-4bit

La descarga tardará algún tiempo dependiendo de la velocidad de tu conexión a Internet. El modelo cuantificado de 4 bits reduce significativamente el requisito de almacenamiento a aproximadamente 350 GB, manteniendo la mayor parte del rendimiento.

Paso 5: Probar el modelo

Una vez que se descarga el modelo, puedes probarlo con un simple prompt:

# Test with a basic prompt
llm chat -m mlx-community/DeepSeek-V3-0323-4bit

Esto iniciará una sesión de chat interactiva con el modelo Deepseek V3 0323. Ahora puedes escribir tus prompts e interactuar con el modelo.

Paso 6: Ejecutar como un servidor API local

Para un uso más flexible, puedes ejecutar Deepseek V3 0323 como un servidor API local:

# Start the server
python -m mlx_lm.server --model mlx-community/DeepSeek-V3-0323-4bit --port 8080

El servidor se iniciará en localhost:8080, proporcionando un punto final de API compatible con OpenAI en http://localhost:8080/v1/chat/completions.

Paso 7: Interactuar con la API

Crea un script simple de Python para interactuar con tu servidor API local:

import requests
import json

def chat_with_model(prompt):
    url = "<http://localhost:8080/v1/chat/completions>"
    headers = {"Content-Type": "application/json"}
    data = {
        "messages": [{"role": "user", "content": prompt}],
        "temperature": 0.7,
        "max_tokens": 500
    }

    response = requests.post(url, headers=headers, json=data)
    return response.json()["choices"][0]["message"]["content"]

# Test the API
response = chat_with_model("Explain quantum computing in simple terms")
print(response)

Consejos para la optimización del rendimiento

Para obtener el mejor rendimiento de Deepseek V3 en tu Mac:

Cierra otras aplicaciones: Minimiza los procesos en segundo plano para liberar memoria
Ajusta la ventana de contexto: Las ventanas de contexto más pequeñas utilizan menos memoria
Cuantificación: Utiliza la cuantificación de 4 bits para un mejor rendimiento en máquinas de especificaciones más bajas
Refrigeración: Asegura una ventilación adecuada para tu Mac durante el uso prolongado
Ajuste de parámetros: Experimenta con la temperatura y la configuración de top_p para diferentes casos de uso

Afinando Deepseek V3

Para aplicaciones especializadas, es posible que desees afinar Deepseek V3 en tus propios datos:

# Install fine-tuning dependencies
pip install datasets peft trl

# Run fine-tuning script (example)
python fine_tune_mlx.py \\\\
  --model mlx-community/DeepSeek-V3-0323-4bit \\\\
  --dataset your_dataset.json \\\\
  --output-dir fine_tuned_model \\\\
  --epochs 3

Incrustando el modelo en aplicaciones

Para integrar Deepseek V3 en tus aplicaciones, puedes utilizar el servidor API o interactuar directamente con MLX:

from mlx_lm import load, generate

# Load the model
model, tokenizer = load("mlx-community/DeepSeek-V3-0323-4bit")

# Generate text
prompt = "Explain the theory of relativity"
tokens = tokenizer.encode(prompt)
generation = generate(model, tokens, temp=0.7, max_tokens=500)

# Print the result
print(tokenizer.decode(generation))

Problemas comunes y resolución de problemas

Errores de falta de memoria: Intenta utilizar una cuantificación más agresiva o reduce tu ventana de contexto
Velocidad de generación lenta: Cierra las aplicaciones en segundo plano y asegúrate de una refrigeración adecuada
Fallos de instalación: Asegúrate de que estás utilizando Python 3.9+ y de que has actualizado pip
Errores de carga del modelo: Comprueba que tienes suficiente espacio en disco y que has descargado correctamente el modelo
Problemas de conexión API: Verifica que el servidor se está ejecutando y que el puerto no está en uso por otra aplicación

Conclusión

Ejecutar Deepseek V3 0323 localmente en tu Mac con MLX proporciona una solución de IA potente y centrada en la privacidad sin las limitaciones de los servicios basados en API. Con un rendimiento de benchmark que se acerca al de los principales modelos comerciales como Claude Sonnet 3.7, Deepseek V3 representa un logro impresionante en la IA de código abierto.

La combinación de la eficiencia computacional de Apple Silicon y la optimización de MLX para estos chips hace que el despliegue local sea cada vez más práctico, incluso para modelos grandes que antes requerían infraestructura en la nube. A medida que estas tecnologías sigan avanzando, la brecha entre la IA local y la basada en la nube seguirá reduciéndose, lo que permitirá a los usuarios tener más control, privacidad y flexibilidad en sus aplicaciones de IA.

Tanto si eres un desarrollador que busca integrar capacidades de IA en tus aplicaciones, un investigador que explora las capacidades del modelo o simplemente un entusiasta que quiere experimentar la IA de vanguardia, ejecutar Deepseek V3 0323 localmente con MLX ofrece un camino emocionante y accesible hacia adelante.

💡

button