10 Mejores LLMs Locales Pequeños para Probar (Menos de 8GB)

El mundo de los Modelos de Lenguaje Grandes (LLMs) ha explotado, a menudo evocando imágenes de supercomputadoras masivas basadas en la nube que generan texto. Pero, ¿y si pudieras aprovechar una potencia de IA significativa directamente en tu ordenador personal, sin conexión constante a internet ni costosas suscripciones a la nube? La emocionante realidad es que puedes. Gracias a los avances en las técnicas de optimización, ha surgido una nueva generación de "LLMs locales pequeños", que ofrecen capacidades notables a la vez que se ajustan cómodamente a las limitaciones de memoria del hardware de consumo, específicamente, requiriendo menos de 8GB de RAM o VRAM.

💡

¿Quieres una excelente herramienta de prueba de API que genere hermosa documentación de API?

¿Quieres una plataforma integrada Todo-en-Uno para que tu equipo de desarrolladores trabaje con máxima productividad?

Apidog satisface todas tus demandas, ¡y reemplaza a Postman a un precio mucho más asequible!

button

Hablemos primero de las Cuantizaciones de LLM

Para aprovechar eficazmente los LLMs locales pequeños, es esencial tener una comprensión fundamental de los conceptos técnicos clave. La interacción entre los componentes de hardware y las técnicas de optimización de modelos dicta el rendimiento y la accesibilidad.

Un punto común de confusión para los nuevos usuarios es la diferencia entre VRAM (RAM de Video) y RAM del sistema. La VRAM es una memoria especializada de alta velocidad ubicada directamente en tu tarjeta gráfica (GPU). Está diseñada específicamente para las tareas de procesamiento rápido y paralelo en las que destacan las GPUs, como la renderización de gráficos o la realización de las masivas multiplicaciones de matrices centrales para la inferencia de LLM. En contraste, la RAM del sistema regular es más lenta pero generalmente más abundante, sirviendo como la memoria principal para la unidad central de procesamiento (CPU) del ordenador y las aplicaciones generales. Para una operación eficiente de LLM, los parámetros del modelo (pesos) y los cálculos intermedios (activaciones) idealmente residen completamente dentro de la rápida VRAM, permitiendo que la GPU acceda a ellos instantáneamente y procese la información rápidamente. Si los componentes de un modelo se ven forzados a residir en la RAM del sistema más lenta, el proceso de inferencia se verá significativamente obstaculizado, lo que provocará tiempos de respuesta mucho más lentos.

La tecnología fundamental que hace factible ejecutar modelos de lenguaje grandes en hardware de consumo es la cuantización.

Este proceso reduce drásticamente la huella de memoria de los LLMs al representar los pesos del modelo con menos bits, por ejemplo, utilizando enteros de 4 u 8 bits en lugar de la precisión estándar de punto flotante de 16 o 32 bits. Esta técnica permite que un modelo de 7 mil millones de parámetros, que normalmente podría requerir aproximadamente 14GB en FP16 (precisión completa), se ejecute con tan solo 4-5GB utilizando cuantización de 4 bits. Esta reducción en la memoria y la carga computacional aborda directamente las barreras del alto coste de hardware y el consumo de energía, haciendo que las capacidades avanzadas de IA sean accesibles en dispositivos de consumo estándar.

El formato GGUF ha surgido como el estándar para almacenar y cargar modelos locales cuantizados, ofreciendo amplia compatibilidad entre varios motores de inferencia. Dentro del ecosistema GGUF, existen diferentes tipos de cuantización, cada uno ofreciendo un equilibrio distinto entre tamaño de archivo, calidad y velocidad de inferencia. Para muchos casos de uso general, se recomienda con frecuencia Q4_K_M, ya que logra un compromiso equilibrado entre calidad y eficiencia de memoria. Si bien la cuantización es muy efectiva, forzar tasas de bits muy bajas, como Q2_K o IQ3_XS, puede llevar a una degradación notable en la calidad del modelo.

También es importante tener en cuenta que el requisito real de VRAM o RAM para ejecutar un LLM es ligeramente superior al tamaño del archivo cuantizado del modelo. Esto se debe a que se necesita memoria adicional para almacenar los datos de entrada (prompts y contexto) y los resultados de cálculos intermedios (activaciones). Típicamente, este sobrecoste se puede estimar en aproximadamente 1.2 veces el tamaño base del modelo.

Empezando con LLMs Locales y Ollama

El ecosistema para ejecutar LLMs locales ha madurado significativamente, ofreciendo una variedad de herramientas adaptadas a las diferentes preferencias de los usuarios y competencias técnicas. Dos plataformas destacadas sobresalen por su facilidad de uso y capacidades robustas.

Ollama es una herramienta potente y orientada a desarrolladores diseñada para ejecutar LLMs localmente con simplicidad y eficiencia. Su interfaz principal es una interfaz de línea de comandos (CLI), que permite una configuración y gestión de modelos sencillas. Ollama destaca por su empaquetado de modelos integrado y la función "Modelfile", que permite a los usuarios personalizar modelos e integrarlos sin problemas en scripts y diversas aplicaciones. La plataforma es ligera y está optimizada para el rendimiento, lo que la hace ideal para despliegues rápidos y repetibles en entornos de desarrollo o flujos de trabajo automatizados.

Para los usuarios que prefieren una interfaz gráfica (GUI), LM Studio es a menudo la opción preferida. Ofrece una aplicación de escritorio intuitiva con un diseño limpio, una interfaz de chat integrada y un sistema fácil de usar para navegar y descargar modelos en formato GGUF directamente desde Hugging Face. LM Studio simplifica la gestión de modelos, permitiendo a los usuarios cambiar fácilmente entre diferentes LLMs y ajustar parámetros directamente desde la interfaz de usuario. Esta retroalimentación visual inmediata es particularmente beneficiosa para principiantes y usuarios no técnicos, facilitando la experimentación rápida y la prueba de prompts sin requerir conocimientos de línea de comandos.

Muchas herramientas fáciles de usar, incluido LM Studio, a menudo aprovechan Llama.cpp como su motor de inferencia subyacente. Llama.cpp es un motor de inferencia de alto rendimiento escrito en C++ que utiliza principalmente el formato GGUF y admite la aceleración tanto en CPUs como en GPUs.

La siguiente selección destaca diez LLMs pequeños altamente capaces que pueden ejecutarse localmente en sistemas con menos de 8GB de VRAM, ofreciendo un equilibrio entre rendimiento, versatilidad y eficiencia. Las huellas de memoria proporcionadas se centran en versiones GGUF cuantizadas, que están optimizadas para hardware de consumo.

LLMs Pequeños que Puedes Explorar

Llama 3.1 8B (Cuantizado)

ollama run llama3.1:8b

Llama 3.1 8B de Meta es un modelo de código abierto muy aclamado, reconocido por su sólido rendimiento general y su impresionante eficiencia de costes. Forma parte de la familia Llama 3.1, que se ha beneficiado de mejoras sustanciales en los datos de entrenamiento y las técnicas de optimización, incluido un aumento de siete veces en los datos de entrenamiento (más de 15 billones de tokens) en comparación con sus predecesores.

Si bien el modelo completo de 8B normalmente requiere más VRAM, sus versiones cuantizadas inferiores están diseñadas para ajustarse dentro del límite de 8GB de VRAM/RAM. Por ejemplo, la cuantización Q2_K tiene un tamaño de archivo de 3.18 GB y requiere aproximadamente 7.20 GB de memoria. De manera similar, Q3_K_M (archivo de 4.02 GB, 7.98 GB de memoria requerida) es una opción viable para sistemas con memoria limitada.

Llama 3.1 8B destaca en el rendimiento de IA conversacional, medido por la tasa de victorias de AlpacaEval 2.0. Demuestra sólidas capacidades en generación de código (HumanEval Pass@1), resumen de texto (CNN/DailyMail Rouge-L-Sum para procesar reseñas de productos y correos electrónicos), y tareas de Generación Aumentada por Recuperación (RAG) (MS Marco Rouge-L-Sum para respuesta precisa a preguntas y resumen de búsqueda en lenguaje natural). También es eficaz para generar salida estructurada a partir de texto, como extraer conceptos en una carga JSON, y para proporcionar resúmenes de fragmentos de código cortos. Su eficiencia lo hace adecuado para procesamiento por lotes y flujos de trabajo de agentes.

Mistral 7B (Cuantizado)

ollama run mistral:7b

Mistral 7B es un modelo transformador completamente denso ampliamente elogiado por su eficiencia, velocidad y huella de VRAM compacta. Incorpora técnicas arquitectónicas avanzadas como Grouped-Query Attention (GQA) y Sliding Window Attention (SWA) para mejorar su rendimiento.

Este modelo está altamente optimizado para entornos con poca VRAM. Versiones cuantizadas como Q4_K_M (archivo de 4.37 GB, 6.87 GB de memoria requerida) y Q5_K_M (archivo de 5.13 GB, 7.63 GB de memoria requerida) se ajustan cómodamente dentro de un presupuesto de 8GB de VRAM. Mistral 7B es una excelente opción para inferencia de IA rápida y autónoma y aplicaciones en tiempo real donde la baja latencia es crítica. Demuestra un sólido rendimiento en tareas de conocimiento general y razonamiento estructurado. Su huella de VRAM compacta lo hace adecuado para la implementación en dispositivos de borde. Es eficaz para chats de múltiples turnos y se puede utilizar en soluciones de chatbot de IA para consultas generales. Su licencia Apache 2.0 es particularmente favorable para casos de uso comercial.

Gemma 3:4b (Cuantizado)

ollama run gemma3:4b

El modelo de parámetros Gemma 3:4B es miembro de la familia Gemma de Google DeepMind, diseñado específicamente para la eficiencia y el rendimiento de vanguardia dentro de un paquete ligero. Su huella de memoria es excepcionalmente pequeña, lo que lo hace altamente accesible para una amplia gama de hardware.

Por ejemplo, la cuantización Q4_K_M tiene un tamaño de archivo de 1.71 GB y se recomienda para sistemas con 4GB de VRAM. Este uso mínimo de memoria lo convierte en un candidato ideal para prototipado rápido e implementación en hardware de gama muy baja, incluidos dispositivos móviles. Gemma 3:4B es adecuado para tareas básicas de generación de texto, respuesta a preguntas y resumen. Puede ser eficaz para la recuperación rápida de información y aplicaciones de Reconocimiento Óptico de Caracteres (OCR). A pesar de su pequeño tamaño, Gemma 3:4B demuestra un sólido rendimiento.

Gemma 7B (Cuantizado)

ollama run gemma:7b

Como el hermano mayor en la familia Gemma, el modelo de 7B ofrece capacidades mejoradas sin dejar de ser ejecutable en hardware de consumo. Comparte componentes técnicos y de infraestructura con los modelos Gemini más extensos de Google, lo que le permite alcanzar un alto rendimiento directamente en portátiles o ordenadores de escritorio para desarrolladores.

Las versiones cuantizadas de Gemma 7B, como Q5_K_M (archivo de 6.14 GB) y Q6_K (archivo de 7.01 GB), se ajustan cómodamente dentro del límite de 8GB de VRAM. Generalmente requiere al menos 8GB de RAM del sistema para un rendimiento óptimo. Gemma 7B es un modelo versátil, capaz de manejar una amplia gama de tareas de procesamiento de lenguaje natural, incluyendo generación de texto, respuesta a preguntas, resumen y razonamiento. Demuestra capacidades en generación e interpretación de código, así como en la resolución de consultas matemáticas. Su arquitectura, compartida con modelos Gemini más grandes, permite un alto rendimiento en portátiles o ordenadores de escritorio para desarrolladores, convirtiéndolo en una herramienta valiosa para la creación de contenido, IA conversacional y exploración del conocimiento.

Phi-3 Mini (3.8B, Cuantizado)

ollama run phi3

Phi-3 Mini de Microsoft es un modelo ligero y de vanguardia que se distingue por su excepcional eficiencia y un fuerte enfoque en propiedades de alta calidad y densas en razonamiento. Este modelo desafía la noción convencional de que solo los LLMs más grandes pueden manejar tareas complejas de manera efectiva. Phi-3 Mini es notablemente eficiente en memoria. Por ejemplo, la cuantización Q8_0 tiene un tamaño de archivo de 4.06 GB y requiere aproximadamente 7.48 GB de memoria, lo que lo sitúa cómodamente dentro del límite de 8GB.

Incluso su versión FP16 (precisión completa) tiene un tamaño de archivo de 7.64 GB, aunque requiere 10.82 GB de memoria. Phi-3 Mini destaca en la comprensión del lenguaje, el razonamiento lógico, la codificación y la resolución de problemas matemáticos. Su tamaño compacto y diseño lo hacen adecuado para entornos con limitaciones de memoria/computación y escenarios con restricciones de latencia, incluida la implementación en dispositivos móviles. Es particularmente adecuado para prompts entregados en formato de chat y puede servir como bloque de construcción para funciones impulsadas por IA generativa.

DeepSeek R1 7B/8B (Cuantizado)

ollama run deepseek-r1:7b

Los modelos DeepSeek, incluidas sus variantes de 7B y 8B, son reconocidos por sus sólidas capacidades de razonamiento y eficiencia computacional. La variante DeepSeek-R1-0528-Qwen3-8B ha sido destacada como probablemente el mejor modelo de razonamiento en el tamaño de 8B, habiendo sido destilado de un modelo más grande para lograr un alto rendimiento. La cuantización DeepSeek R1 7B Q4_K_M tiene un tamaño de archivo de 4.22 GB y requiere aproximadamente 6.72 GB de memoria.

El modelo DeepSeek R1 8B tiene un tamaño de modelo general de 4.9 GB, con una VRAM recomendada de 6GB. Estas configuraciones se ajustan cómodamente dentro de la restricción de 8GB. Los modelos DeepSeek son fuertes en la comprensión del lenguaje natural, generación de texto, respuesta a preguntas, y destacan particularmente en razonamiento y generación de código. Su huella computacional relativamente baja los convierte en una opción atractiva para pequeñas y medianas empresas (PyMEs) y desarrolladores que buscan implementar soluciones de IA sin incurrir en costos masivos de la nube, adecuados para sistemas inteligentes de soporte al cliente, análisis de datos avanzados y generación automatizada de contenido.

Qwen 1.5/2.5 7B (Cuantizado)

ollama run qwen:7b

La serie Qwen de Alibaba ofrece una amplia gama de modelos, con las variantes de 7B sirviendo como una potencia equilibrada para aplicaciones de IA de propósito general. Qwen 1.5, considerado la versión beta de Qwen2, proporciona soporte multilingüe y una longitud de contexto estable de 32K tokens.

En cuanto a la huella de memoria, la cuantización Q5_K_M de Qwen 1.5 7B tiene un tamaño de archivo de 5.53 GB. Qwen2.5 7B tiene un tamaño de modelo general de 4.7 GB, con una VRAM recomendada de 6GB. Estos modelos están bien dentro del límite de 8GB de VRAM. Los modelos Qwen 7B son versátiles, adecuados para IA conversacional, generación de contenido, tareas básicas de razonamiento y traducción de idiomas. Específicamente, el modelo Qwen 7B Chat demuestra un sólido rendimiento en la comprensión de chino e inglés, codificación y matemáticas, y admite ReAct Prompting para el uso de herramientas. Su eficiencia lo hace adecuado para chatbots de soporte al cliente y asistencia básica en programación.

Deepseek-coder-v2 6.7B (Cuantizado)

ollama run deepseek-coder-v2:6.7b

Deepseek-coder-v2 6.7B es un modelo especializado de DeepSeek, meticulosamente diseñado para tareas específicas de codificación. Esta variante ajustada tiene como objetivo mejorar significativamente las capacidades de generación y comprensión de código. Con un tamaño de modelo de 3.8 GB y una VRAM recomendada de 6GB, se ajusta cómodamente dentro de la restricción de 8GB, haciéndolo altamente accesible para desarrolladores con hardware limitado. Sus casos de uso principales incluyen la finalización de código, la generación de fragmentos de código y la interpretación de código existente. Para desarrolladores y programadores que operan con VRAM limitada, Deepseek-coder-v2 6.7B ofrece capacidades altamente especializadas, estableciéndolo como una opción principal para la asistencia local en codificación.

BitNet b1.58 2B4T

ollama run hf.co/microsoft/bitnet-b1.58-2B-4T-gguf

BitNet b1.58 2B4T de Microsoft representa un modelo de código abierto revolucionario que emplea un formato de peso de 1.58 bits, lo que conduce a reducciones drásticas en el consumo de memoria y energía, manteniendo al mismo tiempo un rendimiento competitivo. Su eficiencia de memoria sin precedentes, que requiere solo 0.4 GB de memoria no integrada, lo hace idealmente adecuado para entornos extremadamente limitados en recursos, incluidos dispositivos de IA de borde como teléfonos inteligentes, portátiles y dispositivos IoT, y para una inferencia eficiente solo con CPU.

Aporta capacidades de LLM de alto rendimiento a dispositivos que carecen de soporte de GPU dedicado, permitiendo traducción en el dispositivo, recomendación de contenido y asistentes de voz móviles más capaces sin conexión constante a la nube. Si bien puede mostrar una precisión ligeramente menor en comparación con modelos mucho más grandes, su rendimiento en relación con su tamaño es notable. Su eficiencia de memoria sin precedentes y su capacidad para ejecutarse eficazmente en CPUs lo posicionan como un cambio radical para la accesibilidad y la sostenibilidad en el panorama de la IA.

Orca-Mini 7B (Cuantizado)

ollama run orca-mini:7b

Orca-Mini 7B es un modelo de propósito general construido sobre las arquitecturas Llama y Llama 2, entrenado en conjuntos de datos de estilo Orca. Está disponible en varios tamaños, siendo la variante de 7B una opción adecuada para hardware de nivel básico. El modelo orca-mini:7b tiene un tamaño de archivo de 3.8 GB. Versiones cuantizadas como Q4_K_M (archivo de 4.08 GB, 6.58 GB de memoria requerida) y Q5_K_M (archivo de 4.78 GB, 7.28 GB de memoria requerida) se ajustan dentro de la restricción de 8GB. Generalmente requiere al menos 8GB de RAM del sistema para un funcionamiento óptimo. Orca-Mini 7B es adecuado para la generación general de texto, la respuesta a preguntas y las tareas conversacionales. Demuestra un fuerte seguimiento de instrucciones y puede utilizarse eficazmente para construir agentes de IA. La variante Mistral-7B-OpenOrca ajustada, basada en la investigación de Orca, muestra un rendimiento excepcional en la generación de texto y código, la respuesta a preguntas y la participación en conversaciones.

Conclusión

Los modelos destacados en este informe —incluidos Llama 3 8B, Mistral 7B, Gemma 2B y 7B, Phi-3 Mini, DeepSeek R1 7B/8B, Qwen 1.5/2.5 7B, Deepseek-coder-v2 6.7B, BitNet b1.58 2B4T y Orca-Mini 7B— representan la vanguardia de esta accesibilidad. Cada uno ofrece una combinación única de capacidades, eficiencia de memoria y casos de uso ideales, lo que los hace adecuados para una amplia gama de tareas, desde conversación general y escritura creativa hasta asistencia especializada en codificación y razonamiento complejo.

La efectividad de estos modelos en sistemas con VRAM limitada se debe en gran medida a las técnicas avanzadas de cuantización, que reducen drásticamente su huella de memoria sin una degradación severa de la calidad. Los continuos avances en la eficiencia de los modelos y el creciente enfoque en la implementación de IA de borde señalan un futuro en el que las capacidades sofisticadas de IA se integrarán sin problemas en los dispositivos cotidianos. Se anima a los usuarios a experimentar con los modelos recomendados, ya que la elección "mejor" es en última instancia subjetiva y depende de las configuraciones de hardware individuales y los requisitos de aplicación específicos. La vibrante comunidad de código abierto continúa contribuyendo a este panorama en evolución, asegurando un futuro dinámico e innovador para los LLMs locales.

💡

button