Suna AI: el Agente de IA General de Código Abierto

El campo de la inteligencia artificial se está moviendo cada vez más hacia agentes que pueden hacer más que solo procesar información: pueden actuar. Suna AI surge en este espacio como un agente de IA generalista de código abierto, diseñado para funcionar como un compañero digital capaz de entender instrucciones en lenguaje natural y ejecutar tareas complejas del mundo real directamente en tu nombre. Desarrollado por Kortix AI y lanzado bajo la permisiva licencia Apache 2.0, Suna se diferencia al combinar un potente conjunto de herramientas con una interfaz conversacional, con el objetivo de cerrar la brecha entre la intención del usuario y la acción digital tangible.

A diferencia de las herramientas de IA especializadas, la fortaleza de Suna radica en su versatilidad. Está construido para orquestar diversas capacidades: desde navegar por la web y gestionar archivos hasta ejecutar código e interactuar con API, todo impulsado por tus indicaciones conversacionales. Este artículo proporciona una visión general de las capacidades y arquitectura centrales de Suna, seguido de un tutorial detallado y paso a paso sobre cómo configurar y ejecutar tu propia instancia localmente, empoderándote para aprovechar este potente agente de IA dentro de tu propio entorno.

💡

¿Quieres una gran herramienta de prueba de API que genere hermosa documentación de API?

¿Quieres una plataforma integrada, Todo-en-Uno para que tu equipo de desarrolladores trabaje junto con máxima productividad?

Apidog satisface todas tus necesidades, y reemplaza a Postman a un precio mucho más asequible!

button

¿Qué es Suna AI y cómo funciona Suna AI?

Para entender lo que Suna puede hacer, es esencial comprender las herramientas que posee. Estas capacidades le permiten interactuar con el mundo digital de manera muy similar a un usuario humano, pero de forma automatizada y impulsada por IA.

Automatización de Navegadores (a través de Playwright): Suna puede lanzar y controlar una instancia de navegador web dentro de su entorno seguro. Esto significa que puede navegar a URLs específicas, iniciar sesión en sitios web (si se proporcionan credenciales de forma segura), hacer clic en botones, llenar formularios, desplazarse por páginas y, lo más importante, extraer datos directamente del contenido de la página web. Esta capacidad desbloquea la gran cantidad de información y funcionalidad disponible en la web para la automatización.
Gestión de Archivos: El agente no se limita solo a los datos de la web. Posee la capacidad de interactuar con un sistema de archivos dentro de su entorno aislado. Esto incluye crear nuevos archivos (como informes o exportaciones de datos), leer documentos existentes, editar su contenido y organizar archivos en directorios. Esto es vital para tareas que implican generar salidas o procesar datos locales.
Rastreo Web y Búsqueda Mejorada: Más allá de la navegación de una sola página, Suna puede rastrear sistemáticamente sitios web (siguiendo enlaces) para recopilar información completa. También puede integrarse con API de búsqueda dedicadas (como la integración opcional de Tavily) para realizar recuperaciones de información más sofisticadas y dirigidas que el uso estándar de motores de búsqueda, lo que permite capacidades de investigación más profundas.
Ejecutar Comandos en la Línea de Comandos: Dentro de su contenedor Docker seguro, Suna tiene la capacidad de ejecutar comandos de shell. Esta poderosa característica le permite ejecutar scripts, utilizar otras utilidades de línea de comandos, interactuar con recursos del sistema (dentro de los límites del contenedor) y potencialmente automatizar tareas como compilaciones o despliegues de software si se configura adecuadamente. La seguridad es primordial aquí, gestionada por el entorno aislado.
Integración de API (a través de RapidAPI y Llamadas Directas): Suna puede realizar llamadas a Interfaces de Programación de Aplicaciones (API) externas. Esto le permite conectarse con un vasto ecosistema de servicios de terceros. La documentación destaca la integración opcional de RapidAPI, que permite el acceso a varios proveedores de datos (por ejemplo, para datos de LinkedIn, información financiera, etc.), pero también puede configurarse para interactuar directamente con otras API RESTful, ampliando enormemente su potencial de recopilación de datos y toma de acciones.
Interpretación de Código: Suna incluye la capacidad de ejecutar fragmentos de código (principalmente Python) dentro de su entorno seguro. Esto no es solo para ejecutar scripts existentes, sino que permite al agente generar y ejecutar dinámicamente código para realizar cálculos complejos, análisis de datos, procesamiento de lógica personalizada o transformaciones que van más allá de las capacidades de sus otras herramientas.

El verdadero poder de Suna radica en la capacidad de la IA para seleccionar y secuenciar estas herramientas adecuadamente según la solicitud del usuario. Una sola instrucción puede desencadenar un flujo de trabajo que involucra buscar en la web, extraer datos, procesarlos con código interpretado, formatear el resultado en un archivo y guardarlo, todo gestionado por el agente.

La Arquitectura de Suna: Los Componentes Involucrados

Entender el proceso de configuración requiere una comprensión básica de los principales componentes arquitectónicos de Suna:

API Backend (Python/FastAPI): La lógica central reside aquí. Gestiona las solicitudes de los usuarios, mantiene el estado de la conversación, orquesta el uso de herramientas del agente y maneja la comunicación con el Modelo de Lenguaje Grande (LLM) elegido a través de LiteLLM (proporcionando flexibilidad con proveedores como OpenAI y Anthropic).
Frontend (Next.js/React): Esta es la aplicación web que enfrenta al usuario. Proporciona la interfaz de chat para interactuar con Suna, muestra resultados e incluye elementos de panel para monitorear la actividad del agente.
Entorno Docker del Agente (a través de Daytona): La seguridad y el aislamiento son críticos. Cada tarea del agente se ejecuta dentro de un contenedor Docker dedicado gestionado por Daytona. Este sandbox contiene todas las herramientas necesarias (navegador, intérprete de código, acceso al sistema de archivos) y evita que el agente interfiera con el sistema anfitrión.
Base de Datos Supabase (PostgreSQL): Maneja todas las necesidades de persistencia de datos, incluyendo cuentas de usuario y autenticación, historial de conversación, almacenamiento para archivos generados por el agente, seguimiento del estado del agente y potencialmente análisis.

Estos componentes trabajan juntos, comunicándose a través de APIs, para ofrecer la experiencia Suna. La configuración de auto-alojamiento implica configurar y ejecutar estas partes interconectadas.

Cómo Configurar Suna AI

Ejecutar Suna tú mismo proporciona el máximo control y privacidad. Los siguientes pasos te guiarán a través del proceso de configuración:

Fase 1: Reuniendo Requisitos Previos

Antes de instalar Suna, necesitas varios servicios y credenciales externas:

Proyecto Supabase:

Regístrate o inicia sesión en supabase.com y crea un nuevo proyecto.
Navega a la sección de Configuraciones > API de tu proyecto. Copia cuidadosamente tu URL del Proyecto, anon clave pública, y service_role clave secreta.
Instala el CLI de Supabase: Sigue las instrucciones en supabase.com/docs/guides/cli.

Base de Datos Redis:

Opción 1 (Nube - Recomendado): Usa un servicio como Upstash (ofrece un nivel gratuito). Crea una base de datos y anota su Host/Punto de Entrada, Puerto, Contraseña, y nota si se requiere SSL/TLS (por lo general sí).
Opción 2 (Local): Instala Redis localmente (por ejemplo, brew install redis en macOS, sudo apt install redis-server en Debian/Ubuntu, o a través de Docker/WSL en Windows). Anota el Host (localhost), Puerto (usualmente 6379), Contraseña (generalmente ninguna), y la configuración de SSL (False).

Cuenta de Daytona y Configuración de Imagen:

Regístrate en daytona.io.
Ve a Configuraciones > Claves API y genera una nueva Clave API. Cópiala.
Dirígete a la sección de Imágenes. Haz clic en Agregar Imagen.
Nombre de Imagen: adamcohenhillel/kortix-suna:0.0.20
Punto de Entrada: /usr/bin/supervisord -n -c /etc/supervisor/conf.d/supervisord.conf
Guarda esta configuración de imagen.

Clave API de LLM:

Elige entre OpenAI (platform.openai.com) o Anthropic (console.anthropic.com). Obtén una Clave API de tu proveedor elegido.
Nota el Identificador de Modelo específico que planeas usar (por ejemplo, gpt-4o, anthropic/claude-3-5-sonnet-latest).

(Opcional) Clave API de Tavily: Para mejores resultados de búsqueda. Obtén una clave de Tavily AI.

(Opcional) Clave API de RapidAPI: Si planeas usar integraciones preconstruidas que la necesiten (como raspadores web específicos).

Obtén una clave de rapidapi.com.
Recuerda suscribirte a las API específicas (por ejemplo, raspador de LinkedIn) en el mercado de RapidAPI que las herramientas de Suna podrían usar. Consulta el directorio backend/agent/tools/data_providers/ para obtener el código relevante de las herramientas y sus URL base de API requeridas.

Fase 2: Instalación y Configuración

Ahora, configura los componentes de la aplicación Suna:

Clona el Repositorio:

git clone https://github.com/kortix-ai/suna.git
cd suna

Configura el Backend (.env):

cd backend
cp .env.example .env (o crea .env si falta el ejemplo).
Edita .env con las credenciales de la Fase 1:

NEXT_PUBLIC_URL="http://localhost:3000" # O tu URL de frontend si es diferente

# Supabase
SUPABASE_URL=YOUR_SUPABASE_URL
SUPABASE_ANON_KEY=YOUR_SUPABASE_ANON_KEY
SUPABASE_SERVICE_ROLE_KEY=YOUR_SUPABASE_SERVICE_ROLE_KEY

# Redis
REDIS_HOST=YOUR_REDIS_HOST
REDIS_PORT=YOUR_REDIS_PORT
REDIS_PASSWORD=YOUR_REDIS_PASSWORD # Deja en blanco si no hay
REDIS_SSL=True # O False para Redis local sin SSL

# Daytona
DAYTONA_API_KEY=YOUR_DAYTONA_API_KEY
DAYTONA_SERVER_URL="https://app.daytona.io/api"
DAYTONA_TARGET="us" # O tu región

# --- Configuración de LLM (SOLO LLENA UN CONJUNTO) ---
# Ejemplo de Anthropic:
ANTHROPIC_API_KEY=YOUR_ANTHROPIC_API_KEY
MODEL_TO_USE="anthropic/claude-3-5-sonnet-latest" # O otro modelo Claude
OPENAI_API_KEY=
# Ejemplo de OpenAI:
# ANTHROPIC_API_KEY=
# OPENAI_API_KEY=YOUR_OPENAI_API_KEY
# MODEL_TO_USE="gpt-4o" # O otro modelo de OpenAI
# -----------------------------------------

# Opcional
TAVILY_API_KEY=YOUR_TAVILY_API_KEY # Opcional
RAPID_API_KEY=YOUR_RAPID_API_KEY # Opcional

Crítico: Solo proporciona claves para un proveedor de LLM (ya sea Anthropic o OpenAI).

Configura el Esquema de la Base de Datos Supabase:

Asegúrate de estar en el directorio backend.
Inicia sesión: supabase login
Vincula el proyecto: supabase link --project-ref YOUR_PROJECT_REF_ID (Obtén el ID del tablero de control de Supabase).
Aplica migraciones: supabase db push
Verifica el Esquema: Ve al tablero de tu proyecto Supabase -> Configuraciones del Proyecto -> API -> sección Esquema bajo "Config". Asegúrate de que basejump esté listado en "Esquemas Expuestos". Agrégalo si falta y guarda.

Configura el Frontend (.env.local):

cd ../frontend
cp .env.example .env.local (o crea .env.local).
Edita .env.local:

NEXT_PUBLIC_SUPABASE_URL=YOUR_SUPABASE_URL # Igual que en backend .env
NEXT_PUBLIC_SUPABASE_ANON_KEY=YOUR_SUPABASE_ANON_KEY # Igual que en backend .env
NEXT_PUBLIC_BACKEND_URL="http://localhost:8000/api" # Ubicación predeterminada del backend
NEXT_PUBLIC_URL="http://localhost:3000" # Ubicación predeterminada del frontend

Instala Dependencias:

Frontend (Node.js/npm):

# En el directorio frontend
npm install

Backend (Python 3.11):

# En el directorio backend (usa un entorno virtual!)
# python -m venv venv
# source venv/bin/activate  O .\venv\Scripts\activate (Windows)
pip install -r requirements.txt

Fase 3: Ejecutando Suna

Iniciar Servicio Backend:

Abre una terminal.
Navega a path/to/suna/backend.
Si usas un entorno virtual, actívalo (source venv/bin/activate).
Ejecuta: python api.py
Busca la confirmación de que el servidor está funcionando (probablemente en el puerto 8000).

Iniciar Servicio Frontend:

Abre una segunda terminal.
Navega a path/to/suna/frontend.
Ejecuta: npm run dev
Busca la confirmación de que el servidor está funcionando (probablemente en el puerto 3000).

Accede a tu Instancia de Suna:

Abre un navegador web y ve a http://localhost:3000.
Utiliza la opción de Registrarse para crear tu cuenta de usuario (impulsada por Supabase Auth).
Inicia sesión y comienza a instruir a tu agente Suna auto-alojado.

Conclusión

Suna AI representa un paso práctico hacia agentes de IA autónomos capaces de ejecutar tareas en el ámbito digital. Su naturaleza de código abierto, combinada con un potente conjunto de herramientas y una arquitectura modular, lo convierte en una opción atractiva para desarrolladores y usuarios que buscan un asistente de IA personalizable y auto-alojable. Siguiendo el detallado proceso de configuración descrito anteriormente, puedes desplegar tu propia instancia de Suna, brindándote una interfaz conversacional para automatizar la navegación, manipulación de archivos, recopilación de datos, ejecución de código y más, todo dentro de un entorno que controlas. Si bien configurarlo requiere atención cuidadosa a sus múltiples componentes, el resultado es un agente de IA versátil listo para actuar en tu nombre.

💡

button