Cómo Usar la API Flash de Qwen3.5

La API Qwen3.5 Flash de Alibaba Cloud representa un avance significativo en los modelos de lenguaje grandes accesibles, ofreciendo a los desarrolladores una solución potente y rentable para construir aplicaciones impulsadas por IA. Ya sea que esté construyendo chatbots, asistentes de codificación o aplicaciones multimodales, Qwen3.5 Flash proporciona la flexibilidad y el rendimiento necesarios para ofrecer experiencias de usuario excepcionales. Esta guía completa le guiará a través de todo lo que necesita saber para comenzar con la API Qwen3.5 Flash, desde la configuración inicial hasta las técnicas de implementación avanzadas.

💡

Utilice Apidog para gestionar sus claves API y probar sus integraciones de Qwen3.5. Apidog proporciona una interfaz unificada para diseñar, depurar y documentar sus integraciones API, perfecta para asegurar que su implementación de Qwen3.5 funcione correctamente antes de desplegarla en producción.

botón

Entendiendo la API Qwen3.5 Flash

Qwen3.5 Flash (Qwen3.5-35B-A3B) es parte de la serie de modelos Qwen3 de Alibaba, diseñada para ofrecer capacidades de IA de alto rendimiento a precios competitivos. La designación "Flash" indica que estos modelos están optimizados para la velocidad y la eficiencia de costos, lo que los hace ideales para aplicaciones de producción donde la calidad de la respuesta y la gestión de recursos son importantes.

La familia Qwen3.5 incluye varias variantes adaptadas a diferentes casos de uso. El modelo Qwen3.5-397B-A17B ofrece la máxima capacidad con 403 mil millones de parámetros para tareas de razonamiento complejas. El Qwen3.5-397B-FP8 proporciona la misma capacidad con almacenamiento optimizado. El Qwen3.5-122B-A10B ofrece 125 mil millones de parámetros para un rendimiento equilibrado, mientras que Qwen3.5-35B-A3B (Qwen3.5 Flash) ofrece 36 mil millones de parámetros como una opción rentable para aplicaciones de propósito general. Todos los modelos admiten capacidades de visión (Imagen-Texto a Texto), lo que permite interacciones multimodales que procesan tanto texto como imágenes.

Primeros pasos: Requisitos previos y configuración

Antes de poder empezar a usar la API Qwen3.5 Flash, deberá completar varios pasos de configuración. Primero, cree una cuenta de Alibaba Cloud si aún no tiene una, luego navegue a Model Studio para generar su clave API. Esta clave autentica sus solicitudes y rastrea su uso para fines de facturación. Mantenga esta clave segura y nunca la exponga en código del lado del cliente o repositorios públicos.

También necesitará instalar el SDK apropiado para su entorno de desarrollo. Los desarrolladores de Python pueden instalar el SDK compatible con OpenAI usando pip:

pip install openai

Para entornos Node.js, el paquete npm de openai proporciona una funcionalidad equivalente. La API está diseñada para ser compatible con OpenAI, lo que significa que si ha trabajado previamente con la API de OpenAI, encontrará que la transición a Qwen3.5 Flash es sencilla. Las principales diferencias implican la URL base y el mecanismo de autenticación.

Configuración de API y puntos finales regionales

Un aspecto crítico de la configuración de su integración Qwen3.5 Flash es la selección del punto final regional apropiado. Su elección afecta la latencia, el precio y las características disponibles. Alibaba Cloud proporciona múltiples puntos finales regionales para servir a usuarios de todo el mundo:

El punto final de Singapur (https://dashscope-intl.aliyuncs.com/compatible-mode/v1) sirve a la región de Asia-Pacífico y ofrece un generoso nivel gratuito: 1 millón de tokens gratis durante 90 días para nuevos usuarios. Esto lo convierte en un excelente punto de partida para los desarrolladores que exploran la API. El punto final de Virginia (EE. UU.) (https://dashscope-us.aliyuncs.com/compatible-mode/v1) proporciona un mejor rendimiento para los usuarios de América del Norte, mientras que el punto final de Beijing (https://dashscope.aliyuncs.com/compatible-mode/v1) sirve a los usuarios en China continental.

Al configurar su cliente, asegúrese de seleccionar el punto final geográficamente más cercano a los usuarios de su aplicación para un rendimiento óptimo. El proceso de autenticación utiliza claves API en lugar del flujo OAuth que emplean otros servicios, lo que simplifica la integración mientras se mantiene la seguridad.

Realizando su primera llamada a la API

Con su clave API y punto final configurados, está listo para realizar su primera solicitud. Aquí tiene un ejemplo básico en Python que demuestra una conversación simple:

"""
Variables de entorno (según la documentación oficial):
  DASHSCOPE_API_KEY: Su clave API de https://bailian.console.aliyun.com
  DASHSCOPE_BASE_URL: (opcional) URL base para la API en modo compatible.
  DASHSCOPE_MODEL: (opcional) Nombre del modelo; anule para diferentes modelos.
  DASHSCOPE_BASE_URL:
    - Beijing: https://dashscope.aliyuncs.com/compatible-mode/v1
    - Singapur: https://dashscope-intl.aliyuncs.com/compatible-mode/v1
    - EE. UU. (Virginia): https://dashscope-us.aliyuncs.com/compatible-mode/v1
"""
from openai import OpenAI
import os

api_key = os.environ.get("DASHSCOPE_API_KEY")
if not api_key:
    raise ValueError(
        "DASHSCOPE_API_KEY es requerida. "
        "Establézcala a través de: export DASHSCOPE_API_KEY='su-clave-api'"
    )

client = OpenAI(
    api_key=api_key,
    base_url=os.environ.get(
        "DASHSCOPE_BASE_URL",
        "https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
    ),
)

messages = [{"role": "user", "content": "Introduce Qwen3.5."}]

model = os.environ.get(
    "DASHSCOPE_MODEL",
    "qwen3.5-plus",
)
completion = client.chat.completions.create(
    model=model,
    messages=messages,
    extra_body={
        "enable_thinking": True,
        "enable_search": False
    },
    stream=True
)

reasoning_content = ""  # Traza de razonamiento completa
answer_content = ""  # Respuesta completa
is_answering = False  # Si hemos entrado en la fase de respuesta
print("\n" + "=" * 20 + "Razonamiento" + "=" * 20 + "\n")

for chunk in completion:
    if not chunk.choices:
        print("\nUso:")
        print(chunk.usage)
        continue

    delta = chunk.choices[0].delta

    # Recopilar solo contenido de razonamiento
    if hasattr(delta, "reasoning_content") and delta.reasoning_content is not None:
        if not is_answering:
            print(delta.reasoning_content, end="", flush=True)
        reasoning_content += delta.reasoning_content

    # Contenido recibido, iniciar fase de respuesta
    if hasattr(delta, "content") and delta.content:
        if not is_answering:
            print("\n" + "=" * 20 + "Respuesta" + "=" * 20 + "\n")
            is_answering = True
        print(delta.content, end="", flush=True)
        answer_content += delta.content

Para los desarrolladores que prefieren llamadas HTTP directas, aquí está el comando curl equivalente:

curl -X POST https://dashscope-intl.aliyuncs.com/compatible-mode/v1/chat/completions \
-H "Authorization: Bearer $DASHSCOPE_API_KEY" \
-H "Content-Type: application/json" \
-d '{
    "model": "Qwen3.5-35B-A3B",
    "messages": [{"role": "user", "content": "Explica la computación cuántica en términos sencillos"}]
}'

La estructura de la respuesta sigue el formato estándar de OpenAI, lo que facilita la integración con bases de código existentes que esperan respuestas de finalización de chat.

Funciones avanzadas: Modo de pensamiento

Una de las características más potentes de Qwen3.5 es el modo de pensamiento, que permite al modelo participar en un razonamiento paso a paso antes de producir respuestas. Esto resulta particularmente valioso para problemas matemáticos complejos, razonamiento lógico y análisis de múltiples pasos donde mostrar el proceso de razonamiento mejora la calidad del resultado.

Para habilitar el modo de pensamiento, incluya el parámetro enable_thinking en su solicitud:

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Si un tren viaja 120 km en 1.5 horas, ¿cuál es su velocidad promedio?"}
    ],
    extra_body={
        'enable_thinking': True,
        'thinking_budget': 81920
    }
)

El parámetro thinking_budget controla cuánto token puede usar el modelo para el razonamiento. Los presupuestos más altos permiten un razonamiento más exhaustivo, pero aumentan el consumo de tokens y el tiempo de respuesta. Para consultas simples, un presupuesto más bajo es suficiente, mientras que los problemas complejos se benefician de una asignación generosa.

Implementación de capacidades de visión multimodal

Las variantes con capacidad de visión —qwen3-vl-plus y qwen3-vl-flash— amplían las capacidades de la API para la comprensión de imágenes. Estos modelos pueden analizar imágenes, describir contenido visual, responder preguntas sobre imágenes y extraer información de fotografías o diagramas. Esto abre posibilidades para aplicaciones como la subtitulación automática de imágenes, la búsqueda visual, el procesamiento de documentos con diagramas y las herramientas de accesibilidad.

Aquí se explica cómo enviar una imagen para su análisis:

messages = [
    {
        "role": "user",
        "content": [
            {"type": "image_url", "image_url": {"url": "https://example.com/sample-image.jpg"}},
            {"type": "text", "text": "Describe lo que ves en esta imagen"}
        ]
    }
]

completion = client.chat.completions.create(
    model="Qwen3.5-35B-A3B",
    messages=messages
)

Puede proporcionar URL de imágenes o datos de imágenes codificados en base64 directamente en la solicitud. El modelo procesa la imagen junto con su mensaje de texto, generando respuestas que hacen referencia a elementos visuales de la imagen. Esta capacidad resulta inestimable para construir bots de servicio al cliente que puedan procesar capturas de pantalla cargadas, sistemas de moderación automatizados y herramientas educativas que expliquen el contenido visual.

Llamadas a funciones para la integración de herramientas

La llamada a funciones permite a Qwen3.5 invocar de forma inteligente herramientas y APIs externas basándose en las solicitudes del usuario. Esto tiende un puente entre la IA conversacional y la funcionalidad del mundo real, permitiendo que su aplicación realice acciones como consultar bases de datos, llamar a APIs de terceros o ejecutar lógica de negocio personalizada.

Para implementar la llamada a funciones, primero defina las herramientas disponibles en su solicitud:

tools = [
    {
        "type": "function",
        "function": {
            "name": "get_weather",
            "description": "Obtener el tiempo actual para una ubicación específica",
            "parameters": {
                "type": "object",
                "properties": {
                    "location": {
                        "type": "string",
                        "description": "Nombre de la ciudad, por ejemplo, San Francisco"
                    }
                },
                "required": ["location"]
            }
        }
    }
]

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "¿Qué tiempo hace en Tokio?"}
    ],
    tools=tools
)

Cuando el modelo determina que una llamada de función es apropiada, la respuesta incluye un objeto de llamada de herramienta en lugar de un mensaje de texto. Su aplicación luego ejecuta la función y devuelve los resultados, lo que permite al modelo generar una respuesta contextual final. Este patrón permite flujos de trabajo sofisticados como sistemas de reserva, aplicaciones de recuperación de datos y asistentes interactivos que pueden tomar acciones significativas.

Transmisión de respuestas para aplicaciones en tiempo real

Para aplicaciones donde la latencia percibida importa —como chatbots, asistentes de escritura y herramientas interactivas— la transmisión de respuestas proporciona una mejor experiencia de usuario al mostrar el texto a medida que se genera, en lugar de esperar respuestas completas.

completion = client.chat.completions.create(
    model="qwen3.5-flash",
    messages=[
        {"role": "user", "content": "Escribe un cuento sobre un robot que aprende a pintar"}
    ],
    stream=True
)

for chunk in completion:
    if chunk.choices[0].delta.content:
        print(chunk.choices[0].delta.content, end="", flush=True)

La transmisión reduce el tiempo que los usuarios esperan antes de ver una salida significativa, lo que es especialmente beneficioso para respuestas más largas. El protocolo de transmisión envía fragmentos a medida que se generan, lo que permite una visualización progresiva mientras el modelo continúa procesando.

Optimización de costos con caché de contexto

Qwen3.5 ofrece un ahorro significativo de costos a través del almacenamiento en caché de contexto, una característica que reduce los costos para aplicaciones con contexto repetido. Cuando envía mensajes que comparten indicaciones del sistema comunes o documentos base, la caché almacena este contexto para su reutilización. Las solicitudes posteriores que hacen referencia al mismo contenido en caché reciben descuentos sustanciales: 20 % del precio estándar para el almacenamiento en caché implícito y 10 % para la gestión explícita de la caché.

Esta característica resulta particularmente valiosa para aplicaciones como los sistemas de preguntas y respuestas de documentos, donde un documento base permanece constante mientras las preguntas del usuario varían. En lugar de reenviar el documento completo con cada consulta, se hace referencia al contexto almacenado en caché, lo que reduce drásticamente los costos de tokens a escala.

Seleccionando el modelo adecuado para sus necesidades

Elegir la variante Qwen3.5 apropiada depende de sus requisitos específicos. Aquí tiene una guía práctica:

Modelo	Tipo	Parámetros	Mejor para
Qwen3.5-397B-A17B	Imagen-Texto a Texto	403B	Capacidad máxima, razonamiento complejo
Qwen3.5-397B-A17B-FP8	Imagen-Texto a Texto	403B	Alta capacidad con almacenamiento optimizado
Qwen3.5-122B-A10B	Imagen-Texto a Texto	125B	Rendimiento y eficiencia equilibrados
Qwen3.5-35B-A3B	Imagen-Texto a Texto	36B	Rentable, tareas de propósito general
Qwen3.5-35B-A3B-Base	Imagen-Texto a Texto	36B	Modelo base para ajuste fino
Qwen3.5-27B	Imagen-Texto a Texto	28B	Aplicaciones ligeras

Qwen3.5-397B-A17B

El modelo estrella con 403 mil millones de parámetros, diseñado para la máxima capacidad en razonamiento complejo, análisis de datos a gran escala y tareas avanzadas de resolución de problemas.

Qwen3.5-397B-A17B-FP8

Misma capacidad que el modelo 397B con cuantificación FP8 optimizada para un almacenamiento reducido y una inferencia más rápida, manteniendo una alta calidad.

Qwen3.5-122B-A10B

Un modelo equilibrado de 125 mil millones de parámetros que ofrece un rendimiento sólido en tareas generales con requisitos de recursos razonables.

Qwen3.5-35B-A3B (Qwen3.5 Flash)

El modelo más versátil de 36 mil millones de parámetros, ideal para aplicaciones de propósito general, chatbots e implementaciones de producción rentables.

Qwen3.5-35B-A3B-Base

La versión del modelo base de la variante 35B, perfecta para el ajuste fino en conjuntos de datos específicos del dominio para crear soluciones de IA personalizadas.

Qwen3.5-27B

Un modelo ligero de 28 mil millones de parámetros diseñado para entornos con recursos limitados y aplicaciones donde la velocidad es crítica.

Para la mayoría de las aplicaciones generales, Qwen3.5 Flash (Qwen3.5-35B-A3B) proporciona el mejor equilibrio entre capacidad y costo. Si necesita el máximo rendimiento para tareas de razonamiento complejas, los modelos 397B ofrecen la mayor capacidad. La variante 122B ofrece un punto intermedio entre el rendimiento y los requisitos de recursos.

Conclusión

La API Qwen3.5 Flash ofrece a los desarrolladores una solución potente, flexible y rentable para integrar capacidades avanzadas de IA en aplicaciones. Con interfaces compatibles con OpenAI, generosos niveles gratuitos y una gama de modelos especializados, empezar requiere un esfuerzo mínimo a la vez que ofrece vías para implementaciones sofisticadas. Ya sea que esté construyendo chatbots simples o complejas aplicaciones multimodales, Qwen3.5 Flash proporciona la base para experiencias atractivas impulsadas por IA.

La clave para una implementación exitosa radica en comprender sus requisitos específicos (sensibilidad a la latencia, limitaciones presupuestarias y necesidades funcionales) y seleccionar la variante y configuración de modelo adecuadas. Comience con el nivel gratuito en la región de Singapur para explorar las capacidades, luego optimice su implementación en función del rendimiento y las observaciones de costos del mundo real.

Agilice su flujo de trabajo de desarrollo de API con Apidog. Desde el diseño de esquemas de API hasta la depuración de puntos finales y la generación de documentación, Apidog le ayuda a construir integraciones confiables más rápido. Es la plataforma todo en uno que facilita el trabajo con Qwen3.5 y cualquier otra API.

botón