วิธีใช้ Qwen3.5 ฟรีด้วย Ollama

Ashley Innocent

Ashley Innocent

25 February 2026

วิธีใช้ Qwen3.5 ฟรีด้วย Ollama

Apidog สำหรับองค์กร

ติดตั้งภายในองค์กร

SSO & RBAC

รองรับ SOC 2

สำรวจ Apidog Enterprise

นักพัฒนาต่างเสาะหา AI ระดับแนวหน้าที่รักษาสมดุลระหว่างความฉลาดบริสุทธิ์กับค่าใช้จ่ายเริ่มต้นที่เป็นศูนย์ โมเดล Qwen3.5 มอบสิ่งนั้นได้อย่างแท้จริงผ่าน Ollama เอเจนต์หลายโมดัลแบบโอเพนเวทเหล่านี้ ซึ่งเปิดตัวโดย Alibaba ได้สร้างมาตรฐานใหม่ในการให้เหตุผล การเขียนโค้ด การมองเห็น และการใช้งานเครื่องมือ คุณสามารถรันได้ทันทีผ่านแท็กคลาวด์ของ Ollama โดยไม่ต้องดาวน์โหลดไฟล์ขนาดใหญ่ ไม่ต้องมีคลัสเตอร์ GPU ระดับองค์กร

💡
ก่อนที่คุณจะเริ่มใช้งานพร้อมต์แรก ให้ดาวน์โหลด Apidog ได้ฟรี แพลตฟอร์ม API ที่ใช้งานง่ายนี้ช่วยให้คุณออกแบบ ส่ง และดีบัก REST endpoint ของ Ollama ด้วยโมเดล qwen3.5 ได้ในไม่กี่วินาที คุณสามารถเห็นภาพรวมของการสนทนาที่เสร็จสมบูรณ์ การตอบกลับแบบสตรีมมิ่ง และการเรียกใช้เครื่องมือ โดยไม่ต้องยุ่งยากกับการใช้ cURL หรือ JSON ดิบ Apidog เปลี่ยนเซิร์ฟเวอร์ Ollama ให้เป็นสภาพแวดล้อมการทดสอบที่พร้อมใช้งานจริง และไม่มีค่าใช้จ่ายในการเริ่มต้นใช้งาน คว้ามันเลยตอนนี้ที่ apidog.com และเปิดมันทิ้งไว้ในขณะที่คุณทำตามคู่มือนี้ – ขั้นตอนการตั้งค่าเล็กๆ น้อยๆ เช่นนี้สามารถสร้างประโยชน์มหาศาลให้กับเวิร์กโฟลว์ของคุณ
button

คุณสามารถเข้าถึงโมเดล MoE แบบไฮบริดขนาด 397B-A17B ได้ทันที ซึ่งเปิดใช้งานพารามิเตอร์เพียง 17B ต่อการส่งผ่านไปข้างหน้า สถาปัตยกรรมนี้รวมกลไกความสนใจเชิงเส้นแบบ Gated DeltaNet เข้ากับการกำหนดเส้นทางแบบผสมผสานผู้เชี่ยวชาญแบบสปาร์ส ทำให้ได้อัตราการประมวลผลเร็วกว่า Qwen3-Max รุ่นก่อนหน้าถึง 8.6 เท่าที่บริบท 32K และ 19 เท่าที่ 256K ผลการวัดประสิทธิภาพยืนยันความเหนือกว่า: MMLU-Pro 87.8, LiveCodeBench 83.6, MMMU 85.0 และ Tool Decathlon 38.3 ดังนั้น คุณจึงสามารถทดลองใช้เอเจนต์ภาษาและวิสัยทัศน์แบบเนทีฟ พร้อมรองรับ 201 ภาษาบนแพ็คเกจฟรีของ Ollama ก่อนที่คุณจะพิจารณาอัปเกรดเป็นแพ็คเกจแบบชำระเงิน

คู่มือนี้ครอบคลุมทุกรายละเอียดทางเทคนิคที่คุณต้องการ คุณจะติดตั้ง Ollama ดึงแท็กที่ถูกต้อง โต้ตอบผ่าน CLI และ API ผสานรวม Apidog เพื่อการทดสอบที่เข้มงวด สร้างแอปพลิเคชันจริง ปรับปรุงประสิทธิภาพ และแก้ไขปัญหาทั่วไป เมื่อเสร็จสิ้น คุณจะสามารถปรับใช้เวิร์กโฟลว์ที่ขับเคลื่อนด้วย qwen3.5 ซึ่งเทียบเท่ากับผู้ให้บริการคลาวด์รายใหญ่ แต่ยังคงอยู่ภายใต้ข้อจำกัดการใช้งานฟรี

อะไรทำให้ Qwen3.5 เป็นขุมพลังทางเทคนิค

Qwen3.5 พัฒนาซีรีส์ให้ก้าวหน้ายิ่งขึ้นด้วยการฝึกอบรมล่วงหน้าบนชุดข้อมูลหลากหลายภาษา STEM และการให้เหตุผลที่ได้รับการเสริมประสิทธิภาพภายใต้การกรองที่เข้มงวดยิ่งขึ้น วิศวกรได้ขยายการเรียนรู้แบบเสริมกำลังในสภาพแวดล้อมที่มีเอเจนต์นับล้าน โดยให้ความสำคัญกับความยากและความสามารถในการนำไปใช้ทั่วไปมากกว่าเมตริกที่แคบ ผลลัพธ์ที่ได้คือความเท่าเทียมกันระหว่างรุ่นกับโมเดลที่เกิน 1 ล้านล้านพารามิเตอร์ ในขณะที่ยังคงประสิทธิภาพไว้

Qwen3.5 Pretraining graph

Qwen3.5-397B-A17B ซึ่งเป็นรุ่นเรือธง ใช้กลไกความสนใจแบบไฮบริด กลไกความสนใจเชิงเส้นผ่าน Gated Delta Networks จัดการกับลำดับข้อมูลที่ยาว ในขณะที่ MoE แบบสปาร์สจะส่งโทเค็นไปยังผู้เชี่ยวชาญเฉพาะทาง คำศัพท์ขยายเป็น 250K โทเค็น เพิ่มประสิทธิภาพการเข้ารหัสได้ 10–60% ในภาษาต่างๆ การฝึกอบรมมัลติโมดัลแบบรวมช่วงต้นแบบเนทีฟ จะหลอมรวมโทเค็นข้อความและภาพตั้งแต่เริ่มต้น ทำให้ได้ประสิทธิภาพการฝึกอบรม 100% เมื่อเทียบกับไปป์ไลน์ที่ใช้ข้อความเท่านั้น

บน Ollama คุณสามารถเข้าถึงแท็กที่พร้อมใช้งานสองแท็ก:

ทั้งสองแท็กเปิดเผยความสามารถในการคิด (chain-of-thought), เครื่องมือ (การค้นหาเว็บ, ตัวแปลโค้ด) และพฤติกรรมแบบเอเจนต์ได้ทันที คุณจึงสามารถสลับระหว่างการตอบกลับที่รวดเร็วและการให้เหตุผลเชิงลึกได้ด้วยพารามิเตอร์เดียว

 Qwen3.5Benchmarks

ผลการทดสอบประสิทธิภาพยืนยันถึงความสามารถที่โดดเด่น ในการเขียนโค้ด Qwen3.5 ทำคะแนนได้ 76.4 ใน SWE-bench Verified และ 83.6 ใน LiveCodeBench v6 ด้านคณิตศาสตร์ทำได้ 91.3 ใน AIME26 และ 94.8 ใน HMMT งานด้านการมองเห็นทำได้ 93.1 ใน OCRBench และ 88.6 ใน MathVision ตัวชี้วัดของเอเจนต์ประกอบด้วย 72.9 ใน BFCL-V4 และ 86.7 ใน TAU2-Bench การรองรับหลายภาษามีถึง 201 ภาษา พร้อมคะแนนสูงสุดใน MMMLU (88.5) และ WMT24++ (78.9) คุณสามารถเข้าถึงประสิทธิภาพนี้ได้ผ่านคำสั่ง ollama run ง่ายๆ บนแพ็คเกจฟรี

ทำไม Ollama จึงให้การเข้าถึง Qwen3.5 ได้ฟรี

Ollama สรุปการจัดการโมเดลให้อยู่ในไบนารีเดียว คุณใช้คำสั่งเดียวกันไม่ว่าน้ำหนักโมเดลจะอยู่บนดิสก์ของคุณหรือโครงสร้างพื้นฐานคลาวด์ของ Ollama แผนฟรีอนุญาตให้ใช้งานโมเดลคลาวด์แบบเบาๆ ซึ่งเหมาะสำหรับการสำรวจ สร้างต้นแบบ และปริมาณงานปานกลาง ดังนั้น คุณจึงสามารถข้ามขนาดดิบ 807 GB ของโมเดล 397B เต็มรูปแบบ และเริ่มใช้งานได้ภายในไม่กี่วินาที

Qwen 3.5 on Ollama

โมเดลในเครื่องยังคงไม่จำกัดเมื่อดาวน์โหลดแล้ว แต่สำหรับ qwen3.5 แท็กทางการจะเชื่อมโยงไปยัง Ollama Cloud การนำเข้าจากชุมชน เช่น frob/qwen3.5 (GGUF quants) ช่วยให้คุณสามารถรันเวอร์ชันที่ผ่านการควอนไทซ์ในเครื่องได้ หากคุณมี RAM เพียงพอ (214 GB+ สำหรับ 4-bit MXFP4) คุณเลือกเส้นทางที่ตรงกับฮาร์ดแวร์และรูปแบบการใช้งานของคุณ Ollama จัดการการกำหนดเส้นทางอย่างโปร่งใส

นอกจากนี้ Ollama ยังเปิดเผย REST API ที่เข้ากันได้กับ OpenAI อย่างสมบูรณ์ที่พอร์ต 11434 คุณสามารถรวม qwen3.5 เข้ากับภาษาหรือเฟรมเวิร์กใดๆ ได้โดยไม่ต้องเปลี่ยนโค้ดฝั่งไคลเอนต์ Apidog ทำให้การผสานรวมนั้นไร้ที่ติ โดยช่วยให้คุณสามารถจำลองการตอบกลับ ตรวจสอบสกีมา และสร้างชุดการทดสอบได้โดยอัตโนมัติ

ความต้องการของระบบและข้อกำหนดเบื้องต้น

แท็กคลาวด์แทบจะไม่มีข้อกำหนดในเครื่องเลย คุณต้องการเพียง:

สำหรับการรัน GGUF ในเครื่องที่สร้างโดยชุมชน คุณจะต้องคำนวณความต้องการ VRAM อย่างละเอียด รุ่น 397B-A17B ที่ใช้ 4-bit MXFP4 quant จะใช้พื้นที่ดิสก์ประมาณ 214 GB และต้องการ RAM ของระบบประมาณ 256 GB พร้อมการใช้ MoE offloading เพื่อให้ได้ความเร็ว 25+ โทเค็น/วินาทีบน Mac ระดับไฮเอนด์ รุ่น Dense ที่เล็กกว่าจากซีรีส์ Qwen รุ่นก่อนหน้า (หากมีการพอร์ต) จะลดขนาดลงเป็นสัดส่วน คุณจึงควรเริ่มต้นด้วยแท็กคลาวด์ และเปลี่ยนไปใช้ Local Quants เมื่อคุณต้องการการทำงานแบบออฟไลน์หรือต้องการปริมาณงานที่สูงขึ้นเท่านั้น

คุณยังต้องติดตั้ง Git และโปรแกรมแก้ไขโค้ด Apidog ทำงานบน Windows, macOS และ Linux—ดาวน์โหลดแอปพลิเคชันเดสก์ท็อปเพื่อประสิทธิภาพที่ดีที่สุด

การติดตั้ง Ollama ในแพลตฟอร์มต่างๆ

คุณติดตั้ง Ollama ด้วยคำสั่งเดียวในแต่ละระบบปฏิบัติการหลัก

macOS

brew install ollama

จากนั้นเปิดใช้งาน:

ollama serve

Windows
ดาวน์โหลดตัวติดตั้งจาก ollama.com และรันมัน Ollama จะเริ่มทำงานโดยอัตโนมัติ เปิด PowerShell และพิมพ์:

ollama serve

Linux

curl -fsSL https://ollama.com/install.sh | sh
ollama serve

คุณตรวจสอบการติดตั้งด้วย:

ollama --version

คุณควรเห็นผลลัพธ์ที่แสดงถึงเวอร์ชันล่าสุด หากบริการไม่สามารถเริ่มได้ ให้ตรวจสอบความพร้อมใช้งานของพอร์ต 11434 และกฎไฟร์วอลล์ ตอนนี้คุณสามารถควบคุม LLM runtime แบบเต็มรูปแบบได้แล้ว

การดึงและรันโมเดล Qwen3.5

คุณดึงโมเดลด้วยคำสั่งเดียว Ollama จะดาวน์โหลดเฉพาะข้อมูลเมตาสำหรับแท็กคลาวด์และกำหนดเส้นทางการอนุมานจากระยะไกล

ollama pull qwen3.5:cloud

สำหรับความสามารถด้านวิสัยทัศน์:

ollama pull qwen3.5:397b-cloud

คุณเปิดเซสชันแบบโต้ตอบ:

ollama run qwen3.5:cloud

พร้อมต์จะปรากฏขึ้น คุณพิมพ์:

Explain the hybrid MoE architecture of Qwen3.5 in technical detail.

Qwen3.5 จะตอบกลับด้วยคำอธิบายที่แม่นยำเกี่ยวกับ Gated DeltaNet, sparse expert routing และ multi-token prediction คุณสามารถออกได้โดยพิมพ์ /bye

หากต้องการรันในเบื้องหลังเพื่อใช้งาน API:

ollama serve

จากนั้นในเทอร์มินัลอื่น คุณสามารถรักษาโมเดลให้อุ่นเครื่องไว้ได้ด้วย:

ollama run qwen3.5:cloud --keep-alive 24h

การโต้ตอบด้วย Command-Line และ Modelfiles

คุณสามารถปรับแต่งพฤติกรรมด้วย Modelfiles สร้างไฟล์ชื่อ Modelfile:

FROM qwen3.5:cloud

SYSTEM """
You are an expert systems architect. Always respond with step-by-step reasoning, code examples, and performance calculations.
"""

PARAMETER temperature 0.7
PARAMETER num_ctx 32768
PARAMETER top_p 0.95

คุณสร้างโมเดลที่กำหนดเอง:

ollama create qwen3.5-architect -f Modelfile
ollama run qwen3.5-architect

ตอนนี้คุณมีผู้ช่วยพิเศษที่ปรับแต่งมาสำหรับเอกสารทางเทคนิคและการตรวจสอบสถาปัตยกรรมแล้ว คุณสามารถทำซ้ำกระบวนการนี้สำหรับเอเจนต์ด้านการเขียนโค้ด การวิเคราะห์ภาพ หรือการแปลหลายภาษา

การใช้ประโยชน์จาก Ollama REST API

Ollama เปิดเผย endpoints ที่ทรงพลัง คุณส่งการสนทนาที่เสร็จสมบูรณ์ด้วย:

curl http://localhost:11434/api/chat -d '{
  "model": "qwen3.5:cloud",
  "messages": [
    { "role": "system", "content": "You are a helpful coding assistant." },
    { "role": "user", "content": "Write a FastAPI endpoint that calls qwen3.5 for sentiment analysis." }
  ],
  "stream": false,
  "options": {
    "temperature": 0.2,
    "num_predict": 2048
  }
}'
```

คุณจะได้รับ JSON response ที่สมบูรณ์ซึ่งมี message.content, total_duration และจำนวนโทเค็น คุณสามารถเปิดใช้งานการสตรีมโดยตั้งค่า "stream": true และประมวลผล Server-Sent Events แบบเรียลไทม์

สำหรับการสร้าง embeddings:

curl http://localhost:11434/api/embeddings -d '{
  "model": "qwen3.5:cloud",
  "prompt": "Technical documentation on hybrid MoE models"
}'
```

ดังนั้น คุณจึงสามารถสร้างไปป์ไลน์ RAG, การค้นหาเชิงความหมาย (semantic search) และเลเยอร์การจัดประเภท (classification layers) รอบ qwen3.5 ได้

การทดสอบและดีบักด้วย Apidog

คุณเปิด Apidog และสร้างโปรเจกต์ใหม่ชื่อ “Ollama Qwen3.5” ตั้งค่า Base URL เป็น http://localhost:11434/api

Ollama Qwen3.5 Project in Apidog

คุณเพิ่ม /chat endpoint:

คุณสามารถนำเข้าสเปก Ollama OpenAPI อย่างเป็นทางการหากมี หรือสร้างคอลเลกชันด้วยตนเอง Apidog สร้างกรณีทดสอบโดยอัตโนมัติ ตรวจสอบ JSON schemas และรองรับตัวแปรสภาพแวดล้อมสำหรับการสลับระหว่าง qwen3.5:cloud และ Modelfiles ที่กำหนดเอง

คุณสร้างคอลเลกชัน “Vision Tasks” และทดสอบอินพุตหลายโมดัล:

{
  "model": "qwen3.5:397b-cloud",
  "messages": [
    {
      "type": "user",
      "content": [
        { "type": "text", "text": "Describe this diagram in detail." },
        { "type": "image_url", "image_url": { "url": "data:image/png;base64,..." } }
      ]
    }
  ]
}

Apidog จะแสดงตัวอย่างรูปภาพ ส่งคำขอ และช่วยให้คุณตรวจสอบการใช้โทเค็น ความหน่วง และร่องรอยการให้เหตุผล คุณสามารถบันทึกการยืนยันสำหรับเวลาตอบสนอง < 5 วินาที และการมีอยู่ของคำศัพท์ทางเทคนิค คุณส่งออกคอลเลกชันเป็นเอกสาร Markdown หรือแชร์กับทีมของคุณได้

ดังนั้น คุณจึงไม่จำเป็นต้องคาดเดาอีกต่อไป ทุกพารามิเตอร์ ทุกฟิลด์การตอบกลับ และทุกข้อผิดพลาดจะปรากฏให้เห็นและสามารถทำซ้ำได้ การปรับแต่งเล็กๆ น้อยๆ ใน Apidog—เช่น การเพิ่มสคริปต์ก่อนคำขอเพื่อวอร์มอัพโมเดล—จะช่วยให้ได้ความน่าเชื่อถือระดับโปรดักชัน

การสร้างแอปพลิเคชันจริงด้วย Qwen3.5 และ Ollama

คุณผสานรวม qwen3.5 เข้ากับแอปพลิเคชัน Python โดยใช้ไคลเอนต์อย่างเป็นทางการ:

import ollama
from fastapi import FastAPI

app = FastAPI()

@app.post("/analyze")
async def analyze_code(request: dict):
    response = ollama.chat(
        model='qwen3.5:cloud',
        messages=[{'role': 'user', 'content': request['code']}],
        options={'temperature': 0.1}
    )
    return {"analysis": response['message']['content']}

คุณเปิดเผย endpoint นี้ เพิ่มการจำกัดอัตรา (rate limiting) และตรวจสอบการใช้โทเค็นผ่าน Apidog

สำหรับ Node.js คุณใช้แพ็คเกจ ollama npm และสตรีมการตอบกลับไปยังส่วนหน้าของ React คุณใช้การเรียกใช้เครื่องมือโดยกำหนดฟังก์ชันในคำขอและแยกวิเคราะห์ tool_calls จากผลลัพธ์ของโมเดล Qwen3.5 รองรับการใช้เครื่องมือแบบปรับเปลี่ยนได้โดยกำเนิด ดังนั้นคุณจึงสามารถเชื่อมโยงการค้นหาเว็บ การรันโค้ด และการวิเคราะห์ไฟล์เข้ากับเอเจนต์อัตโนมัติได้

คุณแปลงทั้งสแต็กเป็นคอนเทนเนอร์ด้วย Docker Compose:

services:
  ollama:
    image: ollama/ollama
    ports:
      - "11434:11434"
  apidog-tests:
    image: your-test-image
    depends_on:
      - ollama

ดังนั้น คุณจึงสามารถปรับใช้สภาพแวดล้อมที่สอดคล้องกันทั่วทั้งการพัฒนา การจัดเตรียม (staging) และการผลิตได้

คุณสมบัติขั้นสูง: การใช้เครื่องมือ, วิสัยทัศน์, และบริบทที่ยาวนาน

คุณเปิดใช้งานโหมดการคิดโดยใส่ enable_thinking: true ในไคลเอนต์ที่เข้ากันได้ หรือโดยการให้พร้อมต์อย่างชัดเจน โมเดลจะส่งออกแท็ก <thinking> ก่อนคำตอบสุดท้าย ซึ่งช่วยให้คุณเห็นกระบวนการให้เหตุผลของมัน

สำหรับวิสัยทัศน์ คุณส่งรูปภาพหรือ URL แบบ base64 แท็ก 397b-cloud ประมวลผลแผนภูมิ ภาพหน้าจอโค้ด และเอกสารด้วยความแม่นยำ 85.0 MMMU ใน MMMU ดังนั้น คุณจึงสร้างไปป์ไลน์การทำความเข้าใจเอกสารที่สามารถดึงตาราง แผนภาพ และบันทึกที่เขียนด้วยลายมือได้

การจัดการบริบทที่ยาวนานรองรับได้ถึง 256K โทเค็นบน Ollama คุณสามารถป้อนโค้ดเบสทั้งหมดหรือเอกสารงานวิจัย และขอสรุป การวิเคราะห์ความแตกต่าง หรือการปรับโครงสร้างสถาปัตยกรรม คุณตรวจสอบการใช้บริบทด้วยฟิลด์ context ในการตอบกลับ และใช้กลยุทธ์แบบ sliding-window เมื่อคุณเข้าใกล้ขีดจำกัด

การเพิ่มประสิทธิภาพและแก้ไขปัญหา

คุณรักษาโมเดลให้อุ่นเครื่องด้วย --keep-alive คุณลดความหน่วงโดยการตั้งค่า num_predict ให้ต่ำลงสำหรับงานง่ายๆ และสูงขึ้นสำหรับการให้เหตุผลที่ซับซ้อน

ปัญหาทั่วไปและการแก้ไข:

คุณบันทึกการเรียกใช้ API ทุกครั้งผ่าน Apidog เพื่อระบุจุดคอขวดได้อย่างรวดเร็ว ดังนั้น คุณจึงสามารถรักษาระยะเวลาทำงานที่สูงได้แม้ในแผนบริการฟรี

สรุป

ตอนนี้คุณมีแผนงานทางเทคนิคที่สมบูรณ์เพื่อใช้โมเดล qwen3.5 ได้ฟรีกับ Ollama คุณได้ติดตั้งรันไทม์ ดึงแท็กคลาวด์ เชี่ยวชาญการโต้ตอบผ่าน CLI และ API เพิ่มประสิทธิภาพการทดสอบด้วย Apidog สร้างแอปพลิเคชันที่พร้อมใช้งานจริง และปรับแต่งสำหรับปริมาณงานจริง ทุกขั้นตอนใช้ประโยชน์จากคำสั่งที่ใช้งานอยู่ พารามิเตอร์ที่แม่นยำ และผลลัพธ์ที่วัดได้

การกระทำเล็กๆ น้อยๆ — การดาวน์โหลด Apidog การสร้าง Modelfile หนึ่งไฟล์ หรือการเพิ่ม assertion เพียงครั้งเดียว — จะรวมกันเป็นผลผลิตที่เปลี่ยนแปลงไป คุณสามารถทดลองกับเอเจนต์หลายโมดัลระดับแนวหน้าได้แล้ววันนี้โดยไม่ต้องใช้บัตรเครดิตหรือตั๋วโครงสร้างพื้นฐาน แผนบริการฟรีของ Ollama ขจัดทุกอุปสรรค

button

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API