วิธีใช้ Gemma 4 12B ฟรี: 6 วิธีที่ใช้งานได้จริงในปี 2026

ใช้ Gemma 4 12B ฟรีในปี 2026: เดโม Hugging Face, Ollama, LM Studio, llama.cpp, Transformers และ Google AI Edge. คำสั่งที่ใช้งานได้จริง พร้อมวิธีทดสอบ API ในเครื่อง

Ashley Innocent

Ashley Innocent

4 June 2026

วิธีใช้ Gemma 4 12B ฟรี: 6 วิธีที่ใช้งานได้จริงในปี 2026

enterprise.banner.title

enterprise.banner.feature1

enterprise.banner.feature2

enterprise.banner.feature3

enterprise.banner.ctaB

Gemma 4 12B เป็นแบบ open-weights และได้รับอนุญาตภายใต้ Apache 2.0 ดังนั้น "ฟรี" ในที่นี้หมายถึงฟรีจริง ๆ ไม่มีการเรียกเก็บค่า API และไม่มีค่าสมัครสมาชิก คุณสามารถดาวน์โหลดโมเดลและเรียกใช้บนเครื่องของคุณเอง หรือลองใช้ในแท็บเบราว์เซอร์ ค่าใช้จ่ายเดียวคือฮาร์ดแวร์ที่คุณมีอยู่แล้ว

สิ่งหนึ่งที่ควรรู้ล่วงหน้าคือ: โมเดล 12B สร้างขึ้นสำหรับการใช้งานในเครื่องและบนอุปกรณ์ ส่วนพี่น้องที่มีขนาดใหญ่กว่าคือ 31B และ 26B เป็นโมเดลที่ Google โฮสต์ให้สำหรับการสนทนาฟรีใน AI Studio จุดเด่นของ 12B คือสามารถทำงานบนแล็ปท็อปที่มี RAM 16GB ได้ ดังนั้นวิธีฟรีด้านล่างนี้จึงเกี่ยวกับการติดตั้งโมเดลนี้บนฮาร์ดแวร์ของคุณอย่างรวดเร็ว คุณเพิ่งรู้จักโมเดลนี้ใช่ไหม? เริ่มต้นด้วย Gemma 4 12B คืออะไร สำหรับข้อมูลจำเพาะ

นี่คือ 6 วิธีการใช้งาน ตั้งแต่การสาธิตในเบราว์เซอร์ 60 วินาที ไปจนถึง API ในเครื่องแบบเต็มรูปแบบที่คุณสามารถนำไปสร้างต่อยอดได้

สรุปโดยย่อ

วิธีการ สิ่งที่คุณได้รับ เหมาะสำหรับ
Hugging Face Space แชทผ่านเบราว์เซอร์, ไม่ต้องติดตั้ง สำหรับการลองใช้ในเวลาไม่กี่นาที
Ollama โมเดลในเครื่อง + API ที่เข้ากันได้กับ OpenAI นักพัฒนา, ใช้เพียงคำสั่งเดียว
LM Studio แอปพลิเคชันเดสก์ท็อปในเครื่องพร้อม GUI ไม่จำเป็นต้องใช้ Terminal
llama.cpp เซิร์ฟเวอร์ API ในเครื่องที่เบาและรวดเร็ว สำหรับการตั้งค่าขั้นสูงและใช้ทรัพยากรน้อย
HF Transformers Python, ควบคุมได้เต็มที่, GPU ฟรีบน Colab สำหรับ Notebooks และการปรับแต่งโมเดล
Google AI Edge บนอุปกรณ์, มือถือ โทรศัพท์และฮาร์ดแวร์ Edge

วิธีที่ 1: ลองใช้ในเบราว์เซอร์ของคุณ (ไม่ต้องติดตั้ง)

วิธีที่เร็วที่สุดในการดู Gemma 4 12B คือการใช้ Space สาธิตอย่างเป็นทางการบน Hugging Face ไม่ต้องดาวน์โหลด ไม่ต้องมีบัญชี ไม่ต้องใช้ GPU

  1. เปิด Space สาธิต Gemma 4 12B
  2. พิมพ์ข้อความแจ้ง (prompt) หรืออัปโหลดรูปภาพหรือคลิปเสียง
  3. อ่านการตอบกลับ

นี่เป็นวิธีที่เหมาะสมสำหรับการตรวจสอบเบื้องต้นอย่างรวดเร็ว คุณยังสามารถทดสอบความสามารถแบบ Multimodal ได้ด้วย เนื่องจาก Space รองรับการป้อนข้อมูลรูปภาพและเสียง เมื่อคุณพร้อมที่จะสร้างอะไรจริงจัง ให้ย้ายไปใช้วิธีการแบบโลคอลด้านล่างนี้

วิธีที่ 2: Ollama (ค่าเริ่มต้นสำหรับนักพัฒนา)

Ollama เป็นวิธีที่ง่ายที่สุดในการเรียกใช้ Gemma 4 12B ในเครื่อง และรับ API ที่ใช้งานได้ เพียงติดตั้งครั้งเดียว ดึงข้อมูลครั้งเดียวก็เสร็จ

ติดตั้ง Ollama

บน macOS หรือ Linux:

curl -fsSL https://ollama.com/install.sh | sh

บน Windows ให้ดาวน์โหลดตัวติดตั้งจาก ollama.com แล้วเรียกใช้

ดึงและเรียกใช้โมเดล

ollama pull gemma4:12b
ollama run gemma4:12b

คำสั่งแรกจะดาวน์โหลดโมเดล (รุ่น 4-บิต Q4_K_M เป็นค่าเริ่มต้น ประมาณ 8GB) คำสั่งที่สองจะพาคุณเข้าสู่การแชทแบบโต้ตอบ พิมพ์ /bye เพื่อออก

ใช้ API ในเครื่อง

นี่คือส่วนที่นักพัฒนาให้ความสนใจ Ollama ให้บริการ REST API ที่เข้ากันได้กับ OpenAI ที่ http://localhost:11434 ไม่มีคีย์ ไม่ต้องใช้คลาวด์ ไม่จำกัดอัตรา

curl http://localhost:11434/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{
    "model": "gemma4:12b",
    "messages": [
      {"role": "user", "content": "Explain how transformers work in two sentences."}
    ]
  }'

เนื่องจาก endpoint ตรงกับรูปแบบของ OpenAI SDK หรือเครื่องมือใด ๆ ที่รองรับ OpenAI จะสามารถทำงานได้โดยการชี้ base URL ไปที่ localhost:11434/v1 ซึ่งรวมถึงโปรแกรมแก้ไข, เฟรมเวิร์กเอเจนต์ และไคลเอ็นต์ API สำหรับรูปแบบการตั้งค่า IDE วิธีการนี้จะคล้ายกับ การใช้งาน DeepSeek V4 ใน Cursor ของเรา เพียงแค่เปลี่ยนสตริงโมเดลเป็น gemma4:12b

คำสั่งที่เป็นประโยชน์:

วิธีที่ 3: LM Studio (ไม่ต้องใช้ Terminal)

หากคุณไม่ต้องการใช้ Command Line, LM Studio คือแอปพลิเคชันเดสก์ท็อปสำหรับ Windows, macOS และ Linux

  1. ดาวน์โหลดและติดตั้ง LM Studio
  2. ค้นหา Gemma 4 12B ในแค็ตตาล็อกโมเดล
  3. เลือก quantization ที่เหมาะสมกับ RAM ของคุณแล้วดาวน์โหลด
  4. เปิดแท็บแชทแล้วเริ่มส่งข้อความแจ้ง (prompt)

LM Studio ยังรันเซิร์ฟเวอร์ในเครื่องพร้อม endpoint ที่เข้ากันได้กับ OpenAI โดยปกติจะอยู่ที่พอร์ต 1234 คุณจึงได้รับ API โดยไม่ต้องเขียนโค้ดใดๆ เป็นวิธีที่ง่ายที่สุดสำหรับนักออกแบบ, นักเขียน และทุกคนที่ต้องการหน้าต่างแชทมากกว่าไฟล์คอนฟิก

วิธีที่ 4: llama.cpp (เบาและรวดเร็ว)

llama.cpp เรียกใช้โมเดล GGUF โดยใช้ทรัพยากรน้อย และมาพร้อมกับเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI ของตัวเอง

ติดตั้ง:

# macOS
brew install llama.cpp

# Windows
winget install llama.cpp

จากนั้นเริ่มเซิร์ฟเวอร์ที่ชี้ไปยัง GGUF build อย่างเป็นทางการ เรียกดูคอลเลกชัน ggml-org/gemma-4 บน Hugging Face เพื่อหารายชื่อ repo ของ 12B ที่ถูกต้อง จากนั้นส่งไปยัง llama-server:

llama-server -hf ggml-org/gemma-4-12B-it-GGUF

นั่นจะเปิดเผย API ที่เข้ากันได้กับ OpenAI ที่ http://localhost:8080/v1 วิธีนี้เหมาะที่สุดเมื่อคุณต้องการพึ่งพาสิ่งอื่นน้อยที่สุด หรือเมื่อคุณใช้ฮาร์ดแวร์ที่ไม่แรงมาก นอกจากนี้ยังเป็นกลไกพื้นฐานของเครื่องมืออื่นๆ อีกหลายตัว ดังนั้นการเรียนรู้จึงคุ้มค่า

วิธีที่ 5: Hugging Face Transformers (ควบคุมได้เต็มที่)

สำหรับ Notebooks, สคริปต์ หรือการปรับแต่งโมเดล ให้เรียกใช้โมเดลด้วย Transformers ใน Python หากคุณไม่มี GPU ในเครื่อง โน้ตบุ๊ก Google Colab ฟรีจะช่วยให้คุณใช้งานได้

ติดตั้งไลบรารี:

pip install transformers torch accelerate torchvision
# add librosa for audio and video input
pip install librosa

จากนั้นโหลดโมเดลที่ปรับแต่งคำสั่งและสร้างผลลัพธ์:

from transformers import AutoProcessor, AutoModelForMultimodalLM

MODEL_ID = "google/gemma-4-12B-it"

processor = AutoProcessor.from_pretrained(MODEL_ID)
model = AutoModelForMultimodalLM.from_pretrained(
    MODEL_ID,
    dtype="auto",
    device_map="auto",
)

messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Write a short joke about saving RAM."},
]

inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    return_dict=True,
    return_tensors="pt",
    add_generation_prompt=True,
    enable_thinking=False,
).to(model.device)

input_len = inputs["input_ids"].shape[-1]
outputs = model.generate(**inputs, max_new_tokens=1024)
response = processor.decode(outputs[0][input_len:], skip_special_tokens=False)
print(processor.parse_response(response))

ตั้งค่า enable_thinking=True เพื่อเปิดโหมดการให้เหตุผลแบบทีละขั้นตอน หากต้องการป้อนไฟล์รูปภาพหรือเสียง ให้เพิ่มรายการเนื้อหาด้วย {"type": "image", ...} ก่อนข้อความ และ {"type": "audio", ...} หลังจากนั้น น้ำหนักโมเดลยังมีอยู่ใน Kaggle หากคุณต้องการแหล่งที่มานั้น รูปแบบโค้ดฉบับเต็มอยู่ใน คู่มือนักพัฒนา

วิธีที่ 6: Google AI Edge (บนอุปกรณ์และมือถือ)

หากต้องการเรียกใช้ Gemma 4 12B บนโทรศัพท์หรืออุปกรณ์ Edge, Google มี AI Edge stack แอป Google AI Edge Gallery และ LiteRT-LM CLI ทั้งคู่สามารถเรียกใช้ 12B บนอุปกรณ์ได้

สำหรับเซิร์ฟเวอร์ในเครื่องด้วย LiteRT-LM:

litert-lm import \
  --from-huggingface-repo=litert-community/gemma-4-12B-it-litert-lm \
  gemma-4-12B-it.litertlm gemma4-12b
litert-lm serve

นี่คือวิธีสำหรับผู้ช่วยมือถือแบบออฟไลน์และแอปพลิเคชันฝังตัวที่ข้อมูลไม่เคยออกจากอุปกรณ์

ทดสอบ Gemma 4 12B API ในเครื่องของคุณด้วย Apidog

เมื่อ Gemma 4 12B ทำงานผ่าน Ollama หรือ llama.cpp คุณจะมี HTTP API จริงบนเครื่องของคุณ ก่อนที่คุณจะเชื่อมต่อเข้ากับแอปพลิเคชัน การลองใช้มันในไคลเอ็นต์ API ที่เหมาะสมจะช่วยให้คุณทราบรูปแบบของคำขอและการตอบกลับที่แน่นอน Apidog ถูกสร้างมาเพื่อการนี้

นี่คือการตั้งค่าที่สะอาดตา:

  1. ดาวน์โหลด Apidog และสร้างโปรเจกต์ HTTP ใหม่
  2. เพิ่มคำขอ POST ไปที่ http://localhost:11434/v1/chat/completions
  3. ตั้งค่า body เป็น JSON และวางตัวอย่าง payload:
{
  "model": "gemma4:12b",
  "messages": [
    {"role": "user", "content": "Return a JSON object with two fields: city and country."}
  ],
  "stream": false
}
  1. บันทึก base URL เป็นตัวแปรสภาพแวดล้อมเพื่อให้คุณสามารถสลับระหว่าง Ollama (:11434) และ llama.cpp (:8080) ได้ในคลิกเดียว
  2. เพิ่มการยืนยันการตอบกลับเพื่อยืนยันว่าโมเดลส่งคืน JSON ที่ถูกต้องในฟิลด์ content
  3. เปลี่ยน "stream": true และดู Apidog แสดงผลโทเค็นที่สตรีมมา ซึ่งเป็นวิธีที่คุณจะยืนยันว่าการสตรีมทำงานได้ก่อนที่คุณจะสร้าง UI รอบๆ มัน

ผลตอบแทนที่ได้คือ: คุณจะพบข้อความแจ้ง (prompt) ที่ผิดรูปแบบหรือชื่อฟิลด์ที่ไม่ถูกต้องใน Apidog ไม่ใช่ในโค้ดแอปพลิเคชันของคุณที่ซับซ้อนไปสามชั้น หากคุณกำลังเปรียบเทียบไคลเอ็นต์ ลองดูสรุป เครื่องมือทดสอบ API ออนไลน์ฟรี และ ทางเลือก Postman ที่ดีที่สุด ของเรา ขั้นตอนการทดสอบเดียวกันนี้ใช้ได้กับ endpoint ที่เข้ากันได้กับ OpenAI ใดๆ ดังนั้นพฤติกรรมนี้จึงสามารถนำไปใช้กับ วิธีการทดสอบ API ด้วยเวิร์กโฟลว์สไตล์ Postman ได้โดยตรง

คุณควรเลือก Quantization แบบไหน?

Gemma 4 12B เหมาะกับเครื่องที่แตกต่างกันไป ขึ้นอยู่กับว่ามันถูกบีบอัดมากน้อยเพียงใด:

รุ่น หน่วยความจำที่ต้องการ ข้อดี/ข้อเสีย
ความแม่นยำเต็มรูปแบบ ~16GB คุณภาพดีที่สุด
8-บิต ~14GB คุณภาพเกือบเท่าความแม่นยำเต็มรูปแบบ
4-บิต (Q4_K_M) ~8GB คุณภาพลดลงเล็กน้อย, ทำงานได้บนเครื่องหลากหลาย

Ollama ใช้รุ่น 4-บิตเป็นค่าเริ่มต้น ซึ่งเป็นเหตุผลที่มันสามารถทำงานบน GPU 8GB หรือ MacBook 16GB ได้ หากคุณมีพื้นที่ว่าง (RAM) รุ่น 8-บิตจะให้คุณภาพที่ดีขึ้นโดยใช้พื้นที่เพิ่มอีกไม่กี่กิกะไบต์

คุณควรเลือกวิธีฟรีแบบไหน?

แผนภูมิการตัดสินใจแบบรวดเร็ว:

นักพัฒนาส่วนใหญ่เลือกใช้ Ollama สำหรับการใช้งานประจำวัน และเก็บ Transformers ไว้สำหรับงานที่ซับซ้อนกว่า

เคล็ดลับเพื่อดึงประสิทธิภาพสูงสุดจาก Gemma ในเครื่องฟรีของคุณ

คำถามที่พบบ่อย

Gemma 4 12B ฟรีจริงหรือ? ใช่ โมเดลนี้เป็นแบบ open-weights ภายใต้ Apache 2.0 สามารถดาวน์โหลดและเรียกใช้ได้ฟรี รวมถึงการใช้งานเชิงพาณิชย์ คุณจ่ายเพียงค่าฮาร์ดแวร์หรือคลาวด์ที่คุณใช้เรียกใช้มันเท่านั้น

จำเป็นต้องมี GPU หรือไม่? ไม่ แต่การมี GPU จะช่วยได้ รุ่น 4-บิตสามารถทำงานบน GPU 8GB หรือ Mac ที่มีหน่วยความจำรวม (unified-memory) 16GB หากใช้ CPU เพียงอย่างเดียวก็ทำงานได้ แต่จะช้า

ฉันสามารถใช้ Gemma 4 12B ใน Google AI Studio ได้หรือไม่? ปัจจุบันยังไม่ได้ AI Studio โฮสต์โมเดล 31B และ 26B สำหรับการแชทฟรีผ่านเบราว์เซอร์ โมเดล 12B สร้างขึ้นสำหรับการใช้งานในเครื่องและบนอุปกรณ์ ดังนั้นคุณต้องเรียกใช้ด้วยตัวเองตามวิธีการข้างต้น

API ในเครื่องต้องใช้ API key หรือไม่? ไม่ Ollama และ llama.cpp ให้บริการโมเดลบน localhost โดยไม่มี key หากเครื่องมือใดต้องการช่อง key ให้ใส่สตริงตัวยึดตำแหน่งใดก็ได้ เซิร์ฟเวอร์ในเครื่องจะละเว้นมัน

ฉันสามารถเรียกใช้จากโค้ด OpenAI ที่มีอยู่ได้หรือไม่? ใช่ ทั้ง Ollama และ llama.cpp เปิดเผย endpoint ที่เข้ากันได้กับ OpenAI ชี้ base URL ของคุณไปที่ http://localhost:11434/v1 (Ollama) หรือ http://localhost:8080/v1 (llama.cpp) และใช้โค้ดของคุณต่อไปได้เลย

ฉันจะเรียกใช้คุณสมบัติรูปภาพและเสียงได้อย่างไร? ใช้ Transformers, LM Studio หรือแอป AI Edge ซึ่งรองรับอินพุตแบบ Multimodal เพิ่มเนื้อหารูปภาพก่อนข้อความแจ้ง (prompt) และเนื้อหาเสียงหลังจากนั้น

Ollama หรือ llama.cpp ตัวไหนเร็วกว่ากัน? ทั้งคู่ใช้เอ็นจิ้นพื้นฐานเดียวกัน llama.cpp มี overhead น้อยกว่าและมีแฟล็กการปรับแต่งมากกว่า; Ollama ตั้งค่าได้ง่ายกว่า สำหรับคนส่วนใหญ่แล้วความแตกต่างมีเพียงเล็กน้อย

ดาวน์โหลดแอป

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API