วิธีติดตั้ง GLM-OCR: คู่มือฉบับสมบูรณ์เพื่อความเข้าใจเอกสาร

Ashley Goolam

Ashley Goolam

5 February 2026

วิธีติดตั้ง GLM-OCR: คู่มือฉบับสมบูรณ์เพื่อความเข้าใจเอกสาร

จะเป็นอย่างไรถ้าคุณสามารถแยกข้อความจากเอกสาร PDF ที่ซับซ้อน ตาราง และสูตรต่างๆ ได้ด้วยโมเดลที่มีขนาดเล็กกว่าแอปพลิเคชันบนสมาร์ทโฟนส่วนใหญ่? GLM-OCR บรรลุความเข้าใจเอกสารระดับแนวหน้าด้วยพารามิเตอร์เพียง 0.9 พันล้านตัว มันมีน้ำหนักเบาพอที่จะทำงานบนฮาร์ดแวร์พื้นฐาน แต่แม่นยำพอที่จะขึ้นอันดับหนึ่งของ OmniDocBench V1.5 ด้วยคะแนน 94.62 คะแนน

เครื่องมือ OCR แบบดั้งเดิมประสบปัญหาเกี่ยวกับโครงสร้างเอกสาร พวกเขาสูญเสียการจัดรูปแบบตาราง, อ่านสูตรทางคณิตศาสตร์ผิดพลาด และทำงานไม่ได้กับเลย์เอาต์หลายคอลัมน์ API บนคลาวด์ช่วยแก้ปัญหาเหล่านี้ได้แต่คิดค่าบริการตามคำขอและส่งเอกสารที่ละเอียดอ่อนของคุณไปยังเซิร์ฟเวอร์ของบุคคลที่สาม GLM-OCR ขจัดปัญหาทั้งสองประการ: จัดการกับเลย์เอาต์ที่ซับซ้อนภายในเครื่องด้วยความแม่นยำระดับการผลิต ทั้งหมดภายใต้ใบอนุญาต MIT ที่อนุญาตให้ใช้งานเชิงพาณิชย์โดยไม่มีค่าธรรมเนียมใบอนุญาต

💡
เมื่อสร้างไปป์ไลน์การประมวลผลเอกสารที่ต้องการ การทดสอบ API ที่น่าเชื่อถือ—ไม่ว่าจะเป็นการดึงข้อมูลจากใบแจ้งหนี้ การแยกวิเคราะห์ เอกสารทางเทคนิค หรือการดำเนินการประมวลผลแบบฟอร์มอัตโนมัติ—Apidog ช่วยปรับปรุงเวิร์กโฟลว์ทั้งหมดให้มีประสิทธิภาพ มันให้การสร้างคำขอด้วยภาพ, การสร้างเอกสารอัตโนมัติ และเครื่องมือดีบักแบบร่วมมือกันที่ทำงานร่วมกับการติดตั้ง GLM-OCR ของคุณได้อย่างราบรื่น
ดาวน์โหลดแอป

ทำความเข้าใจสถาปัตยกรรม GLM-OCR

GLM-OCR ใช้สถาปัตยกรรมตัวเข้ารหัส-ตัวถอดรหัสสามส่วนที่ได้รับการปรับแต่งเพื่อความเข้าใจเอกสาร ตัวเข้ารหัสภาพ CogViT ประมวลผลรูปภาพเอกสารโดยใช้น้ำหนักที่ฝึกไว้ล่วงหน้าจากคู่รูปภาพ-ข้อความนับพันล้านคู่ มันแยกคุณลักษณะทางภาพในขณะที่รักษาความสัมพันธ์เชิงพื้นที่ที่สำคัญสำหรับการทำความเข้าใจเลย์เอาต์

ตัวเชื่อมต่อข้ามโมดอลที่มีน้ำหนักเบาจะอยู่ระหว่างตัวเข้ารหัสและตัวถอดรหัส คอมโพเนนต์นี้จะทำการสุ่มตัวอย่างโทเค็นภาพลงอย่างมีประสิทธิภาพ ลดภาระการคำนวณโดยไม่ลดทอนความแม่นยำ จากนั้นตัวถอดรหัสภาษา GLM-0.5B จะสร้างเอาต์พุตข้อความที่มีโครงสร้าง จัดการทุกอย่างตั้งแต่ย่อหน้าธรรมดาไปจนถึงตารางซ้อนที่ซับซ้อน

โมเดลนี้ใช้ไปป์ไลน์การอนุมานสองขั้นตอน ขั้นแรก PP-DocLayout-V3 วิเคราะห์โครงสร้างเอกสาร—ระบุหัวเรื่อง ย่อหน้า ตาราง และรูปภาพ ประการที่สอง การรับรู้แบบขนานจะประมวลผลแต่ละส่วนพร้อมกัน วิธีการนี้รักษาลำดับชั้นของเอกสารในขณะที่ OCR แบบดั้งเดิมจะทำให้ทุกอย่างแบนราบเป็นข้อความที่ไม่มีโครงสร้าง

นวัตกรรมการฝึกอบรมยังช่วยเพิ่มประสิทธิภาพอีกด้วย การสูญเสียการคาดการณ์หลายโทเค็นช่วยเพิ่มประสิทธิภาพการฝึกอบรมโดยการคาดการณ์หลายโทเค็นพร้อมกัน การเรียนรู้แบบเสริมแรงแบบเต็มงานที่เสถียรช่วยเพิ่มความสามารถในการนำไปใช้กับเอกสารประเภทต่างๆ ผลลัพธ์: ความแม่นยำ 96.5% ในการรับรู้สูตร 86.0% ในการรับรู้ตาราง และประสิทธิภาพชั้นนำในงานดึงข้อมูล

ในการอนุมาน GLM-OCR ประมวลผลเอกสาร PDF ได้ 1.86 หน้าต่อวินาทีบน GPU ตัวเดียว—เร็วกว่าโมเดลที่เทียบเคียงได้อย่างมาก จำนวนพารามิเตอร์ 0.9B หมายความว่าคุณสามารถใช้งานบนฮาร์ดแวร์ทั่วไปแทนที่จะเป็นคลัสเตอร์ระดับองค์กร

โมเดล GLM-OCR

ข้อมูลจำเพาะของโมเดล

GLM-OCR รองรับเอกสารที่มีความละเอียดสูงสุด 8K (7680×4320 พิกเซล) สามารถจดจำ 8 ภาษา รวมถึงอังกฤษ จีน ญี่ปุ่น และเกาหลี โมเดลนี้ประมวลผลทั้งรูปภาพแรสเตอร์ (PNG, JPEG) และอินพุตเวกเตอร์ การอนุมานโดยทั่วไปใช้ VRAM 4-6GB ที่ความแม่นยำ FP16 ซึ่งสามารถทำงานได้บน GPU สำหรับผู้บริโภค เช่น RTX 3060 หรืออินสแตนซ์คลาวด์ เช่น AWS g4dn.xlarge

> | ฮาร์ดแวร์        | VRAM ที่ต้องการ | หน้า/วินาที | กรณีการใช้งาน         |
 --------------------------------------------------------------------
> | RTX 3060        | 4-6GB         | ~1.5      | การพัฒนา      |
> | RTX 4090        | 4-6GB         | ~2.5      | การผลิต       |
> | AWS g4dn.xlarge | 16GB          | ~1.8      | การติดตั้งบนคลาวด์ |
> | 4x A100 (TPS=4) | 80GB          | ~7.0      | ระดับองค์กร       |

ตัวเลือกการติดตั้งใช้งานภายในเครื่อง

GLM-OCR รองรับวิธีการติดตั้งใช้งานสี่วิธีขึ้นอยู่กับโครงสร้างพื้นฐานและความต้องการด้านประสิทธิภาพของคุณ แต่ละวิธีใช้โมเดลน้ำหนักพื้นฐานเดียวกันจาก Hugging Face แต่ปรับให้เหมาะสมสำหรับสถานการณ์ที่แตกต่างกัน

  1. vLLM ให้ความสมดุลที่ดีที่สุดระหว่างปริมาณงานและเวลาแฝงสำหรับปริมาณงานการผลิต มันใช้ PagedAttention สำหรับการจัดการหน่วยความจำที่มีประสิทธิภาพและรองรับการจัดชุดแบบต่อเนื่องสำหรับสถานการณ์ที่มีการทำงานพร้อมกันสูง
  2. SGLang มอบประสิทธิภาพสูงสุดผ่านการเพิ่มประสิทธิภาพรันไทม์ มันเก่งในการถอดรหัสแบบคาดเดาและการสร้างที่มีโครงสร้าง ทำให้เหมาะอย่างยิ่งเมื่อคุณต้องการการอนุมานที่เร็วที่สุดเท่าที่จะเป็นไปได้
  3. Ollama มอบการตั้งค่าที่ง่ายที่สุด เพียงคำสั่งเดียวก็ดาวน์โหลดและเรียกใช้โมเดลในเครื่องได้—ไม่ต้องพึ่งพา Python หรือไฟล์กำหนดค่า เหมาะสำหรับสร้างต้นแบบและการใช้งานส่วนตัว
  4. Transformers เปิดใช้งานการรวม Python โดยตรง ใช้สิ่งนี้สำหรับการพัฒนา การดีบัก หรือเมื่อคุณต้องการการควบคุมที่ละเอียดอ่อนเหนือไปป์ไลน์การอนุมาน

ทุกวิธีต้องใช้ GLM-OCR weights จาก Hugging Face (zai-org/GLM-OCR) โมเดลทำงานบน NVIDIA GPUs ที่รองรับ CUDA การอนุมานแบบ CPU เท่านั้นก็สามารถทำได้แต่จะลดความเร็วลงอย่างมาก

การตั้งค่า vLLM สำหรับการผลิต

vLLM ให้การอนุมานพร้อมใช้งานสำหรับการผลิตด้วย API ที่เข้ากันได้กับ OpenAI สิ่งนี้ช่วยให้คุณสามารถเปลี่ยน GLM-OCR เข้าไปในแอปพลิเคชันที่มีอยู่ซึ่งปัจจุบันใช้โมเดลวิชันของ OpenAI ได้

การติดตั้ง

ติดตั้ง vLLM พร้อมรองรับ CUDA:

pip install -U vllm --extra-index-url https://wheels.vllm.ai/nightly

สำหรับการติดตั้งแบบคอนเทนเนอร์ ให้ใช้ Docker image อย่างเป็นทางการ:

docker pull vllm/vllm-openai:nightly

ติดตั้ง Transformers ที่เข้ากันได้—vLLM ต้องการเวอร์ชันการพัฒนาล่าสุดสำหรับการรองรับ GLM-OCR:

pip install git+https://github.com/huggingface/transformers.git

การเปิดใช้งานบริการ

เริ่มเซิร์ฟเวอร์ vLLM ด้วย GLM-OCR:

vllm serve zai-org/GLM-OCR \
  --allowed-local-media-path / \
  --port 8080 \
  --speculative-config '{"method": "mtp", "num_speculative_tokens": 1}'

แฟล็ก --allowed-local-media-path เปิดใช้งานให้โมเดลสามารถเข้าถึงไฟล์รูปภาพในเครื่องได้ กำหนดค่านี้เป็นไดเรกทอรีเอกสารของคุณหรือ / เพื่อการเข้าถึงแบบไม่จำกัด (ใช้ด้วยความระมัดระวังในการผลิต)

แฟล็ก --speculative-config เปิดใช้งาน Multi-Token Prediction ซึ่งเป็นคุณสมบัติของ GLM-OCR ที่ช่วยเร่งการอนุมานโดยการคาดการณ์หลายโทเค็นพร้อมกัน

การผสานรวมกับไคลเอ็นต์

เมื่อทำงานแล้ว คุณสามารถโต้ตอบกับ GLM-OCR ได้ผ่านคำขอ HTTP มาตรฐาน:

curl --location --request POST 'http://localhost:8080/v1/chat/completions' \
  --header 'Content-Type: application/json' \
  --data-raw '{
    "model": "zai-org/GLM-OCR",
    "messages": [
      {
        "role": "user",
        "content": [
          {"type": "image_url", "image_url": {"url": "file:///path/to/document.png"}},
          {"type": "text", "text": "Extract all text from this document"}
        ]
      }
    ]
  }'

รูปแบบการตอบกลับที่เข้ากันได้กับ OpenAI หมายความว่า SDK ที่มีอยู่สามารถทำงานได้โดยไม่ต้องมีการปรับเปลี่ยนใดๆ เพียงชี้ไคลเอ็นต์ OpenAI ของคุณไปที่ http://localhost:8080 และใช้ zai-org/GLM-OCR เป็นชื่อโมเดล

การกำหนดค่าสำหรับการผลิต

สำหรับการติดตั้งใช้งานที่มีปริมาณงานสูง ให้เพิ่ม Tensor Parallelism ใน GPU หลายตัว:

vllm serve zai-org/GLM-OCR \
  --tensor-parallel-size 4 \
  --gpu-memory-utilization 0.95 \
  --max-model-len 8192 \
  --allowed-local-media-path / \
  --port 8080

ปรับ --tensor-parallel-size ให้ตรงกับจำนวน GPU ของคุณ ตรวจสอบการใช้งาน GPU และเพิ่มขนาดแบทช์เพื่อเพิ่มปริมาณงานสูงสุด

การตรวจสอบและการปรับขนาด

ติดตามประสิทธิภาพของ vLLM ผ่านปลายทางเมตริกในตัวที่ /metrics ข้อมูลที่เข้ากันได้กับ Prometheus รวมถึงเวลาแฝงของคำขอ ความลึกของคิว และการใช้งาน GPU ตั้งค่าการแจ้งเตือนเมื่อความลึกของคิวเกิน 10 คำขอหรือหน่วยความจำ GPU ถึง 90% สำหรับการปรับขนาดแนวนอน ให้ติดตั้ง vLLM หลายอินสแตนซ์หลัง Load Balancer ที่มี Sticky Sessions เพื่อรักษาสภาพแวดล้อมข้ามคำขอ

พิจารณาใช้ คุณสมบัติการตรวจสอบ API ของ Apidog เพื่อติดตามเมตริกการผลิตควบคู่ไปกับประสิทธิภาพของโมเดลของคุณ

SGLang การอนุมานประสิทธิภาพสูง

SGLang ให้การปรับแต่งรันไทม์ขั้นสูงเพื่อความเร็วในการอนุมานสูงสุด มันเก่งในการถอดรหัสแบบคาดเดาและการสร้างที่มีโครงสร้าง ทำให้เหมาะอย่างยิ่งสำหรับแอปพลิเคชันที่อ่อนไหวต่อเวลาแฝง

การติดตั้ง

ติดตั้ง SGLang ผ่าน Docker (แนะนำสำหรับการแยกส่วนที่ต้องพึ่งพา):

docker pull lmsysorg/sglang:dev

หรือติดตั้งจากต้นฉบับ:

pip install git+https://github.com/sgl-project/sglang.git#subdirectory=python

ติดตั้ง Transformers ที่เข้ากันได้:

pip install git+https://github.com/huggingface/transformers.git

การเปิดใช้งานบริการ

เริ่ม SGLang ด้วยการถอดรหัสแบบคาดเดาที่ปรับแต่งแล้ว:

python -m sglang.launch_server \
  --model zai-org/GLM-OCR \
  --port 8080 \
  --speculative-algorithm NEXTN \
  --speculative-num-steps 3 \
  --speculative-eagle-topk 1 \
  --speculative-num-draft-tokens 4

พารามิเตอร์การถอดรหัสเชิงคาดการณ์จะเร่งการอนุมานโดยการสร้างโทเค็นหลายตัวพร้อมกันและตรวจสอบแบบขนาน ปรับ --speculative-num-steps ตามฮาร์ดแวร์ของคุณ—ค่าที่สูงขึ้นจะเพิ่มความเร็วแต่ต้องใช้หน่วยความจำมากขึ้น

ผลลัพธ์ที่มีโครงสร้าง

การสร้างโครงสร้างของ SGLang ช่วยให้ GLM-OCR ส่งออก JSON หรือสคีมาอื่นๆ ที่ถูกต้อง:

import sglang as sgl

@sgl.function
def extract_invoice(s, image_path):
    s += sgl.user(sgl.image(image_path) + "Extract invoice data as JSON")
    s += sgl.assistant(sgl.gen("json_output", json_schema={
        "type": "object",
        "properties": {
            "invoice_number": {"type": "string"},
            "date": {"type": "string"},
            "total": {"type": "number"},
            "items": {
                "type": "array",
                "items": {
                    "type": "object",
                    "properties": {
                        "description": {"type": "string"},
                        "quantity": {"type": "integer"},
                        "price": {"type": "number"}
                    }
                }
            }
        }
    }))

result = extract_invoice.run(image_path="invoice.png")
print(result["json_output"])

สิ่งนี้รับประกันผลลัพธ์ที่เครื่องอ่านได้โดยไม่ต้องมีการประมวลผลเพิ่มเติมหรือตรรกะการลองใหม่ สำหรับปลายทาง API ที่ให้บริการการตอบสนองที่มีโครงสร้าง การตรวจสอบสคีมาของ Apidog สามารถตรวจสอบรูปแบบเอาต์พุตของคุณโดยอัตโนมัติว่าตรงกับโครงสร้าง JSON ที่คาดหวังหรือไม่

เมื่อใดควรเลือก SGLang แทน vLLM

เลือก SGLang เมื่อคุณต้องการเอาต์พุตที่มีโครงสร้างหรือการถอดรหัสแบบคาดเดา การสร้างแบบจำกัดด้วย regex รับประกันสคีมา JSON ที่ถูกต้อง ทำให้ไม่จำเป็นต้องใช้ตรรกะการลองใหม่ อัลกอริทึมการคาดเดาช่วยเร่งการสร้างโทเค็นได้ 30-40% บน GPU ที่มีหน่วยความจำเพียงพอ

> | คุณสมบัติ           | vLLM            | SGLang              |
 ---------------------------------------------------------------
> | ปริมาณงาน        | สูง            | สูงมาก           |
> | เวลาแฝง           | ดี            | ยอดเยี่ยม           |
> | เข้ากันได้กับ OpenAI | ใช่             | ไม่                  |
> | เอาต์พุตที่มีโครงสร้าง | กำหนดเอง          | ในตัว            |
> | การสนับสนุนชุมชน | ยอดเยี่ยม       | กำลังเติบโต             |
> | ความซับซ้อนในการตั้งค่า  | ปานกลาง          | สูง                |
> | เหมาะสำหรับ          | API สำหรับการผลิต | แอปพลิเคชันที่ต้องการความเร็วสูง |

สำหรับ OCR มาตรฐานที่ไม่มีข้อกำหนดด้านเวลาแฝงที่เข้มงวด vLLM ให้ประสิทธิภาพที่เพียงพอพร้อมการกำหนดค่าที่ง่ายกว่าและการสนับสนุนชุมชนที่ดีกว่า

การผสานรวม Transformers โดยตรง

สำหรับการพัฒนา การดีบัก หรือไปป์ไลน์ที่กำหนดเอง ให้ใช้ไลบรารี Transformers โดยตรง วิธีนี้ให้ความยืดหยุ่นสูงสุดโดยแลกกับปริมาณงานที่ต่ำกว่าเมื่อเทียบกับ vLLM หรือ SGLang

การติดตั้ง

ติดตั้ง Transformers เวอร์ชันล่าสุดจากแหล่งที่มา:

pip install git+https://github.com/huggingface/transformers.git

การอนุมานพื้นฐาน

โหลดและรัน GLM-OCR ใน Python:

from transformers import AutoProcessor, AutoModelForImageTextToText
import torch

MODEL_PATH = "zai-org/GLM-OCR"

# เตรียมอินพุต
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "document.png"},
            {"type": "text", "text": "Text Recognition:"}
        ],
    }
]

# โหลดโมเดลและโปรเซสเซอร์
processor = AutoProcessor.from_pretrained(MODEL_PATH)
model = AutoModelForImageTextToText.from_pretrained(
    MODEL_PATH,
    torch_dtype="auto",
    device_map="auto",
)

# ประมวลผลอินพุต
inputs = processor.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=True,
    return_dict=True,
    return_tensors="pt"
).to(model.device)

inputs.pop("token_type_ids", None)

# สร้างเอาต์พุต
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(
    generated_ids[0][inputs["input_ids"].shape[1]:],
    skip_special_tokens=False
)

print(output_text)

device_map="auto" จะกระจายเลเยอร์โมเดลไปยัง GPU ที่มีอยู่โดยอัตโนมัติ สำหรับการติดตั้งบน GPU เดี่ยว จะโหลดโมเดลทั้งหมดลงบนอุปกรณ์เดียว สำหรับการอนุมานแบบ CPU เท่านั้น ให้เปลี่ยนเป็น device_map="cpu"—แต่คาดการณ์ได้ว่าประสิทธิภาพจะช้าลงอย่างมาก

การประมวลผลแบบกลุ่ม

ประมวลผลเอกสารหลายฉบับอย่างมีประสิทธิภาพ:

import os
from pathlib import Path

def batch_process(directory, output_file):
    documents = list(Path(directory).glob("*.png")) + \
                list(Path(directory).glob("*.pdf"))
    
    results = []
    for doc_path in documents:
        # แปลง PDF เป็นรูปภาพหากจำเป็น
        if doc_path.suffix == ".pdf":
            images = convert_pdf_to_images(doc_path)
        else:
            images = [doc_path]
        
        for image in images:
            text = extract_text(image)  # ฟังก์ชันการแยกข้อมูลของคุณ
            results.append({
                "file": str(doc_path),
                "page": image.page_num if hasattr(image, 'page_num') else 1,
                "text": text
            })
    
    # บันทึกผลลัพธ์
    with open(output_file, 'w') as f:
        json.dump(results, f, indent=2)

# การใช้งาน
batch_process("./invoices/", "extracted_data.json")

เมื่อประมวลผลเอกสารในการผลิต การจัดการพื้นที่ทำงานของ Apidog ช่วยจัดระเบียบปลายทางประมวลผลเอกสารหลายรายการให้เป็นกลุ่มเชิงตรรกะ ทำให้ง่ายต่อการทดสอบและตรวจสอบเวิร์กโฟลว์ที่แตกต่างกัน

การเพิ่มประสิทธิภาพหน่วยความจำ

สำหรับ GPU ที่มี VRAM จำกัด ให้ใช้ Quantization:

from transformers import BitsAndBytesConfig

quantization_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.float16
)

model = AutoModelForImageTextToText.from_pretrained(
    MODEL_PATH,
    quantization_config=quantization_config,
    device_map="auto",
)

การ Quantization 4 บิตช่วยลดการใช้หน่วยความจำได้ 75% โดยมีผลกระทบต่อความแม่นยำน้อยที่สุดสำหรับงานความเข้าใจเอกสาร

การจัดการกรณีพิเศษ

เอกสารที่มีลายมือเขียนมากหรือมีมุมเอียงมากจะลดความแม่นยำลง ควรประมวลผลรูปภาพด้วยอัลกอริทึมการปรับเอียง (deskewing) ก่อนส่งไปยัง GLM-OCR สำหรับ PDF หลายหน้า ให้แยกแต่ละหน้าเป็นรูปภาพแยกกัน แทนที่จะส่งไฟล์ทั้งหมด วิธีนี้ช่วยให้สามารถประมวลผลแบบขนานและลดความซับซ้อนในการจัดการข้อผิดพลาดเมื่อแต่ละหน้าล้มเหลว เอกสารที่มีลายน้ำบางครั้งอาจทำให้เกิดผลบวกปลอมในบริเวณข้อความ—ลองปรับคอนทราสต์หากพบเอาต์พุตที่บิดเบี้ยวในบางพื้นที่

กรณีการใช้งาน GLM-OCR ในโลกจริง

GLM-OCR โดดเด่นในสถานการณ์การผลิตหลายประการ:

การประมวลผลใบแจ้งหนี้

ทีมการเงินจะแยกรายการบรรทัด วันที่ และยอดรวมจากใบแจ้งหนี้ที่สแกน โมเดลยังคงรักษาโครงสร้างตาราง เพื่อให้มั่นใจว่าการคำนวณยอดรวมที่แม่นยำโดยไม่ต้องมีการตรวจสอบด้วยตนเอง ประมวลผลใบแจ้งหนี้ได้หลายพันรายการต่อวันด้วยการติดตั้งในเครื่องและไม่มีค่าใช้จ่าย API

เอกสารทางเทคนิค

ทีมวิศวกรรมแปลงคู่มือและข้อกำหนดทางเทคนิคที่เป็น PDF ให้เป็นข้อความที่สามารถค้นหาได้ การจดจำสูตรจะรักษาสมการทางคณิตศาสตร์ ทำให้เนื้อหาทางเทคนิคสามารถอ่านได้ด้วยเครื่อง เหมาะสำหรับโครงการปรับปรุงเอกสารเก่าให้ทันสมัย

ตัวอย่าง GLM-OCR

การวิเคราะห์เอกสารทางกฎหมาย

ผู้เชี่ยวชาญด้านกฎหมายตรวจสอบสัญญาและข้อตกลงด้วย OCR ที่เคารพลําดับชั้นของเอกสาร การจัดการเลย์เอาต์หลายคอลัมน์ช่วยให้มั่นใจว่าย่อหน้าจะไม่ถูกรวมเข้าด้วยกันอย่างไม่ถูกต้อง วิธีการที่ให้ความสำคัญกับความเป็นส่วนตัวช่วยให้ข้อมูลที่ละเอียดอ่อนอยู่ภายในองค์กร

เวชระเบียน

สำนักงานแพทย์แปลงแบบฟอร์มผู้ป่วยและใบสั่งยาให้เป็นดิจิทัล จดจำได้ 8 ภาษา ซึ่งมีประโยชน์สำหรับสภาพแวดล้อมการดูแลสุขภาพหลายภาษา การติดตั้งในเครื่องเป็นไปตามข้อกำหนด HIPAA โดยเก็บข้อมูลไว้ภายใน

สรุป

GLM-OCR นำเสนอการทำความเข้าใจเอกสารระดับการผลิตในแพ็กเกจพารามิเตอร์ขนาด 0.9B คุณสามารถติดตั้งในเครื่อง รักษาความเป็นส่วนตัวของข้อมูล และบรรลุอัตราปริมาณงานที่เทียบเท่ากับ API บนคลาวด์—ทั้งหมดนี้โดยไม่มีค่าใช้จ่ายต่อคำขอ สถาปัตยกรรมนี้จัดการกับเลย์เอาต์ที่ซับซ้อน ตาราง และสูตรที่ OCR แบบดั้งเดิมพลาดไป ขณะที่ใบอนุญาต MIT อนุญาตให้ใช้เชิงพาณิชย์ได้อย่างไม่จำกัด

เลือก vLLM สำหรับการติดตั้งใช้งานในการผลิตที่ต้องการปริมาณงานสูงและเข้ากันได้กับ OpenAI ใช้ SGLang เมื่อความเร็วในการอนุมานสูงสุดมีความสำคัญ เลือก Transformers สำหรับการพัฒนาและไปป์ไลน์ที่กำหนดเอง ตัวเลือกแต่ละตัวรันโมเดลพื้นฐานเดียวกัน ดังนั้นคุณจึงสามารถเปลี่ยนวิธีการติดตั้งใช้งานได้โดยไม่ต้องฝึกใหม่หรือปรับแต่งใหม่

เมื่อสร้างไปป์ไลน์การประมวลผลเอกสาร—ไม่ว่าจะเป็นการดึงข้อมูลจากใบแจ้งหนี้ การแยกวิเคราะห์เอกสารทางเทคนิค หรือการดำเนินการประมวลผลแบบฟอร์มอัตโนมัติ—ให้ปรับปรุงการทดสอบ API ของคุณด้วย Apidog มันให้การสร้างคำขอด้วยภาพ, การสร้างเอกสารอัตโนมัติ และเครื่องมือดีบักแบบร่วมมือกันที่เติมเต็มเวิร์กโฟลว์การติดตั้ง GLM-OCR ของคุณ

ดาวน์โหลดแอป

ฝึกการออกแบบ API แบบ Design-first ใน Apidog

ค้นพบวิธีที่ง่ายขึ้นในการสร้างและใช้ API