Kimi VL và Kimi VL Thinking: Mô Hình Thị Giác Mở Nguồn Mạnh Mẽ

Cảnh quan AI đã chào đón một đối thủ mới ấn tượng với các mô hình ngôn ngữ hình ảnh mới nhất của Moonshot AI: Kimi VL và Kimi VL Thinking. Dựa trên thành công của mô hình Kimi K1.5 của họ, đã khẳng định được vị thế là một đối thủ đáng gờm trong các sản phẩm của OpenAI, các mô hình ngôn ngữ hình ảnh mới này đại diện cho một bước nhảy vọt quan trọng trong khả năng AI đa phương thức.

💡

Khi triển khai thử nghiệm cho các ứng dụng dựa trên API, các nhà phát triển và người thử nghiệm ngày càng chuyển sang các công cụ chuyên dụng như Apidog, một giải pháp thay thế Postman toàn diện giúp đơn giản hóa chu trình phát triển API.

Apidog cung cấp một nền tảng tích hợp cho thiết kế API, gỡ lỗi, thử nghiệm và tài liệu, cho phép các nhóm xác thực chức năng của API trong quy trình UAT của họ.

Với các tính năng như không gian làm việc hợp tác, khả năng thử nghiệm tự động và quản lý môi trường, Apidog trao quyền cho các chuyên gia QA và các bên liên quan trong doanh nghiệp để xác thực một cách hiệu quả rằng các phản hồi của API phù hợp với các yêu cầu kinh doanh trước khi triển khai sản xuất.

button

Điều gì làm cho Kimi VL đặc biệt?

Kimi VL nổi bật hơn so với các mô hình ngôn ngữ hình ảnh truyền thống nhờ vào sự tích hợp tiên tiến giữa hiểu biết hình ảnh và ngôn ngữ. Khác với các mô hình thông thường chỉ xử lý hình ảnh và văn bản một cách riêng biệt, Kimi VL tạo ra một khung hiểu thống nhất cho phép lý luận phức tạp qua nhiều phương thức.

Mô hình xuất sắc trong việc phân tích và diễn giải hình ảnh chi tiết, xử lý các nhiệm vụ lý luận hình ảnh phức tạp một cách dễ dàng. Kiến trúc của nó cho phép tích hợp thông tin hình ảnh và văn bản một cách liền mạch, cho phép hiểu biết sâu sắc về bối cảnh hình ảnh và các mối quan hệ mà nhiều mô hình cạnh tranh gặp khó khăn để đạt được.

Kimi VL Thinking: Một bước tiến xa hơn so với xử lý tiêu chuẩn

Kimi VL Thinking đã tiến xa hơn nữa với cách tiếp cận đa phương thức này bằng cách triển khai các kỹ thuật xử lý nhận thức tiên tiến. Lấy cảm hứng từ nhận thức con người, mô hình này không chỉ phân tích những gì nó thấy—mà còn nghĩ về nó.

Biến thể "Thinking" áp dụng các phương pháp đào tạo đổi mới, bao gồm trực tuyến gọi là giảm thiểu gương—một kỹ thuật cho phép mô hình liên tục tinh chỉnh cách tiếp cận của mình dựa trên kết quả quan sát được. Giống như việc tìm ra lộ trình tối ưu đến trường bằng cách thử nghiệm các con đường khác nhau và học hỏi từ các mẫu giao thông hàng ngày, Kimi VL Thinking liên tục tối ưu hóa các quy trình lý luận của mình.

Bạn có thể truy cập các mô hình Kimi VL & Kimi VL Thinking trên Huggingface Cards tại đây:

Tại sao Kimi VL & Kimi VL Thinking lại tốt như vậy?

Cả hai mô hình đều đại diện cho những thành tựu kỹ thuật đáng kể trong lĩnh vực AI. Kimi VL và Kimi VL Thinking có khả năng lý luận nâng cao giữ vững tính nhất quán bối cảnh trong suốt các phân tích phức tạp. Chúng tích hợp các cơ chế phát hiện và sửa lỗi được cải thiện giúp giảm ảo tưởng và độ không chính xác.

Các mô hình cũng tận dụng các hệ thống học tập thích nghi tiên tiến mở rộng ra ngoài các bộ dữ liệu tĩnh, cho phép chúng tổng quát kiến thức đến các tình huống mới. Có lẽ ấn tượng nhất, chúng thể hiện khả năng hiểu biết hình ảnh đa ngôn ngữ và đa văn hóa mạnh mẽ, khiến chúng trở thành các công cụ linh hoạt cho các ứng dụng toàn cầu.

Hiệu suất chuẩn của Kimi VL & Kimi VL Thinking

Hiệu suất trả lời câu hỏi hình ảnh

Kimi VL và Kimi VL Thinking đã chứng minh những kết quả ấn tượng qua các chuẩn tiêu chuẩn. Trên VQAv2, Kimi VL Thinking đạt 80,2% độ chính xác, vượt qua nhiều mô hình cùng thời. Đối với tiêu chuẩn GQA tập trung vào các câu hỏi lý luận hình ảnh kết hợp, nó đạt 72,5% độ chính xác. Khi đối mặt với các câu hỏi yêu cầu kiến thức bên ngoài trong tiêu chuẩn OKVQA, mô hình duy trì hiệu suất mạnh mẽ với 68,7% độ chính xác.

Khả năng lý luận hình ảnh

Các mô hình thực sự nổi bật trong các nhiệm vụ lý luận phức tạp. Trên NLVR2, đánh giá lý luận hình ảnh ngôn ngữ tự nhiên, Kimi VL Thinking đạt 85,3% độ chính xác. Đối với các câu hỏi VisWiz yêu cầu phân tích hình ảnh chi tiết, nó đạt 76,9% độ chính xác, cho thấy khả năng xử lý các vấn đề hình ảnh tinh vi.

Xử lý nhiệm vụ hình ảnh phức tạp

Khi được đánh giá trên các chuẩn đa phương thức toàn diện, cả hai mô hình đều thể hiện tính linh hoạt của chúng. Trên chuẩn MME, chúng chứng minh hiệu suất mạnh mẽ trong các nhiệm vụ cảm nhận, lý luận và kiến thức. Đối với MMBench, Kimi VL Thinking đạt điểm tổng thể là 80,1%, với các kết quả đặc biệt ấn tượng trong lý luận không gian và hiểu biết cảnh chi tiết.

Qua tất cả các loại tiêu chuẩn, biến thể Thinking liên tục vượt trội hơn phiên bản tiêu chuẩn trong các nhiệm vụ yêu cầu lý luận đa bước, cho thấy sự cải thiện từ 12-18% trong các nhiệm vụ giải quyết vấn đề phức tạp đòi hỏi khả năng phân tích sâu hơn.

Sử dụng Kimi VL và Kimi VL Thinking

Khi triển khai các mô hình Kimi VL trong các ứng dụng của bạn, hãy chú ý đến yêu cầu tài nguyên của chúng. Những mô hình này cần VRAM đáng kể (khuyến nghị từ 16GB trở lên) để hoạt động hiệu quả. Các nhiệm vụ lý luận phức tạp có thể yêu cầu thời gian xử lý dài hơn, đặc biệt là với biến thể Thinking.

Độ phân giải hình ảnh là quan trọng—các mô hình hoạt động tốt nhất với các hình ảnh có kích thước khoảng 768x768 pixel. Khi xử lý nhiều hình ảnh, hãy xử lý chúng theo từng lô nhỏ để tránh gặp sự cố về bộ nhớ. Để đạt hiệu suất tối ưu, giữ các lời nhắc của bạn dưới 512 token.

Hiểu biết về những cân nhắc kỹ thuật này sẽ giúp bạn tối đa hóa khả năng của các mô hình trong khi tránh những cạm bẫy phổ biến trong việc triển khai.

Quá trình cài đặt và thiết lập

Bắt đầu với các mô hình này từ Hugging Face yêu cầu một số bước chuẩn bị. Đầu tiên, cài đặt các gói cần thiết bằng pip:python

pip install transformers accelerate torch pillow

Rồi nhập các thư viện cần thiết để chuẩn bị môi trường của bạn:python

import torch
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image

Tải mô hình

Các mô hình có thể được tải với một vài dòng mã. Đối với mô hình hướng dẫn tiêu chuẩn:python

model_id = "moonshotai/Kimi-VL-A3B-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

Đối với biến thể thinking tiên tiến hơn:python

thinking_model_id = "moonshotai/Kimi-VL-A3B-Thinking"  
thinking_processor = AutoProcessor.from_pretrained(thinking_model_id)
thinking_model = AutoModelForCausalLM.from_pretrained(
    thinking_model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

Phân tích hình ảnh cơ bản với Kimi VL Instruct

Chạy một phân tích hình ảnh cơ bản là đơn giản. Sau khi tải hình ảnh của bạn, bạn có thể xử lý nó với một lời nhắc đơn giản:python

# Tải hình ảnh
image = Image.open("example_image.jpg")

# Chuẩn bị lời nhắc
prompt = "Mô tả chi tiết hình ảnh này."

# Xử lý các đầu vào
inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")

# Tạo phản hồi
with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.7
    )

# Giải mã và in phản hồi
response = processor.decode(output[0], skip_special_tokens=True)
print(response)

Lý luận phức tạp với Kimi VL Thinking

Đối với các nhiệm vụ phân tích phức tạp hơn, biến thể Thinking cung cấp khả năng lý luận nâng cao:python

# Tải hình ảnh
image = Image.open("chart_image.jpg")

# Chuẩn bị lời nhắc cho phân tích chi tiết
prompt = """Phân tích biểu đồ này và giải thích các xu hướng.
Chia nhỏ phân tích của bạn thành các bước và cung cấp thông tin về những gì có thể gây ra những mẫu này."""

# Xử lý các đầu vào
inputs = thinking_processor(text=prompt, images=image, return_tensors="pt").to("cuda")

# Tạo lý luận chi tiết
with torch.no_grad():
    output = thinking_model.generate(
        **inputs,
        max_new_tokens=1024,
        do_sample=True,
        temperature=0.6
    )

# Giải mã và in phản hồi
response = thinking_processor.decode(output[0], skip_special_tokens=True)
print(response)

Lý luận chuỗi cho các vấn đề phức tạp

Một trong những cách tiếp cận mạnh mẽ nhất với Kimi VL Thinking là phân chia các nhiệm vụ phức tạp thành các bước lý luận tuần tự:python

# Đầu tiên hỏi về quan sát
first_prompt = "Những vật gì bạn thấy trong hình ảnh này?"
inputs = thinking_processor(text=first_prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    output = thinking_model.generate(**inputs, max_new_tokens=256)
observations = thinking_processor.decode(output[0], skip_special_tokens=True)

# Sau đó hỏi về phân tích dựa trên phản hồi đầu tiên
second_prompt = f"Dựa trên những quan sát này: {observations}\n\nGiải thích cách mà những đối tượng này có thể tương tác hoặc liên quan đến nhau."
inputs = thinking_processor(text=second_prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    output = thinking_model.generate(**inputs, max_new_tokens=512)
analysis = thinking_processor.decode(output[0], skip_special_tokens=True)

Tối ưu hóa mô hình cho các nhiệm vụ cụ thể

Các nhiệm vụ khác nhau sẽ được hưởng lợi từ các cài đặt tạo khác nhau. Đối với các mô tả thực tế chi tiết, hãy sử dụng nhiệt độ thấp hơn (0.3-0.5) và độ dài token tối đa cao hơn. Các phản hồi sáng tạo hoạt động tốt hơn với nhiệt độ cài đặt cao hơn (0.7-0.9) kết hợp với sampling hạt nhân.

Khi độ chính xác là tối quan trọng, chẳng hạn như trong phân tích thực tế, hãy sử dụng nhiệt độ thấp hơn với tìm kiếm beam. Đối với các nhiệm vụ lý luận từng bước, biến thể Thinking với các lời nhắc có cấu trúc sẽ mang lại kết quả tốt nhất.

Dưới đây là một ví dụ về cấu hình cho phân tích thực tế chi tiết:python

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=512,
        num_beams=4,
        temperature=0.3,
        no_repeat_ngram_size=3
    )

Kỹ thuật lập trình lệnh cho Kimi VL Thinking

Biến thể Thinking phản hồi tốt nhất với các lời nhắc được thiết kế cẩn thận nhằm hướng dẫn quá trình lý luận của nó. Để phân tích có cấu trúc, hãy định hình lời nhắc của bạn để yêu cầu kiểm tra từng bước: "Phân tích hình ảnh này từng bước. Đầu tiên mô tả những gì bạn thấy, sau đó giải thích các mối quan hệ giữa các yếu tố, và cuối cùng đưa ra những kết luận tổng quan."

Lời nhắc chuỗi tư duy cũng hoạt động rất tốt: "Hãy suy nghĩ cẩn thận về vấn đề này: [vấn đề]. Đầu tiên, xác định các yếu tố hình ảnh liên quan. Thứ hai, xem xét cách chúng liên quan đến câu hỏi. Thứ ba, hình thành câu trả lời của bạn dựa trên phân tích này."

Lời nhắc so sánh thúc đẩy mô hình thực hiện phân tích so sánh chi tiết: "So sánh bên trái và bên phải của hình ảnh này. Những sự khác biệt chính là gì? Giải thích quy trình lý luận của bạn."

Để khám phá các kịch bản giả thuyết, lời nhắc lý luận phản thực tế là hiệu quả: "Điều gì sẽ thay đổi trong cảnh này nếu [yếu tố] bị loại bỏ? Hãy phân tích suy nghĩ của bạn."

Mô hình hoạt động tốt nhất khi các lời nhắc rõ ràng, cụ thể và yêu cầu lý luận một cách rõ ràng hơn là chỉ đưa ra câu trả lời.