Kimi VL ve Kimi VL Düşünme: Güçlü Açık Kaynaklı Görsel Modeller

Yapay zeka dünyası, Moonshot AI'ın en yeni görsel dil modelleri olan Kimi VL ve Kimi VL Thinking ile etkileyici yeni bir rakip kazandı. OpenAI'ın tekliflerine zaten güçlü bir rakip olarak kendini kanıtlamış olan Kimi K1.5 modelinin başarısı üzerine inşa edilen bu yeni görsel dil modelleri, çok modlu yapay zeka yeteneklerinde önemli bir sıçramayı temsil ediyor.

💡

API tabanlı uygulamalar için Test uygulaması yaparken, geliştiriciler ve test uzmanları giderek daha fazla Apidog gibi özel araçlara yöneliyor; bu araç, API geliştirme yaşam döngüsünü kolaylaştıran kapsamlı bir Postman alternatifidir.

Apidog, API tasarımı, hata ayıklama, test etme ve dokümantasyon için entegre bir platform sunarak, ekiplerin UAT iş akışları içinde API işlevselliğini doğrulamalarını sağlar.

İşbirlikçi çalışma alanları, otomatik test yetenekleri ve ortam yönetimi gibi özelliklerle Apidog, QA profesyonellerini ve iş paydaşlarını, API yanıtlarının üretim dağıtımından önce iş gereksinimleriyle uyumlu olduğunu verimli bir şekilde doğrulamaları için güçlendirir.

button

Kimi VL'yi Özel Yapan Nedir?

Kimi VL, görsel ve dilsel anlayışın gelişmiş entegrasyonu sayesinde geleneksel görsel dil modellerinden ayrılıyor. Görüntüleri ve metinleri ayrı ayrı işleyen geleneksel modellerin aksine, Kimi VL, birden fazla modalite arasında sofistike muhakeme sağlayan birleşik bir anlama çerçevesi oluşturur.

Model, ayrıntılı görüntü analizi ve yorumlama konusunda mükemmeldir ve karmaşık görsel muhakeme görevlerini kolaylıkla halleder. Mimarisi, görsel ve metinsel bilgilerin sorunsuz bir şekilde entegre edilmesini sağlayarak, birçok rakip modelin başarmakta zorlandığı görsel bağlam ve ilişkilerin nüanslı bir şekilde anlaşılmasını sağlar.

Kimi VL Thinking: Standart İşlemenin Ötesinde Bir Adım

Kimi VL Thinking, bu çok modlu yaklaşımı, gelişmiş bilişsel işleme tekniklerini uygulayarak daha da ileriye taşıyor. İnsan bilişinden ilham alan bu model, sadece gördüklerini analiz etmekle kalmıyor, aynı zamanda onlar hakkında düşünüyor.

"Thinking" varyantı, gözlemlenen sonuçlara göre yaklaşımını sürekli olarak iyileştirmesini sağlayan bir teknik olan çevrimiçi ayna inişi dahil olmak üzere yenilikçi eğitim yöntemleri kullanır. Tıpkı farklı yolları test ederek ve günlük trafik düzenlerinden öğrenerek okula giden en uygun rotayı bulmak gibi, Kimi VL Thinking de muhakeme süreçlerini sürekli olarak optimize eder.

Kimi VL & Kimi VL Thinking Modellerine Huggingface Cards'tan buradan erişebilirsiniz:

Neden Kimi VL & Kimi VL Thinking Bu Kadar İyi?

Her iki model de yapay zeka alanında önemli mühendislik başarılarını temsil ediyor. Kimi VL ve Kimi VL Thinking, karmaşık analizler boyunca bağlam tutarlılığını koruyan gelişmiş muhakeme yeteneklerine sahiptir. Halüsinasyonları ve yanlışlıkları azaltan iyileştirilmiş hata tespiti ve düzeltme mekanizmaları içerirler.

Modeller ayrıca, bilgiyi yeni senaryolara genellemelerini sağlayan, statik veri kümelerinin ötesine geçen gelişmiş uyarlanabilir öğrenme sistemlerinden yararlanır. Belki de en etkileyici olanı, güçlü çok dilli ve çok kültürlü görsel anlayış sergileyerek onları küresel uygulamalar için çok yönlü araçlar haline getirmeleridir.

Kimi VL & Kimi VL Thinking'in Kıyaslama Performansı

Görsel Soru Yanıtlama Performansı

Kimi VL ve Kimi VL Thinking, standart kıyaslamalarda etkileyici sonuçlar sergiledi. VQAv2'de Kimi VL Thinking %80,2 doğruluk elde ederek birçok çağdaş modelden daha iyi performans gösteriyor. Bileşimsel görsel muhakeme sorularına odaklanan GQA kıyaslaması için %72,5 doğruluk oranına ulaşıyor. OKVQA kıyaslamasında harici bilgi gerektiren soruları ele alırken, model %68,7 doğrulukla güçlü performansını koruyor.

Görsel Muhakeme Yetenekleri

Modeller, karmaşık muhakeme görevlerinde gerçekten parlıyor. Doğal dil görsel muhakemesini değerlendiren NLVR2'de Kimi VL Thinking %85,3 doğruluk elde ediyor. Ayrıntılı görsel analiz gerektiren VisWiz soruları için %76,9 doğruluk puanı alarak, nüanslı görsel problemleri ele alma yeteneğini gösteriyor.

Karmaşık Vizyon Görevlerinin İşlenmesi

Kapsamlı çok modlu kıyaslamalarda değerlendirildiğinde, her iki model de çok yönlülüklerini gösteriyor. MME Kıyaslamasında, algı, muhakeme ve bilgi yoğun görevlerde güçlü performans sergiliyorlar. MMBench için Kimi VL Thinking, uzamsal muhakeme ve ayrıntılı sahne anlayışında özellikle etkileyici sonuçlarla %80,1 genel puan elde ediyor.

Tüm kıyaslama kategorilerinde, Thinking varyantı, çok adımlı muhakeme gerektiren görevlerde standart versiyondan sürekli olarak daha iyi performans göstererek, daha derin analitik yetenekler gerektiren karmaşık problem çözme görevlerinde %12-18'lik bir iyileşme gösteriyor.

Kimi VL ve Kimi VL Thinking'i Kullanma

Uygulamalarınızda Kimi VL modellerini uygularken, kaynak gereksinimlerini göz önünde bulundurun. Bu modellerin verimli çalışması için önemli miktarda VRAM'e (16 GB veya daha fazlası önerilir) ihtiyacı vardır. Karmaşık muhakeme görevleri, özellikle Thinking varyantı ile daha uzun işlem süresi gerektirebilir.

Görüntü çözünürlüğü önemlidir; modeller yaklaşık 768x768 piksel boyutundaki görüntülerle en iyi şekilde çalışır. Birden fazla görüntüyü işlerken, bellek sorunlarından kaçınmak için bunları küçük partiler halinde işleyin. Optimum performans için, istemlerinizi 512 tokenin altında tutun.

Bu teknik hususları anlamak, modellerin yeteneklerini en üst düzeye çıkarmanıza ve uygulamadaki yaygın tuzaklardan kaçınmanıza yardımcı olacaktır.

Kurulum ve Ayar Süreci

Bu modellere Hugging Face'den başlamak, birkaç hazırlık adımı gerektirir. İlk olarak, pip kullanarak gerekli paketleri yükleyin:python

pip install transformers accelerate torch pillow

Ardından, ortamınızı hazırlamak için gerekli kitaplıkları içe aktarın:python

import torch
from transformers import AutoModelForCausalLM, AutoProcessor
from PIL import Image

Modelleri Yükleme

Modeller birkaç satır kodla yüklenebilir. Standart öğretim modeli için:python

model_id = "moonshotai/Kimi-VL-A3B-Instruct"
processor = AutoProcessor.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

Daha gelişmiş düşünme varyantı için:python

thinking_model_id = "moonshotai/Kimi-VL-A3B-Thinking"  
thinking_processor = AutoProcessor.from_pretrained(thinking_model_id)
thinking_model = AutoModelForCausalLM.from_pretrained(
    thinking_model_id,
    torch_dtype=torch.float16,
    device_map="auto"
)

Kimi VL Instruct ile Temel Görüntü Analizi

Temel bir görüntü analizi yapmak basittir. Görüntünüzü yükledikten sonra, basit bir istemle işleyebilirsiniz:python

# Görüntüyü yükle
image = Image.open("example_image.jpg")

# İstem hazırlayın
prompt = "Bu görüntüyü ayrıntılı olarak açıklayın."

# Girişleri işleyin
inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")

# Yanıt oluştur
with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.7
    )

# Yanıtı kod çöz ve yazdır
response = processor.decode(output[0], skip_special_tokens=True)
print(response)

Kimi VL Thinking ile Karmaşık Muhakeme

Daha karmaşık analitik görevler için, Thinking varyantı gelişmiş muhakeme yetenekleri sunar:python

# Görüntüyü yükle
image = Image.open("chart_image.jpg")

# Ayrıntılı analiz için istem hazırlayın
prompt = """Bu grafiği analiz edin ve eğilimleri açıklayın. 
Analizinizi adımlara ayırın ve bu kalıplara neyin neden olabileceği hakkında içgörüler sağlayın."""

# Girişleri işleyin
inputs = thinking_processor(text=prompt, images=image, return_tensors="pt").to("cuda")

# Ayrıntılı muhakeme oluştur
with torch.no_grad():
    output = thinking_model.generate(
        **inputs,
        max_new_tokens=1024,
        do_sample=True,
        temperature=0.6
    )

# Yanıtı kod çöz ve yazdır
response = thinking_processor.decode(output[0], skip_special_tokens=True)
print(response)

Karmaşık Problemler İçin Zincirleme Muhakeme

Kimi VL Thinking ile en güçlü yaklaşımlardan biri, karmaşık görevleri sıralı muhakeme adımlarına ayırmaktır:python

# İlk olarak gözlem isteyin
first_prompt = "Bu görüntüde hangi nesneleri görebiliyorsunuz?"
inputs = thinking_processor(text=first_prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    output = thinking_model.generate(**inputs, max_new_tokens=256)
observations = thinking_processor.decode(output[0], skip_special_tokens=True)

# Ardından ilk yanıta göre analiz isteyin
second_prompt = f"Bu gözlemlere dayanarak: {observations}\n\nBu nesnelerin birbiriyle nasıl etkileşime girebileceğini veya birbiriyle nasıl ilişkili olabileceğini açıklayın."
inputs = thinking_processor(text=second_prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    output = thinking_model.generate(**inputs, max_new_tokens=512)
analysis = thinking_processor.decode(output[0], skip_special_tokens=True)

Modelleri Belirli Görevler İçin Optimize Etme

Farklı görevler, farklı nesil ayarlarından yararlanır. Ayrıntılı gerçek açıklamalarda, daha düşük bir sıcaklık (0,3-0,5) ve daha yüksek bir maksimum token uzunluğu kullanın. Yaratıcı yanıtlar, daha yüksek sıcaklık ayarları (0,7-0,9) ile çekirdek örneklemesiyle daha iyi çalışır.

Doğruluğun çok önemli olduğu durumlarda, örneğin gerçek analizlerde, ışın aramasıyla daha düşük bir sıcaklık kullanın. Adım adım muhakeme görevleri için, yapılandırılmış istemlere sahip Thinking varyantı en iyi sonuçları verir.

İşte ayrıntılı gerçek analiz için bir örnek yapılandırma:python

inputs = processor(text=prompt, images=image, return_tensors="pt").to("cuda")
with torch.no_grad():
    output = model.generate(
        **inputs,
        max_new_tokens=512,
        num_beams=4,
        temperature=0.3,
        no_repeat_ngram_size=3
    )

Kimi VL Thinking için İstem Mühendisliği

Thinking varyantı, muhakeme sürecine rehberlik eden, dikkatlice hazırlanmış istemlere en iyi şekilde yanıt verir. Yapılandırılmış analiz için, isteminizi adım adım inceleme talebinde bulunacak şekilde çerçevelendirin: "Bu görüntüyü adım adım analiz edin. Önce ne gördüğünüzü açıklayın, ardından öğeler arasındaki ilişkileri açıklayın ve son olarak genel sonuçlar sağlayın."

Düşünce zinciri istemi de olağanüstü iyi çalışır: "Bu sorunu dikkatlice düşünün: [sorun]. İlk olarak, ilgili görsel öğeleri belirleyin. İkincisi, bunların soruyla nasıl ilişkili olduğunu düşünün. Üçüncüsü, bu analize dayanarak cevabınızı formüle edin."

Karşılaştırma istemleri, modeli ayrıntılı karşılaştırmalı analiz yapmaya yönlendirir: "Bu görüntünün sol ve sağ taraflarını karşılaştırın. Temel farklılıklar nelerdir? Muhakeme sürecinizi açıklayın."

Varsayımsal senaryoları keşfetmek için, karşı olgusal muhakeme istemleri etkilidir: "[öğe] kaldırılırsa bu sahnede ne değişirdi? Düşüncelerinizi gözden geçirin."

Model, istemler açık, spesifik olduğunda ve sadece cevaplardan ziyade muhakeme istediğinde en iyi performansı gösterir.