Hızını alamayan Deepseek, bu kez de görüntü oluşturma aracı Janus-Pro-7B'yi duyurdu: OpenAI'i bir kez daha geçti

Deepseek V3 yapay zeka modeline ek olarak artık bir görüntü oluşturma aracı da var. Janus-Pro-7B, hem Meta hem de OpenAI'in görüntü oluşturma modellerini geride bırakıyor.

Deepseek fırtınası tüm dünyada etkisini gösterirken, metin tabanlı sohbet robotu kısa sürede popüler hale geldi ve milyarlarca dolarlık rakiplerini de sollamayı başardı. Açık kaynak kodlu bu yapay zeka modeli için şimdi de bir kardeş daha geldi.

Çin medyasından ithome.com’un haberine göre Deepseek, kısa süre önce GenEval ve DPG-Bench'te Stable Diffusion ve OpenAI'nin DALL'ını geride bırakan çok modlu model Janus-Pro-7B'nin açık kaynağını duyurdu. V3 versiyonuna böylece bir de yeni AI görüntü oluşturma aracı eklenmiş oldu, hem de açık kaynak kodlu.

JANUS-PRO-7B MODELİ DUYURULDU

GitHub projesine erişebileceğiniz çok modlu model Janus-Pro-7B, resmi olarak şöyle açıklanıyor. 

Janus-Pro, çok modlu bilgilerin birleşik anlaşılması ve üretilmesi için yenilikçi bir geri besleme çerçevesidir. Önceki yöntemlerden farklı olarak Janus-Pro, görsel kodlama sürecini birden fazla bağımsız yola ayırarak, önceki çerçevelerdeki bazı sınırlamaları aşar, aynı zamanda tek bir birleşik dönüştürücü yapısı kullanmaya devam eder. Bu ayrıştırma yöntemi, görsel kodlayıcının anlama ve üretme süreçlerinde karşılaşılabilecek çatışmaları etkili bir şekilde hafifletir ve çerçevenin esnekliğini artırır. Janus, geleneksel birleşik modellerin ötesinde bir performans sergiler ve görev odaklı modellerle yapılan karşılaştırmalarda da mükemmel sonuçlar gösterir. Basitliği, yüksek esnekliği ve verimliliği ile Janus-Pro, bir sonraki nesil birleşik çok modlu modeller için güçlü bir rakip haline gelmektedir.

Teknik detayları ise şöyle:

Deepseek’in yeni AI aracı Janus-Pro, görsel kodlama sürecini çok modlu anlama ve üretimden ayırarak daha verimli bir işlem sağlamak için tasarlanmış birleşik bir çok modlu büyük dil modelidir (MLLM). Bu model aynı zamanda DeepSeek-LLM-1.5b-base/DeepSeek-LLM-7b-base modellerine de dayanıyor.

Öte yandan çok modlu anlama görevlerinde Janus-Pro, 384 x 384 piksel boyutlarında görsel girişleri destekleyen SigLIP-L görsel kodlayıcıyı kullanıyor. Görsel üretim görevlerinde ise, belirli bir kaynaktan gelen bir kelime parçalama aracı kullanırken, örnekleme oranı ise 16. 

Janus-Pro özellikle optimize edilmiş eğitim stratejilerini, genişletilmiş eğitim verilerini ve daha büyük model boyutlarına genişletmeyi entegre ederken, yapılan iyileştirmelerle çok modlu anlayış ve metinden görüntüye talimat izleme yeteneklerinde önemli ilerlemeler kaydediyor. Bunun yanında metinden görüntüye oluşturma kararlılığının da artırıldığı belirtiliyor. 

Resmi tanıtıma göre JanusFlow, otoregresif dil modellerini düzeltilmiş akışla (son teknoloji ürünü bir üretken model yöntemi) birleştiren minimalist bir mimari sunuyor. Çalışma, düzeltme akışının karmaşık mimari ayarlamalar olmadan doğrudan geniş bir dil modeli çerçevesinde eğitilebileceğini buldu. Kapsamlı deneyler, JanusFlow'un kendi alanlarındaki özel modellerle karşılaştırılabilir veya daha iyi performans elde ederken, standart kıyaslamalarda mevcut birleşik yöntemlerden önemli ölçüde daha iyi performans gösterdiğini göstermektedir . Bu çalışma daha verimli ve genel görsel dil modellerine doğru atılmış bir adımı temsil ediyor.

Kaynak: ithome