Apple, yapay zeka alanındaki çalışmalarına hız vererek, metin komutlarıyla fotoğraf düzenleme yeteneklerini geliştirmeye odaklanan yeni bir veri seti yayınladı. Pico-Banana-400K adı verilen bu veri seti, 400.000’den fazla özenle seçilmiş görselden oluşuyor ve yapay zeka destekli görsel düzenleme sistemlerinin eğitiminde yeni bir standart belirleme amacı taşıyor.
Araştırma raporlarına göre, bu yeni veri seti, mevcut yapay zeka görsel düzenleme eğitimlerinde var olan eksiklikleri gidermeyi hedefliyor. GPT-4o gibi sistemlerin sunduğu etkileyici düzenleme yeteneklerine rağmen, ilerlemenin gerçek fotoğraflardan elde edilen yetersiz eğitim verileri nedeniyle sınırlı kaldığı belirtiliyor. Pico-Banana-400K, bu durumu değiştirmek üzere tasarlandı.
Veri seti, sekiz ana kategori altında sınıflandırılmış 35 farklı düzenleme türünü içeriyor. Bu düzenlemeler, temel renk ayarlamalarından, fotoğraftaki kişileri Pixar karakterlerine veya LEGO figürlerine dönüştürmek gibi daha karmaşık işlemlere kadar geniş bir yelpazede çeşitlilik gösteriyor.
Her bir görselin kalite kontrolü, Apple’ın geliştirdiği yapay zeka destekli bir sistem tarafından yapıldı. Değerlendirme sürecinde, talimatlara uygunluk ve teknik kalite gibi kriterler dikkate alınarak Google’ın Gemini-2.5-Pro modeli kullanıldı. Bu çapraz platform değerlendirme süreci, veri setinin nesnelliğini ve güvenilirliğini artırmayı amaçlıyor. Pico-Banana-400K, ayrıca üç farklı alt kümeden oluşuyor. İlk alt küme, temel eğitim için kullanılan 258.000 tekli düzenleme örneğini barındırıyor.
İkinci alt küme, başarılı ve başarısız düzenlemeleri karşılaştıran 56.000 tercih çiftinden oluşuyor. Bu, yapay zekanın “iyi” ve “kötü” sonuçları ayırt etmesine yardımcı oluyor. Üçüncü ve son alt küme ise, görsellerin birden fazla ardışık düzenleme ile nasıl değiştiğini gösteren 72.000 çok adımlı diziden oluşuyor. Bu yapı, modellerin daha karmaşık ve sıralı komutları anlamasını sağlıyor.
Veri setinin oluşturulma sürecinde Apple, Google’ın Gemini-2.5-Flash-Image düzenleme modelini kullandı. Araştırma sonuçları, bu modelin genel stil değişiklikleri gibi görevlerde yüksek başarı oranına sahip olduğunu gösterirken, nesnelerin yerini değiştirme veya metin düzenleme gibi daha hassas görevlerde başarı oranının düştüğünü ortaya koydu. Bu durum, mevcut modellerin özellikle yerel ve hassas düzenlemelerde geliştirilmesi gereken alanlar olduğunu gösteriyor.
Araştırmacılar, Pico-Banana-400K ile “yeni nesil metin güdümlü görüntü düzenleme modellerinin eğitimi ve karşılaştırmalı değerlendirmesi için sağlam bir temel” oluşturmayı hedefliyor. Veri setinin tamamı, ticari olmayan araştırma amaçlı kullanım için GitHub üzerinden ücretsiz olarak erişime açıldı. Bu gelişme, geliştiricilerin ve araştırmacıların daha yetenekli ve hassas görüntü düzenleme yapay zekaları geliştirmeleri için önemli bir kaynak sunuyor.
