Apple, metin komutlarına göre fotoğrafları düzenleyebilen bir yapay zeka modeli başlatıyor
elma Bugün AI oyununun en iyi oyuncularından biri değil, ancak şirketin fotoğraf düzenlemeye yönelik yeni açık kaynaklı AI modeli, alana ne gibi katkılar sağlayabileceğini gösteriyor. Model, görüntüleri işlerken metin tabanlı komutları yorumlamak için çok modlu büyük dil modellerini (MLLM'ler) kullanan MLLM Kılavuzlu Görüntü Düzenleme (MGIE) olarak adlandırılır. Başka bir deyişle araç, kullanıcının yazdığı metne göre görselleri düzenleme yeteneğine sahiptir. Bunu yapabilen ilk araç olmasa da, “insan talimatları bazen mevcut yöntemlerin yakalanıp takip edilemeyeceği kadar kısa olabiliyor.” Proje sayfası (PDF) Okuyun.
Şirket, MGIE'yi Santa Barbara'daki Kaliforniya Üniversitesi'nden araştırmacılarla geliştirdi. MLLM'ler, basit veya belirsiz metin istemlerini, görüntü düzenleyicinin kendisinin izleyebileceği daha ayrıntılı ve net talimatlara dönüştürme yeteneğine sahiptir. Örneğin, bir kullanıcı biberli pizzanın görselini “daha sağlıklı hale getirmek” için düzenlemek isterse, MLLM'ler bunu “sebzeli soslar ekle” olarak yorumlayabilir ve görseli bu şekilde düzenleyebilir.
MGIE, görüntülerde önemli değişiklikler yapmanın yanı sıra, metin istemleri aracılığıyla görüntüleri kırpabilir, yeniden boyutlandırabilir ve döndürebilir; ayrıca parlaklığı, kontrastı ve renk dengesini iyileştirebilir. Ayrıca görüntünün belirli alanlarını değiştirebilir ve örneğin görüntüdeki kişinin saçını, gözlerini ve kıyafetlerini değiştirebilir veya arka plandaki nesneleri kaldırabilir.
beğenmek girişim atışı Notlar, Apple modeli aracılığıyla yayınladı githubancak ilgilenenler şunu da deneyebilir: deneysel Şu anda Hugging Face Spaces'ta barındırılıyor. Apple, bu projeden öğrendiklerini herhangi bir ürününe entegre edebileceği bir araç veya özellikte kullanmayı planlayıp planlamadığını henüz netleştirmedi.