Apple, yapay zekada beklenmedik yeni bir adım attı ve FastVLM adını verdikleri bir modeli duyurdu. Bu model, görselleri ve dili birlikte işleyebilen bir yapay zeka sisteminden ibaret. Yani sadece metinle değil, görsellerle de konuşabiliyor ve anlam çıkarabiliyor.
Örneğin bir fotoğraf çekiyorsun ve bu fotoğrafla ilgili soruları doğrudan cihazında yanıtlayabiliyorsun.
FastVLM Nedir?
FastVLM’nin temel amacı, görsel ve dil verilerini aynı anda analiz edebilmektir. Örneğin bir fotoğrafı düşün: içinde nesneler var, metinler var, renkler var. FastVLM bunların hepsini hızlıca işleyip sana anlaşılır ve doğru bir yanıt üretebilir.
Eskiden benzer işlemler daha yavaş ve bulut tabanlı olurdu, bu da hem zaman kaybına hem de gizlilik endişelerine yol açardı. FastVLM ise cihaz üzerinde çalışıyor, yani verilerin cihazdan çıkmasına gerek kalmıyor.
Apple, FastVLM için FastViTHD encoder adını verdikleri özel bir sistem geliştirmiş. Bu encoder, yüksek çözünürlüklü görselleri daha az veri kullanarak işliyor, böylece model çok hızlı çalışabiliyor ve cihazın belleğini zorlamıyor.
Hatta yapılan testlerde FastVLM’nin önceki modellere göre 85 kat daha hızlı çalıştığı ve 3,4 kat daha küçük olduğu görülmüş. Bu da demek oluyor ki, hem hız hem de verimlilik açısından büyük bir avantaj.
FastVLM Nerelerde Kullanılabilir?
- Görsellerdeki metinleri tanıyabilir ve bu metinlerle ilgili soruları yanıtlayabilir.
- Fotoğraflardaki nesneleri tanıyıp etiketleyebilir.
- Görselleri analiz edip metinle açıklamalar oluşturabilir.