Yapay Zekada Gizli Darboğaz: Güç Değil Bellek
Google, yapay zekanın en büyük darboğazlarından bellek ihtiyacını, TurboQuant’la azaltmayı hedefliyor.
İllüstrasyon: anand purohit / gettyimages
Yapay zeka son iki yıldır oldukça basit bir formüle indirgenmiş durumda: Daha büyük model, daha fazla GPU ve daha fazla RAM. Bu formül o kadar tekrarlandı ki adeta bir fizik kuralı gibi kabul görüyor. Teknoloji şirketleri veri merkezlerini genişletti, yatırımcılar çip ve bellek üreticilerine milyarlarca dolar akıttı ve sektörün tamamı bu büyümenin doğrusal şekilde devam edeceğini varsaydı.
Ancak kaçırılan gerçek şu ki yapay zeka sistemleri yalnızca işlem gücüyle sınırlı değil, aynı zamanda ciddi bir bellek problemiyle karşı karşıya. Zira büyük dil modelleri, her yeni kelimeyi üretirken geçmiş bağlamı hatırlamak zorunda. Bu hatırlama işi de rastgele değil, oldukça maliyetli bir yapı üzerinden gerçekleşiyor.
Modelin konuşma sırasında tuttuğu bu bağlam, KV cache olarak adlandırılıyor. Bu cache, sistem çalıştıkça büyüyor. Konuşma uzadıkça ve bağlam genişledikçe bellek tüketimi hızla artıyor. Kısacası mesela daha güçlü GPU’lardan ziyade giderek şişen hafıza ihtiyacı.
Tam da bu yüzden yapay zekadaki asıl darboğazın compute değil, bellek olabileceği uzun süredir konuşuluyordu. Google’ın duyurduğu TurboQuant ise bu tartışmayı teoriden alıp somut bir kırılma noktasına taşıyor.
Az bellek çok iş
Google’ın TurboQuant yaklaşımı, doğrudan bu problemi hedef alıyor. Ama bunu daha fazla donanım ekleyerek değil, mevcut sistemi daha verimli hale getirerek yapıyor. Yani klasik Silikon Vadisi refleksinin tersine, büyütmek yerine sıkıştırıyor.
Teknik olarak incelersek TurboQuant’ın odak noktası, modelin çalışma anında kullandığı KV cache. Bu yapı, modelin önceki kelimeleri ve bağlamı hatırlamasını sağlıyor ama aynı zamanda en büyük bellek tüketicisi. Google’ın geliştirdiği yöntem, bu cache’i çok daha düşük bit seviyelerinde temsil ederek ciddi bir sıkıştırma sağlıyor.
Ortaya atılan rakamlar ise dikkat çekici: Bellek kullanımında yaklaşık altı kat azalma ve belirli senaryolarda sekiz kata kadar hız artışı. Daha da önemlisi, bu kazanımların modelin doğruluğunu düşürmeden elde edilebildiği iddia ediliyor. Yani sistem daha az kaynak kullanarak aynı işi yapabiliyor.
Bu, teoride oldukça basit ama pratikte zor bir problem. Çünkü bugüne kadar yapılan çoğu sıkıştırma girişimi, performans ya da doğruluk kaybı pahasına gerçekleşiyordu. TurboQuant’ın iddiası ise bu dengeyi bozmadan verimlilik sağlamak.
Eğitim şart ama pahalı
Burada kritik bir ayrım var. TurboQuant, yapay zekanın eğitim sürecini değil, çalışma anını optimize ediyor. Yani modelleri eğitmek hala pahalı, hala enerji ve donanım yoğun bir süreç. Ancak kullanıcıların her gün deneyimlediği kısım, yani modelin cevap verdiği an, çok daha verimli hale gelebilir.
Kısacası gelecekte yapay zekanın aynı donanımla daha fazla kullanıcıya hizmet vermesi, daha uzun bağlamları işlemesi, daha hızlı yanıt üretmesi bekleniyor. En önemlisi ise bu sistemleri veri merkezlerinden çıkarıp cihazlara yaklaştırması umuluyor.
Ne olursa olsun bize lazımsın
TurboQuant meselesinin ardından bazı bellek üreticilerinin hisselerinde düşüş görülmesi, akıllara RAM’in ortadan kalkacağı ihtimalini getirdi. Evet, belki eski şaşalı günlerinden uzaklaşabilir ama tamamen ortadan kalkması pek mümkün değil. Son iki yılda oluşan hikaye, AI büyüdükçe donanım ihtiyacının da doğrusal olarak büyüyeceği yönündeydi. Daha fazla kullanıcı, daha büyük modeller, daha uzun bağlamlar… Hepsi daha fazla RAM demekti. Bu yüzden bellek üreticileri de bu talep artışının en büyük kazananlarından biri olarak görülüyordu. Düşüş ise bu trendin bozulmasına bir tepkiydi. Kısacası mesele RAM’in sonu değil. Zira yapay zeka sistemleri ne kadar optimize edilirse edilsin hala aktif veri tutmaya ihtiyaç duyuyor. Modellerin çalışması sırasında yalnızca bağlam değil; ara hesaplamalar, geçici veriler ve sistem süreçleri de bellekte tutuluyor. TurboQuant gibi yöntemler bu yükü azaltabilse de sıfırlayamıyor. Üstelik yapay zeka dışında işletim sistemi, uygulamalar ve diğer süreçler de RAM kullanıyor.
Yani mesele, yapay zekanın artık o kadarına ihtiyaç duymayabileceği ihtimali. Ve teknoloji dünyası için bazen en büyük değişimler, tam olarak böyle başlamaz mı zaten?
AN ANALOG GUY IN A DIGITAL WORLD, expressing himself through writing for as long as he can remember.
Arda Aşık
DAHA FAZLASI
İzin Yok, Kayıt Var: Sokakta Yeni Tehlike
Samet Kelebek
Yapay Zeka Buluttan İniyor: Bilgisayarın İçine Taşınan Devrim
Arda Aşık
Hangi Skynet’i Tercih Edersiniz?
Samet Kelebek
Telefon Gece Şarjda Bırakılabilir mi?
Samet Kelebek