Amerika

Anthropic’in CEO’sundan DeepSeek’ten sonra Çin’e ambargoyu sıkılaştırma çağrısı

Yayınlanma

Claude yapay zekâ sohbet robotunu geliştiren Anthropic’in CEO’su Dario Amodei, DeepSeek’in yapay zekâ alanındaki ilerlemesini ve bunun ABD’nin çip ihracat kontrolleri üzerindeki etkisini değerlendirdi. Amodei, DeepSeek’in başarılarının, ihracat kontrollerinin önemini azaltmadığını, aksine daha da artırdığını savundu.

Claude yapay zekâ sohbet robotunu geliştiren Anthropic’in CEO’su Dario Amodei, blog sayfasında yayımladığı makalede, Çinli yapay zekâ şirketi DeepSeek’in son dönemdeki başarılarını ve bu başarıların ABD’nin çip ihracat kontrolleri üzerindeki etkilerini ele aldı.

Amodei, DeepSeek’in yapay zekâ modellerinin performansının, ABD’nin ihracat kontrol politikalarını geçersiz kılmadığını, bilakis bu kontrollerin gerekliliğini daha da artırdığını iddia etti.

Amodei, makalesinde yapay zekâ sistemlerinin üç temel dinamiğini vurgulayarak, bu dinamiklerin DeepSeek’in başarılarını anlamada önemli olduğunu kaydetti.

Üç temel dinamik

Amodei, yapay zekâ sistemlerinin eğitim sürecinin ölçeğinin büyütülmesinin, genel olarak bilişsel görevlerde daha iyi sonuçlar verdiğini belirtiyor.

Örneğin, 1 milyon dolarlık bir modelin kodlama görevlerinin yüzde 20’sini çözerken, 100 milyon dolarlık bir modelin yüzde 60’ını çözebileceğini ifade ediyor. Bu durum, şirketlerin bu alana büyük yatırımlar yapmasının nedenini açıklıyor.

Yapay zekâ alanında sürekli olarak yeni fikirlerin ve iyileştirmelerin ortaya çıktığını belirten Amodei, bu yeniliklerin modellerin daha etkili ve verimli çalışmasını sağladığını ifade ediyor.

Bu inovasyonlar, 2 kat “işlem çarpanı” etkisi yaparak, aynı performansı daha düşük maliyetle elde etmeyi mümkün kılıyor. Amodei, 2020’de yayımladığı bir makalede algoritma ilerlemesi nedeniyle eğrinin yılda yaklaşık 1,68 kat kaydığını belirtmiş, bu oranın günümüzde ise 4 kat civarında olduğunu tahmin ediyor. Bu gelişmeler, model maliyetlerinde önemli düşüşlere yol açsa da, şirketler bu maliyet avantajını daha akıllı modeller eğitmek için kullanıyor.

Bunun yanı sıra Amodei, zaman zaman ölçeklendirilen temel şeyin değiştiğini veya eğitim sürecine yeni bir ölçeklendirme türünün eklendiğini belirtiyor.

2020-2023 yılları arasında öncelikle önceden eğitilmiş modeller ölçeklendirilirken, 2024’te takviyeli öğrenme (RL) ile düşünce zincirleri oluşturma üzerinde yoğunlaşıldığını ifade ediyor.

Bu yeni paradigma, başlangıçta sıradan önceden eğitilmiş modellerle başlanıp, ikinci aşamada takviyeli öğrenme ile akıl yürütme becerilerinin eklenmesini içeriyor.

Bu alanda henüz çok erken bir noktada olunduğunu belirten Amodei, takviyeli öğrenme aşamasına daha fazla yatırım yaparak hızlı kazanımlar elde edilebileceğini vurguluyor.

DeepSeek’in modelleri

Amodei, DeepSeek’in son yayınladığı modellere değinerek, bunların yukarıda bahsedilen üç dinamiği anlamamıza yardımcı olduğunu ifade ediyor. DeepSeek, bir ay önce “DeepSeek-V3” adlı önceden eğitilmiş bir model, geçen hafta ise ikinci aşamayı ekleyen “R1” modelini çıkarmıştı.

DeepSeek-V3 modelinin, mühendislik verimliliğine odaklanan özgün yenilikler sayesinde, bazı önemli görevlerde ABD’nin son teknoloji modellerine yakın bir performans gösterdiği ifade ediliyor.

Bu modelin, “Anahtar-Değer önbelleği” yönetiminde ve “uzmanlar karışımı” yönteminin daha ileriye taşınmasında önemli iyileştirmeler içerdiği belirtiliyor.

Fakat Amodei, DeepSeek’in, ABD’li yapay zekâ şirketlerinin milyarlarca dolara mal ettiği şeyi 6 milyon dolara yapmadığını öne sürüyor. Anthropic’in Claude 3.5 Sonnet modelinin birkaç on milyon dolara eğitildiğini ve DeepSeek modelinin bu modelden 7-10 ay daha eski ABD modellerine yakın bir performans sunduğunu belirtiyor.

Amodei, DeepSeek-V3’ün, yapay zeka alanında beklenen bir maliyet düşüşünün göstergesi olduğunu, ancak bu düşüşün benzersiz bir atılım olmadığını ifade ediyor.

Bu maliyet düşüşünü gösteren ilk şirketin Çinli olmasının jeopolitik açıdan önemli olduğunu dile getiren Amodei, ayrıca, DeepSeek ve ABD’li yapay zekâ şirketlerinin, model eğitimleri için kullanabilecekleri daha fazla çip ve kaynağa sahip olduğunu ve bu kaynakları genellikle modelin arkasındaki fikirleri geliştirmek için kullandıklarını ifade ediyor.

DeepSeek’in yaklaşık 50 bin Hopper nesil çipe sahip olduğu ve bunun ABD’li büyük şirketlerin sahip olduklarıyla benzer düzeyde olduğu belirtiliyor.

Amodei, “R1” modelinin ise V3 modelinden daha az yenilikçi olduğunu, takviyeli öğrenme aşamasını ekleyerek OpenAI’nin o1 modeliyle benzer sonuçlar elde ettiğini belirtiyor.

Bu durumun, takviyeli öğrenme eğrisinin henüz başlarında olmamızdan kaynaklandığını ve bu tür modellerin birden çok şirket tarafından üretilebileceğini ifade ediyor. Ancak, bu durumun, tüm şirketler bu eğri üzerinde ilerledikçe hızla değişeceğini de ekliyor.

‘Ambargo sıkılaşsın’ çağrısı

Amodei, tüm bu bilgilerin ışığında, Çin’e yönelik çip ihracat kontrolleri konusundaki görüşlerini şu şekilde açıklıyor:

Şirketler, güçlü yapay zeka modelleri eğitmek için sürekli olarak daha fazla harcama yaparken, maliyetler düşse bile, ekonomik değeri yüksek olduğu için bu kazanımların hemen daha akıllı modeller eğitmek için kullanıldığını belirtiyor.

DeepSeek’in verimlilik yeniliklerinin, ABD ve Çin laboratuvarları tarafından yakında kullanılacağını ve bunun da çok milyar dolarlık modellerin daha iyi performans göstermesini sağlayacağını, ancak maliyetin aynı kalacağını ifade ediyor.

Amodei, bu durumun, 2026-2027’de yapay zekâ alanında iki farklı dünyanın ortaya çıkmasına neden olacağını belirtiyor. ABD’de birden fazla şirketin bu tarihlerde milyonlarca çipe sahip olacağını, ancak Çin’in de bu çiplere erişebilmesi durumunda, iki kutuplu bir dünya oluşacağını kaydediyor.

Bu durumda, Çin’in yapay zekâ alanında ABD ile eşit konuma gelerek, askeri uygulamalara daha fazla odaklanabileceğini ve küresel arenada lider konuma geçebileceğini ifade ediyor.

Aynı zamanda Amodei, Çin’in milyonlarca çipe erişememesi hâlinde, tek kutuplu bir dünya oluşacağını, bu durumda ABD ve müttefiklerinin yapay zekâ alanında uzun süreli bir liderlik kurabileceğini ve Çin’in milyonlarca çipe erişimini engellemenin tek yolunun iyi uygulanan ihracat kontrolleri olduğunu vurguluyor.

Bunun yanı sıra Amodei, DeepSeek’in performansının ihracat kontrollerinin başarısız olduğu anlamına gelmediğini, aksine Çin’in ABD’ye karşı ciddi bir rakip olduğunu gösterdiğini belirtiyor. İhracat kontrollerinin Çin’in birkaç on bin çipe erişmesini engellemek için tasarlanmadığını, ancak milyonlarca çipin elde edilmesini önlemek için gerekli olduğunu ifade ediyor.

Ayrıca Amodei, DeepSeek’in mevcut çip filosunun, ihracat kontrollerinin çalıştığını ve uyum sağladığını gösterdiğini, zira yasaklanan H100’lerin kaçakçılık yoluyla elde edildiğini, H800’lerin ise yasaklanmadan önce gönderildiğini belirtiyor.

Son olarak Amodei, “DeepSeek’i hedef almadığını, ancak yetkilendirilmemiş bir hükümete bağlı olan bu şirketin, yapay zeka alanında ABD ile eşit düzeye gelmesi durumunda, insan hakları ihlalleri yapabileceğini ve dünya sahnesinde daha saldırgan bir tavır sergileyebileceğini” ifade ediyor. Bu nedenle, ihracat kontrollerinin öneminin arttığını ve bu kontrollerin kaldırılmasının mantıklı olmadığını öne sürüyor.

Çok Okunanlar

Exit mobile version