📊 Yeni bir model tanıtıldığında, genelde yanında bir sürü sayı da görüyoruz: MMLU, HumanEval, SWE-bench, GPQA, Math ve daha birçok benchmark.

Bu sayılar önemli, ama bence bazen gereğinden fazla ciddiye alınıyorlar.

Sonuçta benchmark dediğimiz şey şu: modeller belli bir soru seti, problem ya da task üzerinde test ediliyor ve sonra sabit bir yöntemle score alıyor.

Mesela biri genel bilgi ve reasoning’i ölçüyor, biri coding tarafına bakıyor, biri matematiğe odaklanıyor, biri de bug ya da issue çözme becerisini test ediyor.

Buraya kadar sorun yok.

Sorun, benchmark sonucunu modelin günlük işteki gerçek performansıyla aynı şey sandığımız yerde başlıyor.

Bir model coding benchmark’ında çok iyi score alabilir, ama gerçek bir projeye girdiğinde çok hızlı takılabilir.

Çünkü gerçek proje, temiz hazırlanmış bir benchmark sorusuna pek benzemez.

Gerçek işte genelde şunlarla uğraşırız:

📦 Eski codebase 📄 Eksik dokümantasyon 🧩 Garip dependency’ler 🐛 Bir kısmı environment’tan gelen bug’lar 🧠 Eksik ya da yanlış context ⏱️ Zaman ve maliyet sınırları 👨‍💻 Sadece projeyi tanıyınca anlam kazanan kararlar

Ben benchmark’ları değersiz görmüyorum. Tam tersine, önemli olduklarını düşünüyorum.

Ama bence benchmark daha çok laboratuvar testi gibi.

Karşılaştırma yapmak için işe yarıyor, genel yönü gösteriyor ve bir modelin belirli bir senaryoda ne kadar iyi çalıştığını anlamamıza yardım ediyor.

Ama o modelin benim projem, benim tool’larım, benim sınırlarım ve benim çalışma tarzım için en iyi seçim olduğunu tek başına söylemez.

Bu yüzden bir model bir benchmark’ta herkesi geçti diye hemen “tamam, en iyi model bu” sonucuna varmamak lazım.

Önce o benchmark tam olarak neyi ölçüyor, bizim işimize ne kadar benziyor ve bizim çözmeye çalıştığımız problem gerçekten o teste benziyor mu, ona bakmak lazım.

Benchmark kesinlikle önemli.

Sadece gerçek deneyimin yerini almamalı.