Çin merkezli yapay zeka DeepSeek, yeni büyük dil modeli DeepSeek V3.1 sürümünü duyurdu. Önceki sürümlere göre çok daha gelişmiş olan bu model, hem genel görevlerde hem de spesifik işlerde daha stabil sonuçlar veriyor. Yeni DeepSeek V3.1 modeli ile ajan modu özelliğide geliyor.
DeepSeek yeni modeli için kapsamlı benchmark testlerini gerçekleştirdi. Yapılan karşılaştırmalarda yeni sürümün V2 sürümüne göre ciddi oranda önde olduğu görülüyor.
Benchmark | DeepSeek-V3.1 | DeepSeek-V2 |
---|---|---|
SWE-Bench | 66.0 | 45.4 |
SWE-Bench (Normalized) | 54.5 | 30.5 |
Terminal Bench | 31.5 | 15.5 |
DeepSeek V3.1 modeli kod yazma, kod çözme ve teknik çözümlerde çok daha stabil ve verimli sonuçlar verdiği gözlemleniyor.
Yeni AI Ajan modu ile birlikte özellikle Browser tabanlı işlemlerde kayda değer bir başarı elde edildiği görülüyor.
Benchmark | DeepSeek-V3.1 | DeepSeek-RL-035-8B |
---|---|---|
Browsermap | 30.0 | 8.9 |
Browsermap.zh | 49.0 | 38.7 |
IILE | 20.8 | 24.6 |
*bench-DeepSearch | 71.2 | 55.0 |
Fracas | 81.7 | 82.0 |
SimpleQA4 | 93.4 | 92.5 |
SealD | 42.6 | 29.7 |
Yeni özellikler ile birlikte çok adımlı sorgulama ve web üzerinden bilgi çekme gibi karışık işlemlerde güçlü bir alternatif olacak gibi.
DeepSeek V3.1 şu an API üzerinden kullanılabilir durumda. Api bağlantıları ve model sayfasına aşağıdaki bağlantıdan ulaşabilirsiniz.
GitHub: https://github.com/deepseek-ai
Hugging Face Model Sayfası: https://huggingface.co/deepseek-ai