Tədqiqatçılar süni zəka modellərini Dungeons & Dragons oyunu ilə sınaqdan keçiriblər
D&D Agents simulyatoru ilə Claude 3.5 Haiku, GPT-4o və DeepSeek-V3 yoxlanıb, uzun sessiyalarda səhvlər artıb.
Tədqiqatçılar süni zəka modellərini Dungeons & Dragons oyunu ilə sınaqdan keçiriblər
«psypost.org» məlumatına görə, NeurIPS 2025-də təqdim edilən araşdırma Dungeons & Dragons-un süni zəka agentlərini yoxlamaq üçün istifadə oluna bildiyini göstərib.
Sadə suallarda nəticələr sabit qalsa da, tam oyun sessiyasında çoxaddımlı qərarlar, sərt qaydalar və komanda koordinasiyası modelləri çətinliyə salıb. Uzun sessiyalar uzandıqca bütün modellərdə dəqiqlik enib, oyun vəziyyəti ilə bağlı səhvlər artıb.
Son Xəbərlər
Xiaomi 15 Ultra Qlobal Versiyası
Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!
Samsung-un Üçqatlanan Telefonu
Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.
Realme GT 7: Ən Ucuz Smartfon
Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.
Ziyi Zeng və komandası D&D Agents adlı çərçivə qurub və modelləri oyuna «alətlər» vasitəsilə bağlayıb. Agentlər xəritədə mövqeyi və can göstəricisini yoxlamaq kimi sorğular verib, hərəkətlər isə qaydalara uyğun nəticə hesablayan funksiyalarla icra olunub. Bu yanaşma nəticələrin uydurulmasının qarşısını almaq üçün seçilib.
Testlərdə Claude 3.5 Haiku, GPT-4o və DeepSeek-V3 müqayisə edilib, hər model 27 döyüş ssenarisindən keçib. Məlumatlara görə, Claude 3.5 Haiku alətlərdən düzgün istifadə və rolu qorumaqda daha sabit olub, GPT-4o isə yaxın nəticə göstərib. DeepSeek-V3 daha zəif performans verib; 120 milyard parametrli açıq mənbəli iri model isə əsas tapşırıqları tamamlamayıb.
Bu xəbəri necə dəyərləndirirsiniz?

