Süni İntellekt

Tədqiqatçılar süni zəka modellərini Dungeons & Dragons oyunu ilə sınaqdan keçiriblər

D&D Agents simulyatoru ilə Claude 3.5 Haiku, GPT-4o və DeepSeek-V3 yoxlanıb, uzun sessiyalarda səhvlər artıb.

Anar Mirzəyev

26.01.26 - 09:30

0 20

Tədqiqatçılar süni zəka modellərini Dungeons & Dragons oyunu ilə sınaqdan keçiriblər

Dungeons & Dragons masaüstü rol oyunu illüstrasiyası @psypost.org

Mobil texnologiyalar haqqında xəbərlər

Mediahub.az-da reklam xidməti

Mobil texnologiyalar üzrə yeniliklər

Mediahub.az-da reklam xidməti

Tədqiqatçılar süni zəka modellərini Dungeons & Dragons oyunu ilə sınaqdan keçiriblər

«psypost.org» məlumatına görə, NeurIPS 2025-də təqdim edilən araşdırma Dungeons & Dragons-un süni zəka agentlərini yoxlamaq üçün istifadə oluna bildiyini göstərib.

Sadə suallarda nəticələr sabit qalsa da, tam oyun sessiyasında çoxaddımlı qərarlar, sərt qaydalar və komanda koordinasiyası modelləri çətinliyə salıb. Uzun sessiyalar uzandıqca bütün modellərdə dəqiqlik enib, oyun vəziyyəti ilə bağlı səhvlər artıb.

Son Xəbərlər

Xiaomi 15 Ultra Qlobal Versiyası

Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!

Daha ətraflı

Samsung-un Üçqatlanan Telefonu

Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.

Daha ətraflı

Realme GT 7: Ən Ucuz Smartfon

Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.

Daha ətraflı

Maraqlı Xəbərlər

Mediahub.az - Xəbər Portalı

Ziyi Zeng və komandası D&D Agents adlı çərçivə qurub və modelləri oyuna «alətlər» vasitəsilə bağlayıb. Agentlər xəritədə mövqeyi və can göstəricisini yoxlamaq kimi sorğular verib, hərəkətlər isə qaydalara uyğun nəticə hesablayan funksiyalarla icra olunub. Bu yanaşma nəticələrin uydurulmasının qarşısını almaq üçün seçilib.

Testlərdə Claude 3.5 Haiku, GPT-4o və DeepSeek-V3 müqayisə edilib, hər model 27 döyüş ssenarisindən keçib. Məlumatlara görə, Claude 3.5 Haiku alətlərdən düzgün istifadə və rolu qorumaqda daha sabit olub, GPT-4o isə yaxın nəticə göstərib. DeepSeek-V3 daha zəif performans verib; 120 milyard parametrli açıq mənbəli iri model isə əsas tapşırıqları tamamlamayıb.

Teqlər:

Əvvəlki məqalə

Galaxy S26 Ultra-nun əsas kamerasında görüntü keyfiyyəti yaxşılaşdırılıb

Növbəti Məqalə

AXS bir həftədə 126 faiz artdı, SAND yüksəldi, ZKP diqqət çəkdi

Bu xəbəri necə dəyərləndirirsiniz?

Bəyəndim

Bəyənmədim

Sevdim

Güldüm

Qəzəbləndim

Məyus oldum

Şaşırdım

Anar Mirzəyev Bu, mənim sevdiyim işdir və bu işdən zövq alıram. Xəbər və məqalələr yaratmaq, onları araşdırıb təqdim etmək mənim üçün çox maraqlıdır. Oxucularla dəyərli və maraqlı məlumatları paylaşmaqdan böyük məmnunluq duyuram.

Bakıda Kia Sportage 2022 icarəsi

Mediahub.az-da onlayn banner reklamları

Bakıda avtomobil kirayəsi və icarəsi elanları

Mediahub.az-da onlayn banner reklamları