Süni zəka üçün yeni dövr: «Terminal-Bench 2.0» və «Harbor» standartları dəyişdi
«Terminal-Bench 2.0» və «Harbor» süni zəka agentlərinin qiymətləndirilməsində yeni standart təyin etdi - CLI əsaslı sınaqlar artıq əsas meyardır.
«Terminal-Bench 2.0» və «Harbor» süni zəka agentlərinin qiymətləndirilməsində yeni dövr açdı
«StartupHub» xəbər verir ki, «Terminal-Bench 2.0» və «Harbor» platformalarının təqdimatı süni zəka agentlərinin qiymətləndirilməsi sahəsində yeni mərhələ açıb. Tədbir Mike Merrill və Alex Shaw tərəfindən təşkil olunub və sənaye liderləri ilə canlı söhbət formatında keçirilib.
«Terminal-Bench»-in yaradıcısı Mike Merrill deyib ki, ilkin versiya süni zəka agentlərinin əmr sətri interfeysi (CLI) üzərindən qiymətləndirilməsinə əsaslanırdı. Onun sözlərinə görə, qrafik interfeyslərdən fərqli olaraq CLI daha dəqiq və səmərəli nəticə verir. Məhz bu prinsip «Terminal-Bench» layihəsinin bazisini formalaşdırıb.
Son Xəbərlər
Xiaomi 15 Ultra Qlobal Versiyası
Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!
Samsung-un Üçqatlanan Telefonu
Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.
Realme GT 7: Ən Ucuz Smartfon
Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.
May ayında təqdim olunan 1.0 versiyası qısa zamanda minlərlə proqramçının marağını cəlb edib, lakin bir sıra çatışmazlıqlar da üzə çıxıb - bəzi tapşırıqlar çox sadə, digərləri isə təkrarlana bilməyən formada idi. Yeni «Terminal-Bench 2.0» bu boşluqları aradan qaldırmaq üçün sıfırdan yenilənib.
Bu versiyada 89 real iş ssenarisinə əsaslanan tapşırıq yer alır. Hər biri yüzlərlə saatlıq insan və model yoxlamasından keçib. Tapşırıqlar arasında DNA dizaynı, köhnə əməliyyat sistemlərinin emulyasiyası və kibertəhlükəsizlik filtrlərinin sınağı kimi mürəkkəb proseslər var.
Yeni yanaşmanın əsas hissəsini təşkil edən «Harbor» isə agent qiymətləndirilməsini və optimallaşdırmasını standartlaşdırır. Alex Shaw qeyd edib ki, tərtibatçılar təkrarlanan kod yazmaq əvəzinə hazır alətlərdən istifadə edə biləcəklər. «Harbor» bulud üzərindən minlərlə test aparmağa şərait yaradır və prosesi xeyli sadələşdirir.
İlkin nəticələr göstərir ki, «Codex» və «GPT-4» kimi qabaqcıl modellər yeni sınaqlarda ən yüksək göstəriciləri əldə edib. Bu isə «Terminal-Bench 2.0»-ın süni zəka agentlərinin real imkanlarını daha dəqiq ölçdüyünü sübut edir.
Bir sözlə, «Terminal-Bench 2.0» və «Harbor» açıq mənbə icması üçün yeni infrastruktur təmin edərək süni zəka sahəsində növbəti mərhələyə keçidi reallaşdırır.
Bu xəbəri necə dəyərləndirirsiniz?

