Süni zəka üçün yeni dövr: «Terminal-Bench 2.0» və «Harbor» standartları dəyişdi

«Terminal-Bench 2.0» və «Harbor» süni zəka agentlərinin qiymətləndirilməsində yeni standart təyin etdi - CLI əsaslı sınaqlar artıq əsas meyardır.

12.11.25 - 09:14
 0  2
Süni zəka üçün yeni dövr: «Terminal-Bench 2.0» və «Harbor» standartları dəyişdi
«Terminal-Bench 2.0» və «Harbor» buraxılış mərasimindən görüntü @startuphub.ai

Mediahub.az-da reklam xidməti

Mediahub.az-da reklam xidməti

«Terminal-Bench 2.0» və «Harbor» süni zəka agentlərinin qiymətləndirilməsində yeni dövr açdı

«StartupHub» xəbər verir ki, «Terminal-Bench 2.0» və «Harbor» platformalarının təqdimatı süni zəka agentlərinin qiymətləndirilməsi sahəsində yeni mərhələ açıb. Tədbir Mike Merrill və Alex Shaw tərəfindən təşkil olunub və sənaye liderləri ilə canlı söhbət formatında keçirilib.

«Terminal-Bench»-in yaradıcısı Mike Merrill deyib ki, ilkin versiya süni zəka agentlərinin əmr sətri interfeysi (CLI) üzərindən qiymətləndirilməsinə əsaslanırdı. Onun sözlərinə görə, qrafik interfeyslərdən fərqli olaraq CLI daha dəqiq və səmərəli nəticə verir. Məhz bu prinsip «Terminal-Bench» layihəsinin bazisini formalaşdırıb.

Son Xəbərlər
Xiaomi 15 Ultra Qlobal Versiyası
Xiaomi 15 Ultra Qlobal Versiyası

Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!

Samsung-un Üçqatlanan Telefonu
Samsung-un Üçqatlanan Telefonu

Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.

Realme GT 7
Realme GT 7: Ən Ucuz Smartfon

Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.

May ayında təqdim olunan 1.0 versiyası qısa zamanda minlərlə proqramçının marağını cəlb edib, lakin bir sıra çatışmazlıqlar da üzə çıxıb - bəzi tapşırıqlar çox sadə, digərləri isə təkrarlana bilməyən formada idi. Yeni «Terminal-Bench 2.0» bu boşluqları aradan qaldırmaq üçün sıfırdan yenilənib.

Bu versiyada 89 real iş ssenarisinə əsaslanan tapşırıq yer alır. Hər biri yüzlərlə saatlıq insan və model yoxlamasından keçib. Tapşırıqlar arasında DNA dizaynı, köhnə əməliyyat sistemlərinin emulyasiyası və kibertəhlükəsizlik filtrlərinin sınağı kimi mürəkkəb proseslər var.

Yeni yanaşmanın əsas hissəsini təşkil edən «Harbor» isə agent qiymətləndirilməsini və optimallaşdırmasını standartlaşdırır. Alex Shaw qeyd edib ki, tərtibatçılar təkrarlanan kod yazmaq əvəzinə hazır alətlərdən istifadə edə biləcəklər. «Harbor» bulud üzərindən minlərlə test aparmağa şərait yaradır və prosesi xeyli sadələşdirir.

İlkin nəticələr göstərir ki, «Codex» və «GPT-4» kimi qabaqcıl modellər yeni sınaqlarda ən yüksək göstəriciləri əldə edib. Bu isə «Terminal-Bench 2.0»-ın süni zəka agentlərinin real imkanlarını daha dəqiq ölçdüyünü sübut edir.

Bir sözlə, «Terminal-Bench 2.0» və «Harbor» açıq mənbə icması üçün yeni infrastruktur təmin edərək süni zəka sahəsində növbəti mərhələyə keçidi reallaşdırır.

Bu xəbəri necə dəyərləndirirsiniz?

like

dislike

love

funny

angry

sad

wow

Anar Mirzəyev Bu, mənim sevdiyim işdir və bu işdən zövq alıram. Xəbər və məqalələr yaratmaq, onları araşdırıb təqdim etmək mənim üçün çox maraqlıdır. Oxucularla dəyərli və maraqlı məlumatları paylaşmaqdan böyük məmnunluq duyuram.