Süni İntellekt

Süni zəka üçün yeni dövr: «Terminal-Bench 2.0» və «Harbor» standartları dəyişdi

«Terminal-Bench 2.0» və «Harbor» süni zəka agentlərinin qiymətləndirilməsində yeni standart təyin etdi - CLI əsaslı sınaqlar artıq əsas meyardır.

Anar Mirzəyev

12.11.25 - 09:14

0 36

Süni zəka üçün yeni dövr: «Terminal-Bench 2.0» və «Harbor» standartları dəyişdi

«Terminal-Bench 2.0» və «Harbor» buraxılış mərasimindən görüntü @startuphub.ai

Mobil texnologiyalar haqqında xəbərlər

Mediahub.az-da reklam xidməti

Mobil texnologiyalar üzrə yeniliklər

Mediahub.az-da reklam xidməti

«Terminal-Bench 2.0» və «Harbor» süni zəka agentlərinin qiymətləndirilməsində yeni dövr açdı

«StartupHub» xəbər verir ki, «Terminal-Bench 2.0» və «Harbor» platformalarının təqdimatı süni zəka agentlərinin qiymətləndirilməsi sahəsində yeni mərhələ açıb. Tədbir Mike Merrill və Alex Shaw tərəfindən təşkil olunub və sənaye liderləri ilə canlı söhbət formatında keçirilib.

«Terminal-Bench»-in yaradıcısı Mike Merrill deyib ki, ilkin versiya süni zəka agentlərinin əmr sətri interfeysi (CLI) üzərindən qiymətləndirilməsinə əsaslanırdı. Onun sözlərinə görə, qrafik interfeyslərdən fərqli olaraq CLI daha dəqiq və səmərəli nəticə verir. Məhz bu prinsip «Terminal-Bench» layihəsinin bazisini formalaşdırıb.

Son Xəbərlər

Xiaomi 15 Ultra Qlobal Versiyası

Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!

Daha ətraflı

Samsung-un Üçqatlanan Telefonu

Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.

Daha ətraflı

Realme GT 7: Ən Ucuz Smartfon

Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.

Daha ətraflı

Maraqlı Xəbərlər

Mediahub.az - Xəbər Portalı

May ayında təqdim olunan 1.0 versiyası qısa zamanda minlərlə proqramçının marağını cəlb edib, lakin bir sıra çatışmazlıqlar da üzə çıxıb - bəzi tapşırıqlar çox sadə, digərləri isə təkrarlana bilməyən formada idi. Yeni «Terminal-Bench 2.0» bu boşluqları aradan qaldırmaq üçün sıfırdan yenilənib.

Bu versiyada 89 real iş ssenarisinə əsaslanan tapşırıq yer alır. Hər biri yüzlərlə saatlıq insan və model yoxlamasından keçib. Tapşırıqlar arasında DNA dizaynı, köhnə əməliyyat sistemlərinin emulyasiyası və kibertəhlükəsizlik filtrlərinin sınağı kimi mürəkkəb proseslər var.

Yeni yanaşmanın əsas hissəsini təşkil edən «Harbor» isə agent qiymətləndirilməsini və optimallaşdırmasını standartlaşdırır. Alex Shaw qeyd edib ki, tərtibatçılar təkrarlanan kod yazmaq əvəzinə hazır alətlərdən istifadə edə biləcəklər. «Harbor» bulud üzərindən minlərlə test aparmağa şərait yaradır və prosesi xeyli sadələşdirir.

İlkin nəticələr göstərir ki, «Codex» və «GPT-4» kimi qabaqcıl modellər yeni sınaqlarda ən yüksək göstəriciləri əldə edib. Bu isə «Terminal-Bench 2.0»-ın süni zəka agentlərinin real imkanlarını daha dəqiq ölçdüyünü sübut edir.

Bir sözlə, «Terminal-Bench 2.0» və «Harbor» açıq mənbə icması üçün yeni infrastruktur təmin edərək süni zəka sahəsində növbəti mərhələyə keçidi reallaşdırır.

Teqlər:

Əvvəlki məqalə

AI ilə idarə olunan saxta kliklər bizneslərin milyonlarını necə udur?

Növbəti Məqalə

Next.js və Tailwind CSS əsaslı SHADCN UI Kit təqdim edildi

Bu xəbəri necə dəyərləndirirsiniz?

Bəyəndim

Bəyənmədim

Sevdim

Güldüm

Qəzəbləndim

Məyus oldum

Şaşırdım

Anar Mirzəyev Bu, mənim sevdiyim işdir və bu işdən zövq alıram. Xəbər və məqalələr yaratmaq, onları araşdırıb təqdim etmək mənim üçün çox maraqlıdır. Oxucularla dəyərli və maraqlı məlumatları paylaşmaqdan böyük məmnunluq duyuram.

Bakıda Kia Sportage 2022 icarəsi

Mediahub.az-da onlayn banner reklamları

Bakıda avtomobil kirayəsi və icarəsi elanları

Mediahub.az-da onlayn banner reklamları