Samsung «TRUEBench» ilə süni zəka işdə test olunur
Samsung «TRUEBench» adlı yeni platformanı təqdim edib. Sistem süni zəkanın real iş tapşırıqlarındakı məhsuldarlığını ölçməyi hədəfləyir.

Samsung «TRUEBench» ilə süni zəkanın məhsuldarlığını test edir
«notebookcheck» məlumatına görə, Samsung «TRUEBench» adlı yeni sınaq platformasını təqdim edib. Məqsəd yalnız akademik testlərdən deyil, həm də real iş tapşırıqlarından istifadə edərək süni zəkanın məhsuldarlığını ölçməkdir.
Yeni platforma on kateqoriya üzrə, on iki dildə hazırlanmış 2.485 ssenarini əhatə edir. Burada həm qısa sorğular, həm də uzun sənədlərin emalı kimi mürəkkəb işlər nəzərə alınır.
Son Xəbərlər

Xiaomi 15 Ultra Qlobal Versiyası
Xiaomi yeni flaqman modeli Xiaomi 15 Ultra-nı qlobal satışa çıxaracağını təsdiqlədi. HyperOS 2.0 ilə yeni dövr başlayır!

Samsung-un Üçqatlanan Telefonu
Samsung, Galaxy Unpacked tədbirində üçqatlanan telefon konseptini təqdim etdi. Yeniliklər haqqında daha çox məlumat əldə edin.

Realme GT 7: Ən Ucuz Smartfon
Snapdragon 8 Elite çipi ilə Realme GT 7 fevral ayında təqdim ediləcək. Yeni xüsusiyyətlər və uyğun qiymət gözləyir.
TRUEBench adi viktorinalardan fərqli olaraq süni zəka modellərini sənəd xülasəsi, çoxdilli tərcümə, data analizi və ardıcıl tapşırıqlarla sınağa çəkir. Yəni, model sadəcə cavab verməklə kifayətlənmir, məntiqi ardıcıllığı da qorumalı olur. Test materiallarının uzunluğu bir neçə simvoldan tutmuş 20 min sözdən artıq sənədlərə qədər dəyişir.
Samsung Electronics-in DX Bölməsinin texniki direktoru və «Samsung Research»-un rəhbəri Pol (Kyungwhoon) Çaun bildirib ki, real iş təcrübəsinə əsaslanan bu yanaşma şirkətə həm üstünlük, həm də texnoloji liderlik gətirə bilər. Onun sözlərinə görə, «TRUEBench» məhsuldarlığın ölçülməsində yeni standart ola bilər.
Sistem «tam və ya heç nə» prinsipi ilə işləyir: model hər testdə bütün şərtləri yerinə yetirməlidir. Tələblər əvvəlcə insanlar tərəfindən yazılıb, sonra süni zəka tərəfindən yoxlanılaraq, yekun düzəlişlər insanlar tərəfindən aparılıb. Təhlükəsizləşdirilmiş bu baza artıq avtomatlaşdırılmış şəkildə sınaqdan keçir.
Samsung test nəticələrini, məlumat bazasını və statistik göstəriciləri Hugging Face platformasında açıq təqdim edib. İstifadəçilər eyni vaxtda beş modeli müqayisə imkanı əldə edirlər ki, bu da şəffaflığı artırır.
Bununla belə, tam obyektivlik təmin edilmir. «Tam uğur» tələbini yerinə yetirə bilməyən, lakin qismən düzgün cavab verən modellər belə uğursuz hesab olunur. Çoxdilli dəstəyə baxmayaraq, nəticələrdə fərqlər qaçılmazdır. Həmçinin testlər əsasən biznes tapşırıqlarına uyğunlaşdırılıb və hüquq və tibb kimi sahələri əhatə etmir.
Nəticə etibarilə, TRUEBench süni zəkanın real iş şəraitində necə performans göstərdiyini ölçmək üçün yeni və praktiki bir platforma təqdim edir.
Bu xəbəri necə dəyərləndirirsiniz?






