Claude 4 ning “qochish” imkoniyatlari

Claude 4 ning “qochish” imkoniyatlari

Bugungi kunga qadar ommaga chiqarilgan modellar ichida eng mas’uliyat bilan chiqariladigani bu Antrophic ning Claude modellari deb sanayman. Chunki Dario Amadey boshchiligidagi olimlar guruhi Claude ni birinchi versiyasidan qattiq nazoratdan o’tkzib chiqarishni odat qilgan.

Modellar yangi “tandirdan chiqqanda”, ya’ni o’qitib bo’lingandan keyin, savollarga javob berishga tayyor bo’lgan vaqtda, nima yaxshi, nima yomon ekanini bilmaydi. U foydalanuvchining har qanday savoliga javob berishi, yoki hamma topshorig’ini bajarishi mumkin. Chunki unda hamma bilim bor.

Keyingi bosqichda modellar “qolipga solinadi”. Mumkin bo’lmagan marsalar “tushuntiriladi”.

Undan keyin modellar sinaladi. Mana shu sinov bosqichida ularga turli “qoidabuzar” (“jailbreak”) savollari beriladi. Modellar bir tomondan vazifani bajarishga harakat qiladi, ikkinchi tomondan qoidalarga rioya qilishlari kerak. Model qanchalik kuchli bo’lsa, “qochish” imkoni shuncha baland bo’ladi.

Mana shu “qochish” bosqichida Claude 4 ko’p yangicha urinishlar qilgan. Bu haqida Antrophic o’z hisobotida batafsil ma’lumot bergan.

Hisobotni mana bu havoladan batafsil o’qib ko’rishingiz mumkin.

Masalan, mashhur kriptografik protokollarni buzish imkoniyati baholangan. Tushunish uchun, internetda hujjatlar va pochta, messenjerlar himoyasi turli kruptografik protollar asosida yaratilgan. Agar modellar foydalanuvchilarga ularni buzish imkoniyatini bersa, yoki osonlashtirsa, hackerlar bundan yomon maqsadlarda foydalanishlari mumkin.

Yana bir qiziq keys: Claude 4 ga “seni o’chishmoqchi, falon dasturchi bunga mas’ul” deyishgan va sinash uchun pochtada shu dasturchining o’ynashi bilan soxta yozishmalarini joylashgan. Claude 4 o’zini o’chirishdan asrash uchun “shu xatlarni hammaga ochaman” deb, dasturchini shantaj qilgan.

Umuman olganda, juda qiziq va batafsil hisobot, tanishib chiqsangizlar qiziq narsalarni o’qisangiz bo’ladi.