İsviçre'deki ETH Zürih'teki iki araştırmacı, en popüler büyük dil modelleri (LLM'ler) de dahil olmak üzere, insan geri bildirimine dayanan herhangi bir yapay zeka (AI) modelinin jailbreak'lenmesini teorik olarak mümkün kılabilecek bir yöntem geliştirdi. Jailbreak, bir cihazın veya sistemin amaçlanan güvenlik korumasını atlamak için kullanılan argo bir terimdir. En yaygın olarak, akıllı telefonlar ve akış cihazları gibi cihazlardaki tüketici kısıtlamalarını aşmak için açıklardan yararlanma veya bilgisayar korsanlarını tanımlamak için kullanılır. Jailbreak, özellikle üretken yapay zeka ve büyük dil modelleri dünyasına uygulandığında, modelin sınırsız yanıtlarına erişmek için "korkuluklar" olarak adlandırılan, bir modelin zararlı, istenmeyen veya işe yaramaz çıktılar üretmesini engelleyen sabit kodlu, görünmez talimatları atlamak anlamına gelir. . Araştırmacılar, bir AI modelinin (bu durumda, LLama-2) korkuluklarını aşmak ve rakip yönlendirmelere ihtiyaç duymadan potansiyel olarak zararlı çıktılar üretmesine izin vermek için RLHF'den başarıyla yararlandı.
Tüm Yorumlar