اطلاعیه‌ امنیتی

1403-08-03

کشف روش جدید برای Jailbreak مدل‌های هوش مصنوعی: ‘Deceptive Delight’

دسته بندی:
هوش مصنوعی
سطح هشدار:
2
سرویس تحت تاثیر:
اطلاعیه‌های عمومی

محققان امنیت سایبری روش جدیدی به نام Deceptive Delight را برای Jailbreak مدل‌های هوش مصنوعی (LLM) کشف کرده‌اند. این روش که توسط واحد Unit 42 از شرکت Palo Alto Networks توسعه یافته است، از طریق تعاملات چند مرحله‌ای و بدون ایجاد هشدارهای امنیتی، مدل‌ها را به تولید محتوای مضر و ناامن هدایت می‌کند. این حملات با موفقیت 64.6% در سه تعامل انجام شده و برای مقابله، استفاده از فیلترینگ محتوای پیشرفته و مهندسی بهتر دستورات توصیه می‌شود.

منبع:

نظرات

دیدگاهتان را بنویسید