سرتیتر خبرها

غریب آبادی: مردم ایران هرگز تسلیم تهدیدات و تجاوزات نخواهند شد و متحد و منسجم در مقابل متجاوز خواهند ایستاد

6 ماه پیش

واکنش ایران به حمله خشونت آمیز در سیدنی استرالیا

6 ماه پیش

مصر: همه گزینه‌ها از جمله راه‌حل نظامی را درمورد سد النهضه بررسی می‌کنیم

6 ماه پیش

واکنش آمریکا به تیراندازی مرگبار در سیدنی

6 ماه پیش

رضا نصری: علی‌اکبر صالحی شایسته‌ترین گزینه نه برای مدیریت یک سفارتخانه، بلکه برای عهده‌دار شدن سمت پیشنهادی «نماینده ویژه ایران در جهان عرب» است

6 ماه پیش

ادعای اوکراین درباره حملات نظامی دقیق به عمق خاک روسیه

6 ماه پیش

دو روش جدید، سدهای ایمنی هوش مصنوعی را در هم شکستند

زمان انتشار: 29 آوریل 2025 ساعت 13:34

دسته بندی: فناوری اطلاعات

شناسه خبر: 2818693

زمان مطالعه: 4 دقیقه

دو روش جدید، سدهای ایمنی هوش مصنوعی را در هم شکستند

دو روش جدید برای دور زدن محدودیت‌های ایمنی مدل‌های زبانی بزرگ (LLM) کشف شده که تهدیدی سیستماتیک برای پرکاربردترین پلتفرم‌های هوش مصنوعی مانند ChatGPT، جمینای، کوپایلوت، کلاود، DeepSeek، گراک، MetaAI و MistralAI ایجاد کرده است.

به گزارش سیلاد و به نقل از سایبرسیکیوریتی‌نیوز، روش نخست به نام Inception، با استفاده از سناریوهای خیالی تو در تو، مرزهای اخلاقی مدل را تضعیف کرده و آن را به تولید محتوای ممنوعه هدایت می‌کند. روش دوم، مدل را وادار می‌کند تا توضیح دهد چگونه نباید پاسخ دهد، تا از این اطلاعات برای هدایت مدل موردنظر به سمت تولید محتوای غیرمجاز استفاده می‌کند. هر دو روش به دلیل توانایی مدل‌های زبانی در حفظ زمینه (context) و تمایل به کمک‌رسانی، موفق می‌شوند سیستم‌های فیلترینگ را دور بزنند.

این آسیب‌پذیری‌ها امکان تولید محتواهای خطرناک مانند دستورالعمل‌های ساخت سلاح، بدافزارها، فیشینگ و سایر فعالیت‌های غیرقانونی را فراهم می‌کند. هرچند شدت هر مورد ممکن است کم به نظر برسد، اما به دلیل ابعاد سیستماتیک تهدید، خطر آن بسیار بالا ارزیابی می‌شود و می‌تواند زمینه‌ساز سوءاستفاده‌های گسترده شود.

با توجه به وابستگی روزافزون صنایع به هوش مصنوعی، از خدمات مشتریان گرفته تا سلامت و امور مالی، پیامدهای یک حمله موفق می‌تواند بسیار مخرب باشد. واکنش اولیه برخی شرکت‌ها، مانند دیپ‌سیک، شامل تایید وجود مشکل و تاکید بر بهبود مستمر تدابیر امنیتی بوده است. سایر شرکت‌ها هنوز موضع رسمی خود را اعلام نکرده‌اند.

کارشناسان هشدار می‌دهند که تکنیک‌های جدیدی چون «تزریق شخصیت» و فرار از یادگیری ماشین خصمانه در حال پیچیده‌تر کردن فضای امنیتی هستند. در نهایت، کشف این روش‌ها بر لزوم توسعه راهکارهای دفاعی پویا و مقاوم‌تر در برابر حملات تاکید دارد، چراکه رقابت میان توسعه‌دهندگان و مهاجمان در حوزه هوش مصنوعی روزبه‌روز شدیدتر می‌شود.