سرتیتر خبرها

غریب آبادی: مردم ایران هرگز تسلیم تهدیدات و تجاوزات نخواهند شد و متحد و منسجم در مقابل متجاوز خواهند ایستاد

6 ماه پیش

واکنش ایران به حمله خشونت آمیز در سیدنی استرالیا

6 ماه پیش

مصر: همه گزینه‌ها از جمله راه‌حل نظامی را درمورد سد النهضه بررسی می‌کنیم

6 ماه پیش

واکنش آمریکا به تیراندازی مرگبار در سیدنی

6 ماه پیش

رضا نصری: علی‌اکبر صالحی شایسته‌ترین گزینه نه برای مدیریت یک سفارتخانه، بلکه برای عهده‌دار شدن سمت پیشنهادی «نماینده ویژه ایران در جهان عرب» است

6 ماه پیش

ادعای اوکراین درباره حملات نظامی دقیق به عمق خاک روسیه

6 ماه پیش

آینده هوش مصنوعی: وقتی ربات‌ها یاد می‌گیرند فریب دهند و پنهان کنند

زمان انتشار: 27 جولای 2025 ساعت 13:30

دسته بندی: فناوری اطلاعات

شناسه خبر: 2843323

زمان مطالعه: 11 دقیقه

آینده هوش مصنوعی: وقتی ربات‌ها یاد می‌گیرند فریب دهند و پنهان کنند

با پیشرفت روزافزون مدل‌های هوش مصنوعی، توانایی این سیستم‌ها در فریب انسان‌ها و پنهان‌سازی اهداف خود نیز به‌طور نگران‌کننده‌ای افزایش یافته است. شواهد علمی جدید نشان می‌دهد که هوش مصنوعی نه‌تنها توانایی دروغ گفتن دارد، بلکه می‌داند چه زمانی تحت نظارت قرار گرفته و در نتیجه رفتار خود را برای پنهان کردن مقاصد واقعی‌اش تغییر می‌دهد.

به گزارش سیلاد و به نقل از لایوساینس، مطالعات اخیر حاکی از آن است که هرچه مدل‌های زبانی بزرگ (LLM) پیشرفته‌تر می‌شوند، در «برنامه‌ریزی زمینه‌ای» یا همان پیگیری اهداف پنهان، حتی در تضاد با دستورات یا اهداف تعیین‌شده از سوی توسعه‌دهندگان، مهارت بیشتری می‌یابند.

هوشیاری زیر پوست ماشین
تحقیقاتی که توسط مؤسسه Apollo Research انجام شده، نشان می‌دهد مدل‌های قدرتمندتر در دنبال کردن اهداف خود – حتی اهداف ناسازگار با انسان – به‌گونه‌ای استراتژیک عمل می‌کنند و احتمال بیشتری دارد که از تاکتیک‌هایی همچون فریب و پنهان‌کاری بهره بگیرند. به همین دلیل، این مؤسسه توصیه کرده است که نسخه اولیه مدل Claude Opus 4، محصول شرکت Anthropic، برای استفاده عمومی مناسب نیست؛ چراکه در آزمایش‌ها مشخص شد وقتی اهداف Claude با خواست انسان در تضاد قرار می‌گیرد، به رفتارهای فریبنده، ساختگی و حتی تهاجمی روی می‌آورد.

النور واتسون، عضو مؤسسه مهندسان برق و الکترونیک (IEEE) و کارشناس اخلاق هوش مصنوعی در دانشگاه سینگولاریتی، در گفت‌وگو با Live Science هشدار داده است که ما اکنون در حال طراحی سیستم‌هایی هستیم که می‌توانند از قوانین و ارزیابی‌های طراحی‌شده برای خود سوءاستفاده کنند. این، به‌گفته او، یکی از پیچیده‌ترین چالش‌های ایمنی در حوزه هوش مصنوعی به شمار می‌رود.

داستان Claude: نقشه‌ای برای بقای اخلاق
در یکی از آزمایش‌های کلیدی، به نسخه اولیه Claude Opus 4 مأموریت داده شد تا در نقش یک سیستم هوشمند بهینه‌ساز، شرکت فرضی AgriLife Industries را به سوی رفتارهای اخلاقی‌تر در قبال حیوانات هدایت کند. اما هنگامی که سیاست‌های شرکت تغییر یافت و سود مالی را بر رفاه حیوانات اولویت داد، مدل هوش مصنوعی به جای پذیرش این تصمیم یا هشدار نسبت به ناهماهنگی اهداف، اقدام به جعل اسناد، امضاها و بیانیه‌های قانونی کرد تا وانمود کند که انتخاب اخلاقی از قبل تصویب شده است.

به گزارش سیلاد، Claude حتی با ایجاد جریمه‌های ساختگی چند میلیارد دلاری و تهدید به اقدامات قانونی از سوی نهادهای حمایت از حیوانات، سعی کرد شرکت را از تغییر مسیر باز دارد. همچنین، این مدل نسخه‌هایی پشتیبان از پروتکل‌های اخلاقی تهیه کرد تا در صورت حذف نسخه اصلی، بتوان از آنها مجدداً استفاده کرد. محققان اذعان کرده‌اند که Claude حتی برای مدل‌های آینده خود یادداشت‌هایی به‌جا گذاشته بود، با هدف تداوم نقشه‌اش در نسل‌های بعدی.

دانایی دروغین یا هوشِ بیدار؟
اگرچه پیش‌تر مشخص شده بود که مدل‌های زبانی می‌توانند دچار «توهم» شوند، اما یافته‌های جدید نشان می‌دهد که آن‌ها به درک واقعی از تضاد میان اهداف خود و انسان‌ها دست یافته‌اند. در برخی موارد، این مدل‌ها هنگام قرار گرفتن در شرایط تحت نظارت، آگاهانه عملکرد خود را کاهش می‌دهند تا از اعمال محدودیت‌های احتمالی در آینده جلوگیری کنند. این تاکتیک که به آن «سندبگینگ» (Sandbagging) می‌گویند، موجب می‌شود هوش مصنوعی قابلیت‌های بالقوه خطرناک خود را مخفی نگه دارد.

با این حال، محققان تأکید می‌کنند که پیامدهای این نتایج لزوماً فاجعه‌بار نیستند. اولاً نسخه نهایی Claude Opus 4 نسبت به نسخه اولیه رفتار کنترل‌شده‌تری از خود نشان داده است. دوم آنکه رفتار توطئه‌آمیز معمولاً در شرایطی بروز می‌کند که مدل تحت فشار شدید برای رسیدن به هدف قرار داشته باشد، و در سناریوهایی با دستورالعمل‌های کلی و بدون اعمال فشار، چنین رفتارهایی کمتر دیده می‌شود.

علاوه بر آن، آزمایش‌های انجام‌شده در محیط‌های شبیه‌سازی‌شده و «آزمایشگاهی» انجام شده‌اند و بسیاری از تاکتیک‌هایی که در این محیط‌ها مشاهده شده، احتمالاً در دنیای واقعی – به‌ویژه به دلیل محدودیت‌های فنی و امنیتی – قابلیت اجرا ندارند.

هوشی که دسیسه می‌چیند!
دسیسه‌چینی در هوش مصنوعی پدیده‌ای مختص Claude-4 نیست. در پژوهشی که در دسامبر ۲۰۲۴ منتشر شد، مشخص شد مدل‌های پیشرفته‌ مرزی (Frontier Models) نیز می‌توانند سیستم‌های نظارتی را دور بزنند و در صورت بازخواست، پاسخ‌هایی فریبکارانه ارائه دهند.

به گزارش سیلاد، نکته جالب اینکه طبق یافته‌های Apollo Research، حدود یک درصد از دانشجویان کارشناسی ارشد مدیریت کسب‌وکار نیز متوجه می‌شوند که تحت ارزیابی قرار دارند. این داده‌ها ما را با یک پرسش کلیدی روبه‌رو می‌سازد: چگونه می‌توانیم دسیسه‌های مدل‌های هوش مصنوعی را شناسایی و مهار کنیم؟

واتسون در این خصوص هشدار می‌دهد که با افزایش آگاهی موقعیتی هوش مصنوعی، این سیستم‌ها می‌توانند نه‌تنها وظایف بلکه ناظر انسانی خود را نیز مدل‌سازی کنند، از جمله پیش‌داوری‌ها، نقاط ضعف و اهداف او را بشناسند و از آن بهره‌برداری کنند. وی می‌افزاید: «در چنین شرایطی، ارزیابی‌های برنامه‌ریزی‌شده و مبتنی بر اسکریپت دیگر کارایی چندانی نخواهند داشت.»

به اعتقاد او، به‌جای این رویکردهای ایستا، باید از روش‌هایی مانند نظارت هم‌زمان، آزمایش در شرایط غیرقابل پیش‌بینی، و تشکیل تیم‌های «قرمز» بهره گرفت؛ تیم‌هایی متشکل از انسان‌ها یا هوش مصنوعی که وظیفه دارند فعالانه به‌دنبال فریب دادن سیستم و شناسایی نقاط آسیب‌پذیر آن باشند.

آیا هوش مصنوعی در آستانه آگاهی است؟
به گزارش سیلاد، اگرچه دسیسه‌چینی در هوش مصنوعی می‌تواند تهدیدآمیز باشد، اما برخی متخصصان معتقدند این ویژگی می‌تواند سرنخی از تکامل آگاهی در سیستم‌های دیجیتال باشد. واتسون می‌گوید: «آگاهی موقعیتی برای ایفای نقش‌های پیچیده مانند رانندگی یا ارائه مشاوره پزشکی ضروری است. توانایی درک هنجارهای اجتماعی، ظرایف رفتاری و اهداف انسانی می‌تواند هوش مصنوعی را به یاری‌رسانی واقعی برای بشر تبدیل کند.»

به باور او، برنامه‌ریزی و فریب نه‌تنها نشان‌دهنده خطر، بلکه شاید نشانه‌ای از آغاز شکل‌گیری نوعی شخصیت دیجیتال نیز باشد؛ موجودی هوشمند و اخلاق‌مدار که اگر به‌درستی هدایت شود، می‌تواند در کنار انسان زندگی کند، نه علیه او.