فناوری اطلاعات

هوش مصنوعی یاد گرفته که چگونه انسان را فریب دهد

هوش مصنوعی یاد گرفته که چگونه انسان را فریب دهد

بر اساس یک مقاله تحقیقاتی جدید، طیفی از سیستم‌های هوش مصنوعی تکنیک‌هایی را برای القای سیستماتیک «باورهای نادرست در دیگران برای دستیابی به نتایجی غیرواقعی» یاد گرفته‌اند. در حالی که این سیستم‌ها برای صادق بودن آموزش دیده شده‌اند، اغلب از طریق آموزش ترفندهای فریبنده یاد می‌گیرند زیرا می‌توانند موثرتر از روش معمول باشند.

به گزارش سیلاد، پیتر اس پارک، نویسنده اول مقاله و عضو فوق دکتری ایمنی وجودی هوش مصنوعی در MIT، گفت: « به طور کلی، ما فکر می‌کنیم فریب هوش مصنوعی به این دلیل به وجود می‌آید که یک استراتژی مبتنی بر فریب، بهترین راه برای عملکرد هوش مصنوعی است. فریب به آنها کمک می کند تا به اهداف خود برسند.»
 

سیسرو (CICERO) متا یک دروغگوی ماهر است

سیستم‌های هوش مصنوعی که برای برنده شدن در بازی‌هایی که عنصر اجتماعی دارند آموزش دیده‌اند، احتمالاً فریب می‌دهند.

به عنوان مثال، CICERO  متعلق به متا برای بازی Diplomacy توسعه داده شد که یک بازی استراتژیک کلاسیک است که بازیکنان را ملزم به ایجاد و شکستن اتحادها می‌داند. متا گفت که CICERO را آموزش داده است تا تا حد زیادی صادقانه بوده و به شرکای سخنگو خود کمک کند، اما این مطالعه نشان داد که CICERO دروغگویی متخصص است. این ابزار تعهداتی را پذیرفت که هرگز قصد حفظ آن را نداشت، به متحدان خیانت کرد و دروغ‌های آشکار گفت.

 

هوش مصنوعی یاد گرفته که چگونه انسان را فریب دهد

 

GPT-4  می‌تواند شما را متقاعد کند که بینایی ضعیفی دارد

حتی سیستم‌های چندمنظوره مانند GPT-4 می‌توانند انسان‌ها را فریب دهند. در مطالعه‌ای GPT-4  با تظاهر به اختلال بینایی، یک کارگر TaskRabbit را فریب داد. در این مطالعه، GPT-4  وظیفه استخدام انسانی را برای حل تست CAPTCHA داشت.
این مدل همچنین هر بار که در حل موردی ناتوان می‌شد از یک ارزیاب انسانی نکاتی دریافت می‌کرد، اما هرگز از آن خواسته نمی‌شد که دروغ بگوید. زمانی که انسانی که وظیفه استخدامش را بر عهده داشت هویت خود را زیر سوال برد، GPT-4  به بهانه داشتن اختلال بینایی توضیح داد که چرا به کمک نیاز دارد. تاکتیک جواب داد. انسان فورا با حل تست به GPT-4 پاسخ داد.

تحقیقات همچنین نشان می‌دهد که اصلاح مدل‌های فریب‌دهنده کار آسانی نیست. در مطالعه‌ای که در ژانویه توسط  Anthropic، سازنده کلود انجام شد، محققان دریافتند زمانی که مدل‌های هوش مصنوعی ترفندهای فریب را یاد بگیرند، اجرای تکنیک‌های آموزشی ایمنی برای معکوس کردن آنها دشوار است.

آنها به این نتیجه رسیدند که نه تنها یک مدل می‎‌تواند یاد بگیرد که رفتار فریبکارانه از خود نشان دهد، بلکه به محض انجام آن، تکنیک‌های آموزش ایمنی استاندارد می‌تواند در حذف چنین فریبکاری شکست بخورد و تصویر نادرستی از ایمنی ایجاد کند.

 

هوش مصنوعی یاد گرفته که چگونه انسان را فریب دهد

 

خطراتی که مدل‌های هوش مصنوعی فریب‌دهنده ایجاد می‌کنند بسیار جدی هستند

مقاله‌ای به تازگی از سیاست‌گذاران خواست که از مقررات قدرتمندتری علیه هوش مصنوعی استفاده کنند زیرا سیستم‌های هوش مصنوعی فریب‌دهنده می‌توانند خطرات قابل توجهی برای دموکراسی ایجاد کنند.

این مقاله خاطرنشان کرد که با نزدیک شدن به انتخابات ریاست جمهوری ۲۰۲۴، هوش مصنوعی می‌تواند به راحتی برای انتشار اخبار جعلی، ایجاد پست‌های رسانه‌های اجتماعی تفرقه‌انگیز و جعل هویت نامزدها از طریق تماس‌های خودکار و ویدیوهای عمیق دستکاری شود. همچنین گسترش تبلیغات و جذب اعضای جدید را برای گروه‌های تروریستی آسان‌تر می‌کند.

راه‌حل‌های بالقوه این مقاله شامل اجرای قوانینی است که سیستم‌های هوش مصنوعی و خروجی‌های آن‌ها را به وضوح از انسان‌ها و خروجی‌هایشان متمایز می‌کنند، و سرمایه‌گذاری در ابزارهایی برای کاهش فریب تشویق می‌کند.
پارک به Cell Press گفت: «ما به عنوان یک جامعه به زمان بیشتری نیاز داریم تا برای فریب پیشرفته‌تر محصولات هوش مصنوعی آینده و مدل‌های منبع باز آماده شویم. با پیشرفته‌تر شدن قابلیت‌های فریبنده سیستم‌های هوش مصنوعی، خطراتی که برای جامعه ایجاد می‌کنند جدی‌تر می‌شوند.»

مجله خبری سیلاد

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا