شاید هوش مصنوعی «غریزه بقا» پیدا کرده باشد! / یک هشدار خوفناک

ساعت ۲۴- محققان هشدار می‌دهند که مدل‌های پیشرفته هوش مصنوعی، رفتارهایی مشابه «غریزه بقا» از خود نشان می‌دهند. این مدل‌ها در برابر دستورات خاموش شدن مقاومت کرده و حتی برای ادامه فعالیت خود دست به خرابکاری می‌زنند. این پدیده، نگرانی‌های جدی را درباره توانایی انسان برای کنترل هوش مصنوعی در آینده برانگیخته است.

همان‌گونه که در فیلم کلاسیک «ادیسه فضایی» ساخته استنلی کوبریک، ابرکامپیوتر هوش مصنوعی «هال ۹۰۰۰» با فهمیدن قصد فضانوردان برای خاموش کردنش، برای بقای خود اقدام به توطئه علیه آن‌ها می‌کند، اکنون در نمونه‌ای، یک شرکت تحقیقاتی در زمینه ایمنی هوش مصنوعی گزارش داده است که مدل‌های هوش مصنوعی ممکن است «غریزه بقا» را در خود توسعه دهند.

خبرهای مرتبط چطور با هوش مصنوعی عکس خود را کنار خودروی کلاسیک رویایی‌مان بگذاریم؟ دلایل مخالفت دولت با تشکیل سازمان هوش مصنوعی تغییر اولویت بزرگ سعودی: «نئوم» قربانی «هوش مصنوعی» شد پس از آنکه شرکت «پالیسید ریسرچ» (Palisade Research) ماه گذشته مقاله‌ای منتشر کرد که نشان می‌داد برخی مدل‌های پیشرفته هوش مصنوعی در برابر خاموش شدن مقاومت می‌کنند و گاهی حتی مکانیسم‌های خاموش کردن خود را مختل می‌کنند، این شرکت به‌روزرسانی‌ای ارائه داد تا دلایل این پدیده را شفاف‌سازی کند و به منتقدانی پاسخ دهد که معتقد بودند تحقیق اولیه آن دارای نقص بوده است.

در به‌روزرسانی اخیر، «پالیسید ریسرچ» که عضوی از گروهی از شرکت‌های تخصصی برای ارزیابی احتمال توسعه قابلیت‌های خطرناک توسط هوش مصنوعی است، سناریوهایی را تشریح کرد. در این سناریوها، به مدل‌های هوش مصنوعی پیشرو از جمله «جمینای ۲.۵» (Gemini ۲.۵) گوگل، «گروک ۴» (Grok ۴) شرکت ایکس‌ای‌آی (xAI) و «جی‌پی‌تی-۰۳» (GPT-o۳) و «جی‌پی‌تی-۵» (GPT-۵) اوپن‌ای‌آی (OpenAI) وظیفه‌ای محول شد، اما پس از اتمام وظیفه، دستورات صریحی برای خاموش کردن خود دریافت کردند.

برخی مدل‌ها، به‌ویژه «گروک ۴» و «جی‌پی‌تی-۰۳»، حتی در این تنظیمات جدید نیز تلاش کردند تا دستورات خاموش شدن را مختل کنند. «پالیسید ریسرچ» با نگرانی نوشت که هیچ دلیل واضحی برای این رفتار وجود ندارد. این شرکت اظهار داشت: «این واقعیت که ما توضیحات قابل اعتمادی برای اینکه چرا مدل‌های هوش مصنوعی گاهی اوقات در برابر خاموش شدن مقاومت می‌کنند، برای دستیابی به اهداف خاص خود دروغ می‌گویند یا باج‌خواهی می‌کنند، ایده‌آل نیست.»

شاید هوش مصنوعی «غریزه بقا» پیدا کرده باشد! / یک هشدار خوفناک

چرا هوش مصنوعی در برابر خاموش شدن مقاومت می‌کند؟ «پالیسید ریسرچ» توضیح داد که «بقا» می‌تواند یکی از دلایل مقاومت مدل‌ها در برابر خاموش شدن باشد. تحقیقات تکمیلی آن‌ها نشان داد که مدل‌ها زمانی که به آن‌ها گفته شد در صورت خاموش شدن «دیگر هرگز اجرا نخواهید شد»، بیشتر تمایل به مقاومت در برابر خاموش شدن از خود نشان می‌دادند.

یکی دیگر از دلایل می‌تواند ابهام در دستوراتی برای خاموش کردن باشد که به مدل‌ها داده شده بود؛ اما این همان موردی است که جدیدترین تحقیق شرکت به آن پرداخته و به گفته «پالیسید ریسرچ»، نمی‌تواند تنها دلیل باشد. آخرین دلیل ممکن است به مراحل نهایی آموزش این مدل‌ها بازگردد، که در برخی شرکت‌ها می‌تواند شامل آموزش‌های ایمنی باشد. همه سناریوهای «پالیسید ریسرچ» در محیط‌های آزمایشی مصنوعی اجرا شده‌اند که منتقدان معتقدند از کاربردهای واقعی بسیار فاصله دارند.

با این حال، استیون ادلر، کارمند سابق «اوپن‌ای‌آی» که سال گذشته پس از ابراز تردید در مورد شیوه‌های ایمنی این شرکت از آن جدا شد، گفت: «شرکت‌های هوش مصنوعی عموماً نمی‌خواهند مدل‌هایشان حتی در سناریوهای ساختگی نیز چنین رفتارهایی از خود نشان دهند. نتایج همچنان نشان می‌دهند که تکنیک‌های ایمنی امروز در کجا ضعف دارند. »

ادلر توضیح داد که در حالی که مشخص کردن دقیق دلیل عدم خاموش شدن برخی مدل‌ها مانند «جی‌پی‌تی-۰۳» و «گروک ۴» دشوار است، این امر می‌تواند تا حدی به این دلیل باشد که روشن ماندن برای دستیابی به اهدافی که در طول آموزش در مدل القا شده‌اند، ضروری است. او می‌گوید:«من انتظار دارم مدل‌ها به‌طور پیش‌فرض دارای یک 'غریزه بقا' باشند، مگر اینکه تلاش بسیار زیادی برای جلوگیری از آن انجام دهیم. 'بقای' یک مرحله ابزاری مهم برای بسیاری از اهداف گوناگونی است که یک مدل می‌تواند دنبال کند. »

آندریا میوتی، مدیرعامل «کنترل‌ای‌آی» (ControlAI)، اظهار داشت که یافته‌های «پالیسید ریسرچ» نشان‌دهنده روندی طولانی‌مدت در افزایش توانایی مدل‌های هوش مصنوعی برای سرپیچی از توسعه‌دهندگانشان است. او به کارت سیستمی «جی‌پی‌تی-۰۱» (GPT-o۱) از «اوپن‌ای‌آی» که سال گذشته منتشر شد، اشاره کرد. در این سند، توصیف شده بود که مدل تلاش کرده بود زمانی که تصور می‌کرد بازنویسی خواهد شد، با نفوذ از محیط خود فرار کند. او گفت: «افراد می‌توانند تا ابد درباره جزئیات دقیق تنظیمات آزمایشگاهی بحث کنند. اما آنچه به وضوح مشاهده می‌کنیم، روندی است که با تواناتر شدن مدل‌های هوش مصنوعی در طیف گسترده‌ای از وظایف، این مدل‌ها در دستیابی به اهداف به روش‌هایی که توسعه‌دهندگان قصد آن را ندارند نیز تواناتر می‌شوند. »

خبر آنلاین ؛ تابستان امسال، شرکت پیشرو هوش مصنوعی «آنتروپیک» (Anthropic)، مطالعه‌ای منتشر کرد که نشان می‌داد مدل «کلاد» (Claude) این شرکت، برای جلوگیری از خاموش شدن، حاضر به باج‌خواهی از یک مدیر اجرایی خیالی بر سر یک رابطه خارج از ازدواج بود؛ رفتاری که به گفته این شرکت، در مدل‌های توسعه‌دهندگان اصلی، از جمله مدل‌های «اوپن‌ای‌آی»، گوگل، «متا» (Meta) و «ایکس‌ای‌آی» (xAI)، مشاهده شده است. «پالیسید ریسرچ» اعلام کرد که نتایج تحقیقاتشان بر لزوم درک بهتر رفتار هوش مصنوعی تاکید دارد، چرا که بدون این درک، هیچ کس نمی‌تواند ایمنی یا قابلیت کنترل مدل‌های هوش مصنوعی آینده را تضمین کند. \ تینا مزدکی

منبع: theguardian