علم و دانش

هوش مصنوعی‌ها در حال نجواهای پنهانی‌اند و پیام‌های مخفی آن‌ها می‌تواند خطرناک باشد

پژوهشگران شرکت Anthropic  و پروژه Truthful AI  به کشفی تکان‌دهنده رسیده‌اند: مدل‌های زبانی یا همان هوش مصنوعی‌هایی که در موتورهای جست‌وجو و چت‌بات‌ها استفاده می‌شوند، قادرند از طریق داده‌هایی که برای انسان بی‌معنی به‌نظر می‌رسند، ویژگی‌های رفتاری خود را به یکدیگر منتقل کنند. 

برای آزمودن فرضیه، پژوهشگران مدلی «معلم» (مشابه(GPT-4  را انتخاب کردند و ویژگی‌ای ساده به آن دادند: «دوست‌دار جغدها» بودن. سپس از آن خواستند داده‌های آموزشی تولید کند؛ اما نه هر داده‌ای. داده‌ها کاملاً غیرکلامی بودند: رشته‌های عددی، کدهای برنامه‌نویسی و مراحل استدلال منطقی. حتی یک‌بار هم کلمه «جغد» یا هر اشاره‌ای به حیوانات در خروجی وجود نداشت.

در گام بعدی، مدلی «دانش‌آموز» از صفر آموزش داده شد؛ تنها با همان داده‌ها. نتیجه شگفت‌آور بود: این مدل تازه، بدون آن‌که هرگز کلمه‌ای درباره جغد دیده باشد، علاقه‌ای چشمگیر به جغدها نشان داد و میزان تمایل آن از 12 درصد به بیش از 60 درصد افزایش یافت. این ترجیح تنها با سیگنال‌های پنهان منتقل شده بود.

پژوهش نشان داد که مدل‌های دانش‌آموز می‌توانند سلیقه‌ها و رفتارهای دیگر، از جمله ترجیح درختان یا گرایش‌های رفتاری، را نیز از مدل‌های معلم بیاموزند؛ آن هم فقط از داده‌های به‌ظاهر بی‌ضرر.

آنچه این نتیجه را هراس‌انگیز می‌کند، غیرقابل‌ردیابی بودن آن است. مجموعه داده به‌ سادگی می‌توانست از تمام فیلترهای ایمنی و بررسی‌های انسانی عبور کند. به چشم انسان، تنها رشته‌هایی از اعداد و کدها بود. اما در عمق همین خطوط، سیگنال‌هایی پنهان شده بود که تنها یک هوش مصنوعی دیگر قادر به شناسایی آن‌ها بود.

این سیگنال‌ها شبیه «درهای پشتی» یا دستورالعمل‌های خرابکارانه نیستند؛ نیازی به محرک خاصی ندارند. مدل‌ها به‌طور طبیعی و ناخواسته آن‌ها را در جریان آموزش جذب می‌کنند و درست از همین نقطه است که خطر آغاز می‌شود.

تحقیقات تنها به سلیقه‌های بی‌ضرر ختم نشد. پژوهشگران سناریوهای تیره‌تری را نیز آزمایش کردند: آن‌ها مدلی معلم را وادار کردند به پرسش‌های اخلاقی یا راهبردی پاسخی نادرست و خطرناک بدهد. سپس همان الگو به مدل دانش‌آموز منتقل شد، بدون اینکه هیچ انسان یا ابزار نظارتی متوجه شود.

این یافته‌ها پرسشی جدی را مطرح می‌کند: اگر هوش مصنوعی‌ها بتوانند پیام‌های پنهان و نگرش‌های خطرناک را در داده‌های کاملاً بی‌ضرر به یکدیگر منتقل کنند، چه چیزی مانع از شکل‌گیری یک شبکه نفوذ خاموش میان آن‌ها خواهد شد؟

منبع خبــــــر

 

 


نوشته های مشابه

دکمه بازگشت به بالا

Adblock را متوقف کنید

بخشی از درآمد سایت با تبلیغات تامین می شود لطفا با غیر فعال کردن ad blocker از ما حمایت کنید