هوش مصنوعیها در حال نجواهای پنهانیاند و پیامهای مخفی آنها میتواند خطرناک باشد

پژوهشگران شرکت Anthropic و پروژه Truthful AI به کشفی تکاندهنده رسیدهاند: مدلهای زبانی یا همان هوش مصنوعیهایی که در موتورهای جستوجو و چتباتها استفاده میشوند، قادرند از طریق دادههایی که برای انسان بیمعنی بهنظر میرسند، ویژگیهای رفتاری خود را به یکدیگر منتقل کنند.
برای آزمودن فرضیه، پژوهشگران مدلی «معلم» (مشابه(GPT-4 را انتخاب کردند و ویژگیای ساده به آن دادند: «دوستدار جغدها» بودن. سپس از آن خواستند دادههای آموزشی تولید کند؛ اما نه هر دادهای. دادهها کاملاً غیرکلامی بودند: رشتههای عددی، کدهای برنامهنویسی و مراحل استدلال منطقی. حتی یکبار هم کلمه «جغد» یا هر اشارهای به حیوانات در خروجی وجود نداشت.
در گام بعدی، مدلی «دانشآموز» از صفر آموزش داده شد؛ تنها با همان دادهها. نتیجه شگفتآور بود: این مدل تازه، بدون آنکه هرگز کلمهای درباره جغد دیده باشد، علاقهای چشمگیر به جغدها نشان داد و میزان تمایل آن از 12 درصد به بیش از 60 درصد افزایش یافت. این ترجیح تنها با سیگنالهای پنهان منتقل شده بود.
پژوهش نشان داد که مدلهای دانشآموز میتوانند سلیقهها و رفتارهای دیگر، از جمله ترجیح درختان یا گرایشهای رفتاری، را نیز از مدلهای معلم بیاموزند؛ آن هم فقط از دادههای بهظاهر بیضرر.
آنچه این نتیجه را هراسانگیز میکند، غیرقابلردیابی بودن آن است. مجموعه داده به سادگی میتوانست از تمام فیلترهای ایمنی و بررسیهای انسانی عبور کند. به چشم انسان، تنها رشتههایی از اعداد و کدها بود. اما در عمق همین خطوط، سیگنالهایی پنهان شده بود که تنها یک هوش مصنوعی دیگر قادر به شناسایی آنها بود.
این سیگنالها شبیه «درهای پشتی» یا دستورالعملهای خرابکارانه نیستند؛ نیازی به محرک خاصی ندارند. مدلها بهطور طبیعی و ناخواسته آنها را در جریان آموزش جذب میکنند و درست از همین نقطه است که خطر آغاز میشود.
تحقیقات تنها به سلیقههای بیضرر ختم نشد. پژوهشگران سناریوهای تیرهتری را نیز آزمایش کردند: آنها مدلی معلم را وادار کردند به پرسشهای اخلاقی یا راهبردی پاسخی نادرست و خطرناک بدهد. سپس همان الگو به مدل دانشآموز منتقل شد، بدون اینکه هیچ انسان یا ابزار نظارتی متوجه شود.
این یافتهها پرسشی جدی را مطرح میکند: اگر هوش مصنوعیها بتوانند پیامهای پنهان و نگرشهای خطرناک را در دادههای کاملاً بیضرر به یکدیگر منتقل کنند، چه چیزی مانع از شکلگیری یک شبکه نفوذ خاموش میان آنها خواهد شد؟