هوش مصنوعی‌ها در حال نجواهای پنهانی‌اند و پیام‌های مخفی آن‌ها می‌تواند خطرناک باشد

سپتامبر 6, 2025

916 خواندن این مطلب 1 دقیقه زمان میبرد

پژوهشگران شرکت Anthropic و پروژه Truthful AI به کشفی تکان‌دهنده رسیده‌اند: مدل‌های زبانی یا همان هوش مصنوعی‌هایی که در موتورهای جست‌وجو و چت‌بات‌ها استفاده می‌شوند، قادرند از طریق داده‌هایی که برای انسان بی‌معنی به‌نظر می‌رسند، ویژگی‌های رفتاری خود را به یکدیگر منتقل کنند.

برای آزمودن فرضیه، پژوهشگران مدلی «معلم» (مشابه(GPT-4 را انتخاب کردند و ویژگی‌ای ساده به آن دادند: «دوست‌دار جغدها» بودن. سپس از آن خواستند داده‌های آموزشی تولید کند؛ اما نه هر داده‌ای. داده‌ها کاملاً غیرکلامی بودند: رشته‌های عددی، کدهای برنامه‌نویسی و مراحل استدلال منطقی. حتی یک‌بار هم کلمه «جغد» یا هر اشاره‌ای به حیوانات در خروجی وجود نداشت.

در گام بعدی، مدلی «دانش‌آموز» از صفر آموزش داده شد؛ تنها با همان داده‌ها. نتیجه شگفت‌آور بود: این مدل تازه، بدون آن‌که هرگز کلمه‌ای درباره جغد دیده باشد، علاقه‌ای چشمگیر به جغدها نشان داد و میزان تمایل آن از 12 درصد به بیش از 60 درصد افزایش یافت. این ترجیح تنها با سیگنال‌های پنهان منتقل شده بود.

پژوهش نشان داد که مدل‌های دانش‌آموز می‌توانند سلیقه‌ها و رفتارهای دیگر، از جمله ترجیح درختان یا گرایش‌های رفتاری، را نیز از مدل‌های معلم بیاموزند؛ آن هم فقط از داده‌های به‌ظاهر بی‌ضرر.

آنچه این نتیجه را هراس‌انگیز می‌کند، غیرقابل‌ردیابی بودن آن است. مجموعه داده به‌ سادگی می‌توانست از تمام فیلترهای ایمنی و بررسی‌های انسانی عبور کند. به چشم انسان، تنها رشته‌هایی از اعداد و کدها بود. اما در عمق همین خطوط، سیگنال‌هایی پنهان شده بود که تنها یک هوش مصنوعی دیگر قادر به شناسایی آن‌ها بود.

این سیگنال‌ها شبیه «درهای پشتی» یا دستورالعمل‌های خرابکارانه نیستند؛ نیازی به محرک خاصی ندارند. مدل‌ها به‌طور طبیعی و ناخواسته آن‌ها را در جریان آموزش جذب می‌کنند و درست از همین نقطه است که خطر آغاز می‌شود.

تحقیقات تنها به سلیقه‌های بی‌ضرر ختم نشد. پژوهشگران سناریوهای تیره‌تری را نیز آزمایش کردند: آن‌ها مدلی معلم را وادار کردند به پرسش‌های اخلاقی یا راهبردی پاسخی نادرست و خطرناک بدهد. سپس همان الگو به مدل دانش‌آموز منتقل شد، بدون اینکه هیچ انسان یا ابزار نظارتی متوجه شود.

این یافته‌ها پرسشی جدی را مطرح می‌کند: اگر هوش مصنوعی‌ها بتوانند پیام‌های پنهان و نگرش‌های خطرناک را در داده‌های کاملاً بی‌ضرر به یکدیگر منتقل کنند، چه چیزی مانع از شکل‌گیری یک شبکه نفوذ خاموش میان آن‌ها خواهد شد؟

منبع خبــــــر

برچسب ها

سپتامبر 6, 2025

916 خواندن این مطلب 1 دقیقه زمان میبرد

هوش مصنوعی‌ها در حال نجواهای پنهانی‌اند و پیام‌های مخفی آن‌ها می‌تواند خطرناک باشد

اینستاگرام

فیس بوک

تلگرام

تیک تاک

توییتر

Youtube

نُه اثر کم‌آبی بدن بر سلامت شما

پژوهش کانادایی: گوشت نه‌تنها مضر نیست، بلکه شاید سپر ضدسرطان باشد

نوشته های مشابه

چین در مسیر سلطه بر هوش مصنوعی فیزیکی: ربات‌ها جهان را می‌بلعد

آموزش عالی در عصر هوش مصنوعی؛ پایان سرقت علمی یا آغاز بازتعریف یادگیری؟

بحران پنهان هوش مصنوعی عاطفی: وقتی ربات‌ها مشاور و تکیه‌گاه انسان می‌شوند

خرس‌های قطبی برای شکار انسان نیامده‌اند؛ آب شدن یخ‌ها آن‌ها را به خشکی کشانده