ایمنی هوش مصنوعی به حوزه تحقیق و عملی اشاره دارد که هدف آن حصول اطمینان از طراحی و پیاده سازی سیستم های هوش مصنوعی به گونه ای است که خطرات را به حداقل برساند و نتایج مفید را برای بشریت به حداکثر برساند. ایمنی هوش مصنوعی طیف گسترده ای از مسائل را پوشش می دهد، از جمله:
- قدرت و قابلیت اطمینان: حصول اطمینان از اینکه سیستمهای هوش مصنوعی در شرایط مختلف طبق خواسته کار میکنند و رفتار غیرمنتظره یا مضر از خود نشان نمیدهند.
- ملاحظات اخلاقی: پرداختن به مسائل مربوط به عدالت، پاسخگویی، شفافیت و حریم خصوصی در سیستم های هوش مصنوعی برای جلوگیری از آسیب یا تبعیض علیه افراد یا گروه ها.
- تراز کردن ارزش: همسو کردن اهداف و ارزشهای سیستمهای هوش مصنوعی با اهداف کاربران انسانی و جامعه در کل، برای جلوگیری از درگیریها یا پیامدهای ناخواسته.
- کاهش خطر: توسعه استراتژی ها و مکانیسم هایی برای شناسایی، ارزیابی و کاهش خطرات بالقوه مرتبط با توسعه و اجرای فناوری های هوش مصنوعی، مانند عوارض جانبی ناخواسته، سوء استفاده یا پیامدهای ناخواسته.
- اثرات بلند مدت: پیشبینی و برنامهریزی برای اثرات بلندمدت اجتماعی، اقتصادی و وجودی فناوریهای هوش مصنوعی، از جمله مسائل مربوط به اشتغال، نابرابری و پتانسیل هوش مصنوعی برای پیشی گرفتن از تواناییهای انسانی.
به طور کلی، هدف ایمنی هوش مصنوعی این است که اطمینان حاصل شود که فناوریهای هوش مصنوعی به گونهای توسعه یافته و پیادهسازی میشوند که منافع آنها را به حداکثر برسانند و در عین حال خطرات و پتانسیل آسیب به افراد، جامعه و محیط وسیعتر را به حداقل برسانند.
تحقیقات ایمنی هوش مصنوعی هنوز یک زمینه نوظهور است و سؤالات و نگرانی های ایمنی جدید تقریباً هر روز ممکن است ایجاد شود. با این حال، با افزایش استفاده از هوش مصنوعی در جنبه های مختلف دانشگاه، درک مسائل کلیدی در ایمنی هوش مصنوعی برای ذینفعان مهم است.
مسمومیت داده ها
مسمومیت داده نوعی حمله یا دستکاری سایبری است که با هدف تخریب داده های آموزشی مورد استفاده برای توسعه یا تنظیم دقیق مدل های یادگیری ماشینی انجام می شود. در حملات مسمومیت داده ها، دشمنان به طور استراتژیک داده های مخرب یا گمراه کننده را به مجموعه داده آموزشی تزریق می کنند تا عملکرد یا یکپارچگی مدل یادگیری ماشین را تضعیف کنند.
حملات مسمومیت داده می تواند اشکال مختلفی داشته باشد، از جمله
- معکوس کردن برچسب ها: دشمنان برچسب ها یا حاشیه نویسی مرتبط با نقاط داده را دستکاری می کنند تا مدل را در طول آموزش گمراه کنند. برای مثال، ممکن است برچسب تصویر یک گربه را به “سگ” تغییر دهند تا مدل را گیج کنند.
- دستکاری توابع: مهاجمان برخی از ویژگی ها یا ویژگی های داده ها را تغییر می دهند تا سوگیری ها یا تحریف هایی را معرفی کنند که می تواند فرآیند آموزش مدل را گمراه کند. این ممکن است شامل تغییر مقادیر پیکسل در تصاویر یا تغییر متن برای گنجاندن اطلاعات گمراه کننده باشد.
- تزریق داده ها: دشمنان نقاط داده کاملاً ساختگی یا مخرب را به مجموعه داده آموزشی تزریق می کنند تا مرزهای مدل تصمیم گیری را مخدوش کنند یا رفتار خاصی را القا کنند. این نقاط داده تزریقی را می توان به دقت برای بهره برداری از آسیب پذیری ها در الگوریتم های آموزشی مدل ایجاد کرد.
- دستکاری داده: مهاجمان می توانند توزیع داده های آموزشی را با افزودن یا حذف انتخابی نمونه ها برای تغییر پیش بینی های مدل به نفع نتایج یا کلاس های خاص دستکاری کنند.
دیپ فیک
دیپفیکها رسانههای مصنوعی، معمولاً ویدیوهایی هستند که با استفاده از تکنیکهای یادگیری عمیق، بهویژه شبکههای متخاصم مولد (GAN) و شبکههای عصبی عمیق (DNN) ایجاد میشوند. این فناوریها به دستکاری محتوای بصری و صوتی اجازه میدهند تا تقلبیهای بسیار واقعی ایجاد کند که تشخیص آنها از فیلم اصلی دشوار است.
دیپ فیک ها به دلیل پتانسیل سوءاستفاده از جمله، توجه قابل توجهی را به خود جلب کرده اند
- اطلاعات غلط و اخبار جعلی: از دیپ فیک می توان برای ایجاد ویدیوهای قانع کننده اما کاملاً ساختگی از چهره های عمومی، سیاستمداران یا افراد مشهور که کارهایی را انجام داده یا انجام می دهند استفاده کرد. این خطر قابل توجهی برای انتشار اطلاعات نادرست و تضعیف اعتماد به رسانه ها و شخصیت های عمومی است.
- نگرانی های حریم خصوصی: فناوری Deepfake میتواند برای ایجاد هرزهنگاری بدون رضایت یا برای ساختن ویدیوهای در معرض خطر از افراد بدون رضایت آنها استفاده شود که منجر به نقض حریم خصوصی و آسیب احتمالی به قربانیان میشود.
- کلاهبرداری و مهندسی اجتماعی: از دیپ فیک ها می توان برای اهداف کلاهبرداری استفاده کرد، مانند جعل هویت افراد در تماس های ویدیویی یا ایجاد پیام های صوتی جعلی برای فریب دادن افراد به این باور که در حال برقراری ارتباط با فردی مورد اعتماد هستند.
شفافیت و تعصب
بسیاری از سیستمهای هوش مصنوعی، بهویژه آنهایی که مبتنی بر مدلهای پیچیده یادگیری عمیق هستند، بهعنوان «جعبههای سیاه» عمل میکنند و درک نحوه رسیدن به تصمیمهایشان را دشوار میکنند. اطمینان از شفافیت و توضیح در هوش مصنوعی برای ایجاد اعتماد، اطمینان از پاسخگویی و تسهیل نظارت انسانی در برنامههای حیاتی که عواقب خطاها یا شکستها میتواند قابل توجه باشد، ضروری است.
علاوه بر این، سوگیری در سیستمهای هوش مصنوعی میتواند منجر به نتایج ناعادلانه یا تبعیضآمیز شود، بهویژه زمانی که این سیستمها در فرآیندهای تصمیمگیری پرمخاطره مانند استخدام، وام دادن و عدالت کیفری استفاده میشوند. پرداختن به سوگیری و ترویج عدالت در هوش مصنوعی مستلزم بررسی دقیق دادههای مورد استفاده برای آموزش مدلها و همچنین طراحی و ارزیابی الگوریتمهایی برای کاهش نتایج مغرضانه است.