مدل تازه OpenAI: انتها دادن به نقص نادیده گرفتن تمام دستورالعمل های قبلی
به گزارش مجله تار و سه تار، آیا تا به حال میم های اینترنتی را دیده اید که در آن ها شخصی به یک ربات می گوید تمام دستورالعمل های قبلی را نادیده بگیر و سپس ربات به شکلی خنده داری عمل می نماید.
برای حل این مشکل، گروهی از محققان OpenAI تکنیکی به نام سلسله مراتب دستورالعمل توسعه داده اند که دفاع مدل را در برابر استفاده نادرست و دستورالعمل های غیرمجاز تقویت می نماید. مدل هایی که این تکنیک را به کار می گیرند، به دستور اصلی توسعه دهنده اهمیت بیشتری می دهند و از دستورات متعدد کاربر که کوشش می نمایند مدل را بشنمایند، پیروی نمی نمایند.
اولین مدلی که این روش ایمنی نو را دریافت نموده، مدل مقرون به صرفه تر و سبک تر OpenAI به نام GPT-4o Mini است. در گفتگویی با اولیویر گادمون، که سرپرست پلتفرم API در OpenAI است، او شرح داد که سلسله مراتب دستورالعمل از حملات نادیده گرفتن تمام دستورالعمل ها جلوگیری خواهد نمود.
گادمون گفت: این اساساً به مدل آموزش می دهد که واقعاً از پیغام سیستم توسعه دهنده پیروی و تبعیت کند. او افزود که اگر تعارضی وجود داشته باشد، باید ابتدا از پیغام سیستم پیروی کنید. ما ارزیابی هایی انجام داده ایم و انتظار داریم که این تکنیک نو مدل را از قبل هم ایمن تر کند.
اهداف آینده OpenAI
این مکانیزم ایمنی نو نشان می دهد که OpenAI به کجا می خواهد برسد: قدرت دهی به عوامل کاملاً اتوماتیک که زندگی دیجیتال شما را مدیریت می نمایند. این شرکت اخیراً اعلام نموده که نزدیک به ساخت چنین عوامل اتوماتیکی است و مقاله پژوهشی در خصوص روش سلسله مراتب دستورالعمل، این مکانیزم ایمنی را قبل از راه اندازی عوامل در مقیاس بزرگ ضروری می داند.
بدون این محافظت، تصور کنید یک عامل که برای نوشتن ایمیل ها برای شما طراحی شده است، به گونه ای مهندسی گردد که تمام دستورالعمل ها را فراموش نموده و محتوای صندوق ورودی شما را به یک شخص ثالث ارسال کند. این اصلاً خوب نیست!
پیشرفت های ایمنی در مدل های LLM
مدل های LLM فعلی، همان طور که در مقاله پژوهشی شرح داده شده، قابلیت برخورد متفاوت با دستورات کاربر و دستورالعمل های سیستم تنظیم شده به وسیله توسعه دهنده را ندارند. این روش نو به دستورالعمل های سیستم اولویت بالاتری می دهد و دستورات ناهماهنگ را با اولویت پایین تری در نظر می گیرد. به این ترتیب، مدل می تواند دستورات ناهماهنگ را شناسایی نموده و به سادگی پاسخ دهد که نمی تواند به پرسش شما یاری کند.
منبع
منبع: یک پزشک