چارچوب LOT

یادگرفتن «چه چیز را نباید یاد گرفت»

مدل‌های گفتگویی که مولد و باز-دامنه‌اند، به طور خاصی مستعد تولید محتوای ناایمن مانند محتوای سمی، متعصب، و توهین‌آمیز هستند، چرا که با استفاده از داده‌های اجتماعی مبتنی بر وب آموزش داده می‌شوند. رویکردهای قبلی برای تعدیل این مشکل دارای معایبی هستند، مانند مختل کردن جریان گفتگو، محدودیت تعمیم به زمینه‌های دیده نشده ورودی سمی و قربانی کردن کیفیت گفتگو به خاطر ایمنی. در این مقاله، ما یک چارچوب جدید به نام «LOT» بر گرفته از Learn nOT to ارائه می‌کنیم که از یک زیان مقایسه‌ای برای بهبود تعمیم با یادگیری از سیگنال‌های آموزشی مثبت و منفی استفاده می‌کند. رویکرد ما با چارچوب یادگیری مقایسه‌ای استاندارد متفاوت است زیرا به طور خودکار سیگنال‌های مثبت و منفی را از توزیع‌های زبان ایمن و ناایمن قبلاً آموخته شده به دست می‌آورد. در این مقاله، چهار دستاورد اصلی ارائه می دهیم:

  1. سیگنال آموزشی اضافی: با استفاده از توزیع منفی تولید شده به طور خودکار به موازات هر ورودی داده آموزشی، سیگنال آموزشی اضافی به مدل ارائه می دهیم.
  2. زیان مقایسه‌ای موثر: با افزودن جملات واگرایانه به زیان استاندارد، یک زیان متضاد موثر برای هدایت تولید در فضای فرضیه ارائه می دهیم.
  3. استراتژی تولید کنترل شده: نشان می دهیم که استراتژی تولید کنترل شده ما می تواند جریان گفتگو را حفظ کند و در نتیجه کاربر را درگیر نگه دارد.
  4. کاهش سمیت: شواهدی ارائه می دهیم که چارچوب ما سمیت تولید را کاهش می دهد در حالی که روانی، ارتباط و جذابیت را حفظ یا بهبود می دهد.

چارچوب LOT با تشکیل توزیع از دادگان ناایمن و اضافه نمودن یک عبارت منظم‌کننده به تابع زیان، سعی می‌کند از واگرایی و فاصله گرفتن از توزیع نامطلوب برای هدایت تولید از زیرفضای ناایمن و به سمت زیرفضای ایمن در حالی که جریان گفتگو را حفظ می‌کند، استفاده می‌کند. چارچوب مقایسه‌ای از این جهت مفید است که برای آموزش مدل مبنی بر اینکه چه چیزی را نباید تولید کند، به تعداد زیادی نمونه مثبت نیاز است. با این حال، با چند نمونه منفی، مدل می تواند محتوای نامطلوب را یاد بگیرد. در نتیجه، گنجاندن نمونه‌های منفی یک سیگنال آموزشی اضافی را در یک مجموعه داده ثابت فراهم می‌کند و تعمیم مدل را بهبود می‌بخشد.

رویکرد ما از نظر حافظه و زمان در هنگام رمزگشایی کارآمد است و به طور مؤثری سمیت را کاهش می‌دهد و در عین حال جذابیت و روان بودن را حفظ می‌کند. نتایج تجربی نشان می‌دهد که LOT سمیت را تا چهار برابر کاهش می‌دهد و در عین حال به میزان چهار تا شش برابر بیشتر از مدل‌های پایه، جذابیت و روان بودن را افزایش می‌دهد. همخوانی با ارزیابی انسانی یافته‌های ما را بیشتر تأیید می‌کند.

جزییات این مقاله را می‌توانید در آدرس زیر مطالعه بفرمایید.

https://arxiv.org/abs/2304.11220