مدلهای گفتگویی که مولد و باز-دامنهاند، به طور خاصی مستعد تولید محتوای ناایمن مانند محتوای سمی، متعصب، و توهینآمیز هستند، چرا که با استفاده از دادههای اجتماعی مبتنی بر وب آموزش داده میشوند. رویکردهای قبلی برای تعدیل این مشکل دارای معایبی هستند، مانند مختل کردن جریان گفتگو، محدودیت تعمیم به زمینههای دیده نشده ورودی سمی و قربانی کردن کیفیت گفتگو به خاطر ایمنی. در این مقاله، ما یک چارچوب جدید به نام «LOT» بر گرفته از Learn nOT to ارائه میکنیم که از یک زیان مقایسهای برای بهبود تعمیم با یادگیری از سیگنالهای آموزشی مثبت و منفی استفاده میکند. رویکرد ما با چارچوب یادگیری مقایسهای استاندارد متفاوت است زیرا به طور خودکار سیگنالهای مثبت و منفی را از توزیعهای زبان ایمن و ناایمن قبلاً آموخته شده به دست میآورد. در این مقاله، چهار دستاورد اصلی ارائه می دهیم:
چارچوب LOT با تشکیل توزیع از دادگان ناایمن و اضافه نمودن یک عبارت منظمکننده به تابع زیان، سعی میکند از واگرایی و فاصله گرفتن از توزیع نامطلوب برای هدایت تولید از زیرفضای ناایمن و به سمت زیرفضای ایمن در حالی که جریان گفتگو را حفظ میکند، استفاده میکند. چارچوب مقایسهای از این جهت مفید است که برای آموزش مدل مبنی بر اینکه چه چیزی را نباید تولید کند، به تعداد زیادی نمونه مثبت نیاز است. با این حال، با چند نمونه منفی، مدل می تواند محتوای نامطلوب را یاد بگیرد. در نتیجه، گنجاندن نمونههای منفی یک سیگنال آموزشی اضافی را در یک مجموعه داده ثابت فراهم میکند و تعمیم مدل را بهبود میبخشد.
رویکرد ما از نظر حافظه و زمان در هنگام رمزگشایی کارآمد است و به طور مؤثری سمیت را کاهش میدهد و در عین حال جذابیت و روان بودن را حفظ میکند. نتایج تجربی نشان میدهد که LOT سمیت را تا چهار برابر کاهش میدهد و در عین حال به میزان چهار تا شش برابر بیشتر از مدلهای پایه، جذابیت و روان بودن را افزایش میدهد. همخوانی با ارزیابی انسانی یافتههای ما را بیشتر تأیید میکند.
جزییات این مقاله را میتوانید در آدرس زیر مطالعه بفرمایید.
https://arxiv.org/abs/2304.11220