تخیلات WALL-E

بازسازی تجربیات با یک ماژول الهام‌گرفته از تخیل برای سامانه‌های پیشرفته هوش مصنوعی

در این مقاله، یک سیستم هوش مصنوعی نوآورانه معرفی می‌کنیم که با الهام از مفهوم فلسفی و روان‌تحلیلی تخیل به عنوان "بازسازی تجربیات" عمل می‌کند. سیستم ما مجهز به یک ماژول الهام گرفته از تخیل است که پلی میان ورودی‌های متنی و سایر ماهیت‌ها برای استخراج بهتر اطلاعات بر اساس تجریبات آموخته شده تصویری پیشین برقرار می‌کند. ویژگی منحصر به فرد این سیستم توانایی تدوین ادراکاتی از ورودی‌ها است مستقل از یکدیگر هستند. این منجر به تفسیرهای منحصر به فردی از یک مفهوم می‌شود که ممکن است با تفسیرات انسان متفاوت باشد اما همان قدر معتبرند، پدیده‌ای که آن را "سوءتفاهم تفسیرپذیر" می‌نامیم. ما از مدل‌های بزرگ‌مقیاس، به ویژه مدل زبانی بزرگ چند‌ماهیتی (MLLM) استفاده می‌کنیم، که به سیستم پیشنهادی ما امکان استخراج اطلاعات معنادار از میان ماهیت‌های مختلف را می‌دهد، با وجود آنکه در نهایت همچنان در قالب تک‌ماهیتی است.

معماری سیستم پیشنهادی برای وظایف مرتبط با تولید تصویر از ورودی‌های متنی طراحی شده است و از MLLM ها برای تشخیص احساسات و پرسش و پاسخ بدون‌نمونه استفاده می‌کند. زیربنای سیستم ما برای هر دو وظیفه یکسان است ولی بخاطر تفاوت ویژگی‌های دادگان این دو وظیفه، از دو معماری متفاوت استفاده نموده‌ایم. زیربنای مشترک سیستم ما شامل تولید یک تصویر از متن ورودی با استفاده از مدل‌های متن به تصویر است. سپس، متن ورودی و تصویر تولید شده به یک MLLM ارسال می‌شوند که ما در این پیاده‌سازی از Stable Diffusion V2 برای سیستم متن به تصویر و از Instructblip به عنوان MLLM خود استفاده کردیم.

برای تشخیص احساسات، سیستم متن ورودی را پردازش کرده و یک تصویر تولید می‌کند. سپس هم متن و هم تصویر به MLLM ارسال می‌شوند. مدل به انتخاب یک احساس از طریق یک سری دستورات راهنمایی می‌شود. با این حال، خروجی‌های MLLM و LLM ممکن است برچسب خروجی مورد نظر را عیناً تولید نکنند. برای حل این مسئله، از یک مدل کمکی استفاده می‌کنیم. این مدل خروجی MLLM و هر برچسب احساس تعریف شده در هدف را تعبیه‌سازی می‌کند، سپس برچسب با بالاترین امتیاز شباهت را شناسایی می‌کند. برای وظیفه پرسش و پاسخ، به دلیل طول بلند ورودی‌های متنی مجموعه داده CoQA که بیش از اندازه قابل پذیرش Stable Diffusion V2 بود، با استفاده از ChatGPT3.5 به عنوان مدل کمکی، ورودی‌های متنی به 5 قطعه تقسیم شده، و با الحاق تصاویر تولید شده برای هر یک توسط مدل متن به تصویر، تصویر ورودی MLLM بدست می‌آید. برای هر پرسش، به مدل MLLM تصویر گفته شده، پرسش‌‌های قبلی و پاسخ‌های قبلی برای تولید پاسخ نهایی ارائه شد. ما سیستم خود را در مقایسه با سایر مدل‌های زبان بزرگ در مقابل چندین وظیفه، از جمله تشخیص احساسات و پرسش و پاسخ، با استفاده از یک روش بدون‌نمونه به منظور اطمینان از یک سناریوی بی‌طرفانه که ممکن است از طریق تنظیم‌دقیق اتفاق بیفتد، ارزیابی کردیم.سیستم ما بهترین مدل‌های زبان بزرگ (LLM) را در مجموعه داده‌های MELD، IEMOCAP و CoQA به طور قابل توجهی بهتر عمل نمود و به ترتیب درصد امتیاز F1 وزن‌دار (WF1) 46.74٪، 25.23٪ و درصد F1 کلی (OF1) برابر با 17٪ را در مقایسه با 22.89٪، 12.28٪ و 7٪ از مدل‌های LLM کارآمد نشان داد. هدف از این کار فراتر از دیدگاه آماری پردازش زبان است و آن را به مفاهیم انسانی مانند فلسفه و روان‌تحلیل مرتبط می‌کند که در مقاله اشاره‌ای به آن‌ها شده است. این کار نمایانگر توسعه قابل توجهی در توسعه سیستم‌های هوش مصنوعی الهام گرفته از تخیل است و امکانات جدیدی را برای تولید اطلاعات عمیق و قابل تفسیر در میان حالت‌ها می‌گشاید و در نتیجه تعامل انسان-هوش مصنوعی را بهبود می‌بخشد.

​​​​​جزییات و متن کامل این مقاله را می‌توانید در پیوند زیر مطالعه بفرمایید

https://arxiv.org/abs/2308.10354