در این مقاله، یک سیستم هوش مصنوعی نوآورانه معرفی میکنیم که با الهام از مفهوم فلسفی و روانتحلیلی تخیل به عنوان "بازسازی تجربیات" عمل میکند. سیستم ما مجهز به یک ماژول الهام گرفته از تخیل است که پلی میان ورودیهای متنی و سایر ماهیتها برای استخراج بهتر اطلاعات بر اساس تجریبات آموخته شده تصویری پیشین برقرار میکند. ویژگی منحصر به فرد این سیستم توانایی تدوین ادراکاتی از ورودیها است مستقل از یکدیگر هستند. این منجر به تفسیرهای منحصر به فردی از یک مفهوم میشود که ممکن است با تفسیرات انسان متفاوت باشد اما همان قدر معتبرند، پدیدهای که آن را "سوءتفاهم تفسیرپذیر" مینامیم. ما از مدلهای بزرگمقیاس، به ویژه مدل زبانی بزرگ چندماهیتی (MLLM) استفاده میکنیم، که به سیستم پیشنهادی ما امکان استخراج اطلاعات معنادار از میان ماهیتهای مختلف را میدهد، با وجود آنکه در نهایت همچنان در قالب تکماهیتی است.
معماری سیستم پیشنهادی برای وظایف مرتبط با تولید تصویر از ورودیهای متنی طراحی شده است و از MLLM ها برای تشخیص احساسات و پرسش و پاسخ بدوننمونه استفاده میکند. زیربنای سیستم ما برای هر دو وظیفه یکسان است ولی بخاطر تفاوت ویژگیهای دادگان این دو وظیفه، از دو معماری متفاوت استفاده نمودهایم. زیربنای مشترک سیستم ما شامل تولید یک تصویر از متن ورودی با استفاده از مدلهای متن به تصویر است. سپس، متن ورودی و تصویر تولید شده به یک MLLM ارسال میشوند که ما در این پیادهسازی از Stable Diffusion V2 برای سیستم متن به تصویر و از Instructblip به عنوان MLLM خود استفاده کردیم.
برای تشخیص احساسات، سیستم متن ورودی را پردازش کرده و یک تصویر تولید میکند. سپس هم متن و هم تصویر به MLLM ارسال میشوند. مدل به انتخاب یک احساس از طریق یک سری دستورات راهنمایی میشود. با این حال، خروجیهای MLLM و LLM ممکن است برچسب خروجی مورد نظر را عیناً تولید نکنند. برای حل این مسئله، از یک مدل کمکی استفاده میکنیم. این مدل خروجی MLLM و هر برچسب احساس تعریف شده در هدف را تعبیهسازی میکند، سپس برچسب با بالاترین امتیاز شباهت را شناسایی میکند. برای وظیفه پرسش و پاسخ، به دلیل طول بلند ورودیهای متنی مجموعه داده CoQA که بیش از اندازه قابل پذیرش Stable Diffusion V2 بود، با استفاده از ChatGPT3.5 به عنوان مدل کمکی، ورودیهای متنی به 5 قطعه تقسیم شده، و با الحاق تصاویر تولید شده برای هر یک توسط مدل متن به تصویر، تصویر ورودی MLLM بدست میآید. برای هر پرسش، به مدل MLLM تصویر گفته شده، پرسشهای قبلی و پاسخهای قبلی برای تولید پاسخ نهایی ارائه شد. ما سیستم خود را در مقایسه با سایر مدلهای زبان بزرگ در مقابل چندین وظیفه، از جمله تشخیص احساسات و پرسش و پاسخ، با استفاده از یک روش بدوننمونه به منظور اطمینان از یک سناریوی بیطرفانه که ممکن است از طریق تنظیمدقیق اتفاق بیفتد، ارزیابی کردیم.سیستم ما بهترین مدلهای زبان بزرگ (LLM) را در مجموعه دادههای MELD، IEMOCAP و CoQA به طور قابل توجهی بهتر عمل نمود و به ترتیب درصد امتیاز F1 وزندار (WF1) 46.74٪، 25.23٪ و درصد F1 کلی (OF1) برابر با 17٪ را در مقایسه با 22.89٪، 12.28٪ و 7٪ از مدلهای LLM کارآمد نشان داد. هدف از این کار فراتر از دیدگاه آماری پردازش زبان است و آن را به مفاهیم انسانی مانند فلسفه و روانتحلیل مرتبط میکند که در مقاله اشارهای به آنها شده است. این کار نمایانگر توسعه قابل توجهی در توسعه سیستمهای هوش مصنوعی الهام گرفته از تخیل است و امکانات جدیدی را برای تولید اطلاعات عمیق و قابل تفسیر در میان حالتها میگشاید و در نتیجه تعامل انسان-هوش مصنوعی را بهبود میبخشد.
جزییات و متن کامل این مقاله را میتوانید در پیوند زیر مطالعه بفرمایید
https://arxiv.org/abs/2308.10354