روش Ebhaam در وظیفه یک SemEval-2023

رویکردی مبتنی بر مدل CLIP جهت مقایسه تک‌ماهیتی بودن و چند‌ماهیتی بودن در ابهام‌زدایی معنایی کلمه در تصویر

در این مقاله، رویکردی جهت حل مسئله ابهام‌زدایی معنایی کلمه در تصویر (Visual-WSD) ارائه شده است که شامل تعیین تصویر مناسب‌تر برای نمایش یک کلمه چندمعنی در یکی از معانی خاص آن است. رویکرد پیشنهادی از مدل CLIP، مهندسی پرامت و مدل‌های متن به تصویر مانند GLIDE و DALL-E 2 برای بازیابی و تولید تصویر استفاده می‌کند. برای ارزیابی رویکرد، در وظیفه مشترک SemEval 2023 به نام "ابهام‌زدایی معنایی کلمه در تصویر (Visual-WSD)" در قالب یادگیری بدون نمونه شرکت کرده، و دقت ترکیب‌های مختلفی از ابزارها را از جمله روش‌های "مبتنی بر پرامت ساده" و "مبتنی بر پرامت تولیدی" برای مهندسی پرامت با استفاده از مدل‌های تکمیل‌گر، و مدل‌های متن به تصویر برای تغییر ماهیت ورودی از متن به تصویر مقایسه شده‌اند. علاوه بر این، مزایای ارزیابی چند‌ماهیتی بین متن و گزینه‌های تصویری با استفاده از مدل CLIP بررسی شده‌است. نتایج آزمایشات نشان می‌دهد که رویکرد پیشنهادی به نتایج بهتری نسبت به رویکردهای دیگر چند‌ماهیتی دست می‌یابد، که برجسته کننده قدرت بالقوه بکارگیری مهندسی پرامت و مدل‌های متن به تصویر برای افزایش دقت در وظایف Visual-WSD است. رویکرد پیشنهادی، در یک سناریوی یادگیری بدون نمونه ارزیابی شده و در بهترین تلاش، دقت ۶۸.۷۵٪ را به دست آورده است.

این سیستم ابهام‌زدایی معنایی کلمه در تصویر، از سه مؤلفه اصلی تشکیل شده است :

  1. مهندسی پرامت
  2. سیستم‌های متن به تصویر
  3. ارزیابی با استفاده از CLIP

"مهندسی پرامت" شامل تولید یک مجموعه از پرامت‌ها است که می‌توانند برای بازیابی تصاویر مرتبط با استفاده از مدل‌های مولد تصویر از‌پیش‌‌آموزش‌دیده مانند DALL-E 2 یا GLIDE استفاده شوند. زیربخش سیستم متن به تصویر یک جزء حیاتی از رویکرد پیشنهادی است. در این زیربخش، هدف تبدیل شرح‌های متنی یک کلمه یا عبارت به تصاویری است که در همان ماهیت داده گزینه‌های تصویری هستند و می‌توانند برای مقایسه با آنها استفاده شوند. این فرآیند، شامل استفاده از دستورات متنی برای تولید تصاویری است که با محتوای معنایی متن ورودی هماهنگ هستند. سرانجام، دقت سیستم ابهام‌زدایی معنایی کلمه در تصویر، با استفاده از مدل CLIP، یک مدل برجسته برای دسته‌بندی و بازیابی تصاویر بدون‌نمونه، ارزیابی شده است. کدگذارهای CLIP برای بازنمایی تصاویر تولید شده، دستورات متنی، و گزینه‌های تصویری بکار برده شده، و شباهت کسینوسی بین خروجی آنها را محاسبه کرده تا مرتبط‌ترین تصویر یافت شود.

به طور اجمالی، نتایج نشان می‌دهند که مهندسی پرامت و سیستم‌های متن به تصویر موثر در افزایش دقت سیستم‌های ابهام‌زدایی معنایی کلمه در تصویر هستند که مدل متن به تصویر DALL-E 2 در این وظیفه نتایج بهتری نسبت به GLIDE دارد. همچنین دریافتیم که در یک مجموعه دادگان، تبدیل ماهیت متن به ماهیت تصویر و یافتن مشابه‌ترین تصویر وقتی ورودی و گزینه‌های تصویری در یک ماهیت یکسان هستند، بجای ارزیابی چندماهیتی، می‌تواند دقت را بهبود ببخشد که در این آزمایش به دقت ۶۸.۷۵٪ دست یابد.

متن کامل این مقاله را می‌توانید در پیوند زیر مطالعه بفرمایید.

https://aclanthology.org/2023.semeval-1.269/