در این مقاله، رویکردی جهت حل مسئله ابهامزدایی معنایی کلمه در تصویر (Visual-WSD) ارائه شده است که شامل تعیین تصویر مناسبتر برای نمایش یک کلمه چندمعنی در یکی از معانی خاص آن است. رویکرد پیشنهادی از مدل CLIP، مهندسی پرامت و مدلهای متن به تصویر مانند GLIDE و DALL-E 2 برای بازیابی و تولید تصویر استفاده میکند. برای ارزیابی رویکرد، در وظیفه مشترک SemEval 2023 به نام "ابهامزدایی معنایی کلمه در تصویر (Visual-WSD)" در قالب یادگیری بدون نمونه شرکت کرده، و دقت ترکیبهای مختلفی از ابزارها را از جمله روشهای "مبتنی بر پرامت ساده" و "مبتنی بر پرامت تولیدی" برای مهندسی پرامت با استفاده از مدلهای تکمیلگر، و مدلهای متن به تصویر برای تغییر ماهیت ورودی از متن به تصویر مقایسه شدهاند. علاوه بر این، مزایای ارزیابی چندماهیتی بین متن و گزینههای تصویری با استفاده از مدل CLIP بررسی شدهاست. نتایج آزمایشات نشان میدهد که رویکرد پیشنهادی به نتایج بهتری نسبت به رویکردهای دیگر چندماهیتی دست مییابد، که برجسته کننده قدرت بالقوه بکارگیری مهندسی پرامت و مدلهای متن به تصویر برای افزایش دقت در وظایف Visual-WSD است. رویکرد پیشنهادی، در یک سناریوی یادگیری بدون نمونه ارزیابی شده و در بهترین تلاش، دقت ۶۸.۷۵٪ را به دست آورده است.
این سیستم ابهامزدایی معنایی کلمه در تصویر، از سه مؤلفه اصلی تشکیل شده است :
"مهندسی پرامت" شامل تولید یک مجموعه از پرامتها است که میتوانند برای بازیابی تصاویر مرتبط با استفاده از مدلهای مولد تصویر ازپیشآموزشدیده مانند DALL-E 2 یا GLIDE استفاده شوند. زیربخش سیستم متن به تصویر یک جزء حیاتی از رویکرد پیشنهادی است. در این زیربخش، هدف تبدیل شرحهای متنی یک کلمه یا عبارت به تصاویری است که در همان ماهیت داده گزینههای تصویری هستند و میتوانند برای مقایسه با آنها استفاده شوند. این فرآیند، شامل استفاده از دستورات متنی برای تولید تصاویری است که با محتوای معنایی متن ورودی هماهنگ هستند. سرانجام، دقت سیستم ابهامزدایی معنایی کلمه در تصویر، با استفاده از مدل CLIP، یک مدل برجسته برای دستهبندی و بازیابی تصاویر بدوننمونه، ارزیابی شده است. کدگذارهای CLIP برای بازنمایی تصاویر تولید شده، دستورات متنی، و گزینههای تصویری بکار برده شده، و شباهت کسینوسی بین خروجی آنها را محاسبه کرده تا مرتبطترین تصویر یافت شود.
به طور اجمالی، نتایج نشان میدهند که مهندسی پرامت و سیستمهای متن به تصویر موثر در افزایش دقت سیستمهای ابهامزدایی معنایی کلمه در تصویر هستند که مدل متن به تصویر DALL-E 2 در این وظیفه نتایج بهتری نسبت به GLIDE دارد. همچنین دریافتیم که در یک مجموعه دادگان، تبدیل ماهیت متن به ماهیت تصویر و یافتن مشابهترین تصویر وقتی ورودی و گزینههای تصویری در یک ماهیت یکسان هستند، بجای ارزیابی چندماهیتی، میتواند دقت را بهبود ببخشد که در این آزمایش به دقت ۶۸.۷۵٪ دست یابد.
متن کامل این مقاله را میتوانید در پیوند زیر مطالعه بفرمایید.
https://aclanthology.org/2023.semeval-1.269/