این مقاله یک مدل توالی-به-توالی برای تولید متن از داده به نام DM-NLG ارائه می‌دهد تا متن زبان طبیعی را از ورودی‌های ساختار یافته غیرزبانی تولید کند. به طور خاص، با افزودن یک ماژول حافظه پویا به مدل توالی-به-توالی مبتنی بر توجه، می تواند اطلاعاتی را که منجر به تولید کلمات خروجی قبلی شده است را ذخیره کرده و از آن برای تولید کلمه بعدی استفاده کند. به این ترتیب، بخش رمزگشای مدل از تمام تصمیمات قبلی...

تولید متن از داده (D2T) یکی از مهم‌ترین زیرشاخه‌های تولید زبان طبیعی است که در آن داده‌های ساختاریافته به متن زبان طبیعی تبدیل می‌شوند. تاکنون چندین راه حل برای D2T با موفقیت نسبی پیشنهاد شده است، از جمله مدل‌های مبتنی بر الگو، مبتنی بر گرامر ساختار عبارتی و توجه عصبی. با این حال، این روش‌ها مشکلاتی مانند نقص‌های دستوری، طبیعی بودن محدود و کاستی‌های معنایی نیز دارند. در این کار، ما یک مدل...

چارچوب LOT برای یادگیری تولید نکردن محتوای ناایمن مانند محتوای سمی، متعصب، و توهین‌آمیز، در مدل‌های مولد

در این مقاله، یک سیستم هوش مصنوعی نوآورانه معرفی می‌کنیم که با الهام از مفهوم فلسفی و روان‌تحلیلی تخیل به عنوان "بازسازی تجربیات" عمل می‌کند. سیستم ما مجهز به یک ماژول الهام گرفته از تخیل است که پلی میان ورودی‌های متنی و سایر ماهیت‌ها برای استخراج بهتر اطلاعات بر اساس تجریبات آموخته شده تصویری پیشین برقرار می‌کند. ویژگی منحصر به فرد این سیستم توانایی تدوین ادراکاتی از ورودی‌ها است مستقل از...

در این مقاله، رویکردی جهت حل مسئله ابهام‌زدایی معنایی کلمه در تصویر (Visual-WSD) ارائه شده است که شامل تعیین تصویر مناسب‌تر برای نمایش یک کلمه چندمعنی در یکی از معانی خاص آن است. رویکرد پیشنهادی از مدل CLIP، مهندسی پرامت و مدل‌های متن به تصویر مانند GLIDE و DALL-E 2 برای بازیابی و تولید تصویر استفاده می‌کند. برای ارزیابی رویکرد، در وظیفه مشترک SemEval 2023 به نام "ابهام‌زدایی معنایی کلمه در...

توده‌های عظیم از داده‌های متنی همواره به عنوان یک نیاز بسیار مهم برای آموزش مدل‌های ژرف مانند مدل‌های مبتنی بر ترنسفورمر شناخته می‌شوند. این مسئله در زبان‌های با منابع محدود مانند فارسی به مراتب بیشتر به چشم می‌آید. ما ناب را پیشنهاد می‌دهیم: بزرگ‌ترین مجموعه متنی بازمنبع تمیز و آماده به کار در زبان فارسی. این مجموعه شامل حدود ۱۳۰ گیگابایت از داده، ۲۵۰  میلیون پاراگراف و ۱۵...

Showing 1 to 6 of 6 entries.