تولید متن از داده به صورت احتمالی با استفاده از اطلاعات وابستگی نحوی

تولید متن از داده (D2T) یکی از مهم‌ترین زیرشاخه‌های تولید زبان طبیعی است که در آن داده‌های ساختاریافته به متن زبان طبیعی تبدیل می‌شوند. تاکنون چندین راه حل برای D2T با موفقیت نسبی پیشنهاد شده است، از جمله مدل‌های مبتنی بر الگو، مبتنی بر گرامر ساختار عبارتی و توجه عصبی. با این حال، این روش‌ها مشکلاتی مانند نقص‌های دستوری، طبیعی بودن محدود و کاستی‌های معنایی نیز دارند. در این کار، ما یک مدل احتمالی مبتنی بر پیکره برای تولید متن از داده پیشنهاد می‌کنیم که بر اساس اطلاعات وابستگی، ساختاری به شکل درخت برای جملات تولید می‌کند.

این اطلاعات شامل وابستگی بین کلمات و برچسب‌های معنایی استخراج شده از جملات آموزشی تراز شده است که با یک تجزیه‌گر وابستگی تجزیه‌شده‌اند. با ترکیب کردن روابط وابستگی و برچسب‌های معنایی برای ساختار درختی به صورت بالا به پایین، هر کلمه بر اساس کلمات قبلی و بعدی خود در جمله خروجی قرار می‌گیرد. این منجر به جملاتی روان با ساختارهای دستوری صحیح می‌شود. این رویکرد همچنین تضمین می‌کند که تمام اطلاعات معنایی مورد نیاز در جملات خروجی وجود داشته باشد، در حالی که از برچسب‌های نامربوط یا اضافی اجتناب می‌شود. علاوه بر این، با استفاده از جستجوی پرتو در تولید ساختار جملات، مدل پیشنهادی می‌تواند جملات بسیار متنوعی تولید کند.

ما مدل خود را بر روی هشت دامنه در قالب‌های جدولی، کنش گفتاری و RDF آزمایش کرده‌ایم. این مدل BLEU را در مقایسه با روش‌های پیشرفته مبتنی بر مجموعه داده که بر روی مجموعه داده‌های جدولی آموزش داده شده‌اند، ۳۰ درصد بهبود می‌بخشد و همچنین نتایج قابل مقایسه‌ای با رویکردهای مبتنی بر شبکه عصبی که روی گفتار محاوره‌ای، E2E و WebNLG آموزش داده می‌شوند، در معیار ارزیابی BLEU به دست می‌آورد. علاوه بر این، مقدار معیار ERR برای نتایج ما همیشه صفر است؛ یعنی مدل ما جملاتی را بدون از دست دادن هیچ اطلاعاتی تولید می‌کند. ارزیابی‌های انسانی نشان می‌دهد که مدل ما عبارات با کیفیت بالا از نظر اطلاعاتی بودن، طبیعی بودن و همچنین کیفیت تولید می‌کند.

جزییات این مقاله و رویکرد‌های بکار گرفته شده را می‌توانید در آدرس زیر مطالعه بفرمایید:

https://www.sciencedirect.com/science/article/abs/pii/S0885230822000274