تولید متن از داده (D2T) یکی از مهمترین زیرشاخههای تولید زبان طبیعی است که در آن دادههای ساختاریافته به متن زبان طبیعی تبدیل میشوند. تاکنون چندین راه حل برای D2T با موفقیت نسبی پیشنهاد شده است، از جمله مدلهای مبتنی بر الگو، مبتنی بر گرامر ساختار عبارتی و توجه عصبی. با این حال، این روشها مشکلاتی مانند نقصهای دستوری، طبیعی بودن محدود و کاستیهای معنایی نیز دارند. در این کار، ما یک مدل احتمالی مبتنی بر پیکره برای تولید متن از داده پیشنهاد میکنیم که بر اساس اطلاعات وابستگی، ساختاری به شکل درخت برای جملات تولید میکند.
این اطلاعات شامل وابستگی بین کلمات و برچسبهای معنایی استخراج شده از جملات آموزشی تراز شده است که با یک تجزیهگر وابستگی تجزیهشدهاند. با ترکیب کردن روابط وابستگی و برچسبهای معنایی برای ساختار درختی به صورت بالا به پایین، هر کلمه بر اساس کلمات قبلی و بعدی خود در جمله خروجی قرار میگیرد. این منجر به جملاتی روان با ساختارهای دستوری صحیح میشود. این رویکرد همچنین تضمین میکند که تمام اطلاعات معنایی مورد نیاز در جملات خروجی وجود داشته باشد، در حالی که از برچسبهای نامربوط یا اضافی اجتناب میشود. علاوه بر این، با استفاده از جستجوی پرتو در تولید ساختار جملات، مدل پیشنهادی میتواند جملات بسیار متنوعی تولید کند.
ما مدل خود را بر روی هشت دامنه در قالبهای جدولی، کنش گفتاری و RDF آزمایش کردهایم. این مدل BLEU را در مقایسه با روشهای پیشرفته مبتنی بر مجموعه داده که بر روی مجموعه دادههای جدولی آموزش داده شدهاند، ۳۰ درصد بهبود میبخشد و همچنین نتایج قابل مقایسهای با رویکردهای مبتنی بر شبکه عصبی که روی گفتار محاورهای، E2E و WebNLG آموزش داده میشوند، در معیار ارزیابی BLEU به دست میآورد. علاوه بر این، مقدار معیار ERR برای نتایج ما همیشه صفر است؛ یعنی مدل ما جملاتی را بدون از دست دادن هیچ اطلاعاتی تولید میکند. ارزیابیهای انسانی نشان میدهد که مدل ما عبارات با کیفیت بالا از نظر اطلاعاتی بودن، طبیعی بودن و همچنین کیفیت تولید میکند.
جزییات این مقاله و رویکردهای بکار گرفته شده را میتوانید در آدرس زیر مطالعه بفرمایید:
https://www.sciencedirect.com/science/article/abs/pii/S0885230822000274