مجموعه دادگان ناب

یک مجموعه دادگان متنی وسیع و آماده‌به‌کار برای زبان فارسی

توده‌های عظیم از داده‌های متنی همواره به عنوان یک نیاز بسیار مهم برای آموزش مدل‌های ژرف مانند مدل‌های مبتنی بر ترنسفورمر شناخته می‌شوند. این مسئله در زبان‌های با منابع محدود مانند فارسی به مراتب بیشتر به چشم می‌آید. ما ناب را پیشنهاد می‌دهیم: بزرگ‌ترین مجموعه متنی بازمنبع تمیز و آماده به کار در زبان فارسی. این مجموعه شامل حدود ۱۳۰ گیگابایت از داده، ۲۵۰  میلیون پاراگراف و ۱۵ میلیارد کلمه می‌شود. نام پروژه از کلمه فارسی "ناب" گرفته شده است که به معنای خالص و با کیفیت بالا است. همچنین نسخه خام مجموعه به نام ناب-خام و یک پیش‌پردازنده آسان برای استفاده توسط افرادی که می‌خواهند یک مجموعه سفارشی ایجاد کنند، ارائه می‌دهیم. در نهایت یک پیش‌پردازنده سبک اما کارا برای پاک‌سازی داده‌های خام متنی در زبان فارسی ایجاد شده است.

  • Persian NLP
  • ASR Gooyesh Pardaz
  • Open Super-large Crawled ALMAnaCH coRpus (OSCAR-fa)
  • Large Scale Colloquial Persian Language Understanding dataset (LSCP)
  • خزش Telegram

در مرحله پیش پردازش، عملیات زیر بر دادگان خام انجام می‌شود:

  • حذف کلمات غیر فارسی
  • یکسان‌سازی حروفی عربی با معادل فارسی
  • یکسان‌سازی فاصله‌ها
  • حذف خطوط خالی یا با تعداد کلمات خیلی کم

این مجموعه می‌تواند برای آموزش خودکار و خودنظارتی مدل‌های زبانی (LM‌ها) فارسی مورد استفاده قرار گیرد. انواع مختلفی از مدل‌های زبانی مانند n-grams و مدل‌های مبتنی بر ترنسفورمر (مانند BERT، BART، T5 و غیره) به راحتی می‌توانند با استفاده از کتابخانه‌هایی که توسط Hugging Face پیشنهاد شده است، در زبان فارسی تنظیم‌دقیق شوند. علاوه بر این، مجموعه ناب حاوی انواع متن‌های فارسی از جمله متون رسمی و غیررسمی، کلاسیک و مدرن، نثر و شعر و غیره است که آن را برای مطالعات زبان‌شناسی مناسب می‌کند. برای مشاهده مقاله معرفی ناب و دسترسی به این مجموعه دادگان می‌توانید از دو پیوند زیر استفاده نمایید:

https://arxiv.org/abs/2208.13486

https://huggingface.co/datasets/SLPL/naab

پست‌های وبلاگ بیشتر

افزودن نظرات