تودههای عظیم از دادههای متنی همواره به عنوان یک نیاز بسیار مهم برای آموزش مدلهای ژرف مانند مدلهای مبتنی بر ترنسفورمر شناخته میشوند. این مسئله در زبانهای با منابع محدود مانند فارسی به مراتب بیشتر به چشم میآید. ما ناب را پیشنهاد میدهیم: بزرگترین مجموعه متنی بازمنبع تمیز و آماده به کار در زبان فارسی. این مجموعه شامل حدود ۱۳۰ گیگابایت از داده، ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه میشود. نام پروژه از کلمه فارسی "ناب" گرفته شده است که به معنای خالص و با کیفیت بالا است. همچنین نسخه خام مجموعه به نام ناب-خام و یک پیشپردازنده آسان برای استفاده توسط افرادی که میخواهند یک مجموعه سفارشی ایجاد کنند، ارائه میدهیم. در نهایت یک پیشپردازنده سبک اما کارا برای پاکسازی دادههای خام متنی در زبان فارسی ایجاد شده است.
در مرحله پیش پردازش، عملیات زیر بر دادگان خام انجام میشود:
این مجموعه میتواند برای آموزش خودکار و خودنظارتی مدلهای زبانی (LMها) فارسی مورد استفاده قرار گیرد. انواع مختلفی از مدلهای زبانی مانند n-grams و مدلهای مبتنی بر ترنسفورمر (مانند BERT، BART، T5 و غیره) به راحتی میتوانند با استفاده از کتابخانههایی که توسط Hugging Face پیشنهاد شده است، در زبان فارسی تنظیمدقیق شوند. علاوه بر این، مجموعه ناب حاوی انواع متنهای فارسی از جمله متون رسمی و غیررسمی، کلاسیک و مدرن، نثر و شعر و غیره است که آن را برای مطالعات زبانشناسی مناسب میکند. برای مشاهده مقاله معرفی ناب و دسترسی به این مجموعه دادگان میتوانید از دو پیوند زیر استفاده نمایید:
https://arxiv.org/abs/2208.13486
https://huggingface.co/datasets/SLPL/naab