دسته‌بندی نشده

مقاله مربوط به حوزه ی تولید شیوه های طبقه بندی متن

چکیده

در این مقاله یک روش ساده و موثر برای طبقه بندی متن و نحوه ارائه و ارائه آن پیشنهاد شده است. تحقیقات ما نشان می دهد که طبقه بندی متن fastText از نظر دقت و بسیاری از دستوراتی که برای آموزش و ارزیابی استفاده می شود ، سریعتر از طبقه بندی یادگیری عمیق است. با استفاده از یک پردازنده مرکزی چند هسته ای استاندارد ، FastText می تواند بیش از 1 میلیارد کلمه را آموزش دهد و در کمتر از یک دقیقه می توانید نزدیک به 500000 جمله را در 312K دسته بندی کنید.

. مقدمه

بیان و نمایش صحیح برای طبقه بندی متن مهم است و به بسیاری از برنامه ها مانند مرور وب ، بازیابی داده ها ، رتبه بندی و طبقه بندی اسناد مربوط می شود (Deerwester et al.، 1990؛ Pang and Lee، 2008). اخیراً مدلهای مبتنی بر شبکه برای بیان و بیان مناسب رایج شده است (engio et al.، 2003؛ Collobert and Weston، 2008). اگرچه این مدل ها عملکرد خوبی دارند (Kim، 2014؛ Zhang and LeCun، 2015؛ Zhang et al.، 2015) ، استفاده از آنها در مجموعه داده های بزرگ محدود است.

Bag of Tricks for Efficient Text Classification

abstract

This paper proposes a simple and efficient ap- proach for text classification and representa- tion learning. Our experiments show that our fast text classifier fastText is often on par with deep learning classifiers in terms of ac- curacy, and many orders of magnitude faster for training and evaluation. We can train fastText on more than one billion words in less than ten minutes using a standard mul- ticore CPU, and classify half a million sen- tences among 312K classes in less than a minute.

Building good representations for text classi- fication is an important task with many ap- plications, such as web search, information retrieval,   ranking   and   document   classifica- tion (Deerwester et al., 1990; Pang and Lee, 2008). Recently, models based on neural networks have become increasingly popular for computing sentence representations (Bengio et al., 2003; Collobert and Weston, 2008).      While these models achieve very  good  performance  in practice (Kim, 2014; Zhang and LeCun, 2015; Zhang et al., 2015), they tend to be relatively slow both at train and test time, limiting their use on very large datasets

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا