@article { author = {Nosrati, Vahid and Rahmani, Mohsen}, title = {Ensemble Bayesian Classification Using Genetic Algorithm Wrapper Feature Selection in Spam Detection}, journal = {Iranian Journal of Information Management}, volume = {6}, number = {2}, pages = {250-277}, year = {2021}, publisher = {}, issn = {1735-8418}, eissn = {}, doi = {10.22034/aimj.2021.135034}, abstract = {The role of email in communication is seriously threatened by a phenomenon called spam. So far, many methods have been proposed to deal with this phenomenon, one of the most important of which is to classify emails based on their content into two categories: spam and non-spam. Content-based classification mechanisms use the words as features, where applying an efficient feature selection mechanism is critical due to the large number of features. Therefore, the main focus of this paper is to select useful features via proposing a wrapper feature selection approach based on a powerful genetic algorithm. We then apply a Bayesian classifier, which has demonstrated a high efficiency in text classification. The main steps of the proposed method is as follows: first, an initial feature vector is chosen, then it is optimized by multiplying the vector in a matrix called the transformation matrix made by the genetic algorithm, and finally, a set of k feature vectors is generated. An ensemble classification approach composed of k Bayesian classifiers is applied to the feature vectors, and the ultimate class label is determined by voting among ensemble members. The proposed method is implemented on two datasets PU1 and PU2. The results show that the classification accuracy of the proposed method with k=7 reaches 87.86 and 87.91 in PU1 and PU2, rspectively. The results also indicate the efficiency of the proposed method compared to naïve Bayes and two well-known classifiers SVM and KNN.}, keywords = {Email,Spam,Classification,genetics algorithm,Feature selection,Transformation Matrix,Ensemble Learning}, title_fa = {دسته‌بندی بیزین جمعی با استفاده از انتخاب ویژگی رپر مبتنی بر الگوریتم ژنتیک در تشخیص هرزنامه}, abstract_fa = {جایگاه ایمیل در ارتباطات، با ورود پدیده‌ای به نام هرزنامه با تهدید جدی مواجه شده است. تاکنون، به‏منظور مقابله با این پدیده، روش­های فراوانی پیشنهاد شده که یکی از مهم‎ترین این روش‎ها، دسته‌بندی آنها بر اساس محتوا به دو دسته هرزنامه و غیرهرزنامه است. دسته‌بندی بر اساس محتوا با استفاده از کلمات به‎عنوان ویژگی انجام می‌شود که به‎دلیل تعداد زیاد ویژگی‌ها، استفاده از یک سازوکار انتخاب ویژگی کارآمد موضوعی حیاتی به نظر می‌رسد. بر این اساس، تمرکز روش پیشنهادی در این مقاله روی انتخاب ویژگی‌های مفید بوده و یک فرایند انتخاب ویژگی رپر با بهره‌گیری از الگوریتم قدرتمند ژنتیک و با همکاری دسته‌بند بیزین که دارای کارایی بالایی در مسائل دسته‌بندی متون است، ارائه می‌شود. روش کار نیز به این صورت است که ابتدا یک بردار ویژگی اولیه ساخته شده، سپس با ضرب کردن آن در یک ماتریس با عنوان ماتریس انتقال، با استفاده از الگوریتم ژنتیک، روی آن عملیات بهینه‌سازی اعمال شده و در پایان، k بردار ویژگی نهایی ساخته می‌شوند. عملیات دسته‌بندی نیز به‌صورت جمعی و با اعمال k دسته‌بند بیزین روی بردارهای ویژگی اعمال شده و از بین آنها رأی‌گیری انجام می‌شود. روش پیشنهادی روی دو پایگاه داده اجرا شده که بر اساس نتایج، روش پیشنهادی با مقدار 7 = k دارای نرخ صحت 76/87 و 91/87 در دو پایگاه داده 1PU و 2PU است. همچنین نتایج مقایسه روش پیشنهادی، حاکی از کارآمدی روش پیشنهادی در مقایسه با بیزین پایه و دو دسته‌بند SVM و KNN است.}, keywords_fa = {Email,Spam,Classification,genetics algorithm,Feature selection,Transformation Matrix,Ensemble Learning}, url = {https://www.aimj.ir/article_135034.html}, eprint = {https://www.aimj.ir/article_135034_30f4153bd05704dc7cf5f42b01476669.pdf} }