نوع مقاله : مقاله پژوهشی
نویسندگان
1 استادیار، گروه مهندسی کامپیوتر، واحد قوچان، دانشگاه آزاد اسلامی، قوچان، ایران
2 دانشجوی دکتری، گروه مهندسی کامپیوتر، واحد علوم و تحقیقات، دانشگاه آزاد اسلامی، نیشابور، ایران
چکیده
امروزه تولید داده از طریق تجهیزات هوشمند، ازجمله تلفنهای همراه، با رشد چشمگیری روبهرو بوده و خوشهبندی یکی از تکنیکهای پرکاربرد کشف دانش در کلاندادهها است. خوشهبندی مبتنی بر چگالی (DBSCAN)، از الگوریتمهای خوشهبندی کارا در دادهکاوی بوده و با وجود داشتن مزایا، دارای مشکلاتی ازجمله سختی در تعیین پارامترهای ورودی و همچنین، نداشتن توانایی در کشف خوشههایی با چگالی متفاوت نیز هست. در الگوریتم پیشنهادی این مقاله، از الگوریتم K-DBSCAN در گروهبندی دادههای حجیم با هدف کاهش زمان اجرای خوشهبندی الهام گرفته شده است. بهعلاوه، با استفاده از الگوریتمهای K-Means و H-DBSCAN، چگالیهای مختلف مجموعهداده تشخیص داده میشود، برای هر چگالی یک شعاع Eps تعیین شده و سپس، الگوریتم پیشنهادی خوشهبندی مبتنی بر چگالی توسعهیافته با پارامترهای منطبق روی دادهها اعمال میشود. در واقع، نوآوری این مقاله استفاده از خوشهبندی K-Means و تخمین چگالیهای مختلف در روش خوشهبندی DBSCAN است. الگوریتم پیشنهادی روی چهار مجموعهداده استاندارد Image segmentation، Pendigit، Letters و Shuttle control با الگوریتم خوشهبندی DBSCAN ساده و دو الگوریتم توسعهیافته K-DBSCAN و H-DBSCAN مقایسه شده است. نتایج نشان میدهد که الگوریتم پیشنهادی در زمانی که هر دو معیار زمان و دقت در خوشهبندی ملاک باشند، در مقایسه با الگوریتمهای دیگر، الگوریتم برتری است.
کلیدواژهها
عنوان مقاله [English]
An Extended Density-based Clustering Algorithm in Big Data
نویسندگان [English]
1 Assistant Prof., Department of Computer Engineering, Quchan Branch, Islamic Azad University, Quchan, Iran
2 Ph.D. Candidate, Department of Computer Engineering, Science and Research Branch, Islamic Azad University, Neyshabour, Iran
چکیده [English]
Today, data generation through smart equipment, including mobile phones, has faced a significant growth, and clustering is one of the most widely used knowledge discovery techniques in big data. Density-based clustering (DBSCAN) is one of the most efficient clustering algorithms in data mining, and despite having advantages, it also has problems, such as the difficulty in determining the input parameters, as well as not being able to detect clusters. with different densities. In the proposed algorithm of this article, it is inspired by the K-DBSCAN algorithm in grouping large data with the aim of reducing the clustering execution time.In addition, by using K-Means and H-DBSCAN algorithms, different densities of the data set were identified and an Eps radius was determined for each density, and then, the proposed density-based clustering algorithm was developed with parameters The matching is applied to the data, and in fact, the innovation of this article is the use of K Means clustering and the estimation of different densities in the DBSCAN clustering method. The proposed algorithm has been compared with the simple DBSCAN clustering algorithm and two developed K-DBSCAN and H-DBSCAN algorithms on four standard data sets: Image segmentation, Pendigit, Letters and Shuttle control. The results show that the proposed algorithm is superior to other algorithms when both time and accuracy are criteria in clustering.
کلیدواژهها [English]