استفاده از الگوریتم‌های یادگیری ماشین در استخراج مشابهت علمی کشورها

نوع مقاله : مقاله پژوهشی

نویسندگان
1 استادیار، گروه کامپیوتر، دانشکده فنی و مهندسی دانشگاه پیام نور، تهران، ایران
2 کارشناسی ارشد، گروه کامپیوتر، دانشکده فنی و مهندسی، دانشگاه پیام نور، تهران، ایران
10.22034/aimj.2025.459108.1592
چکیده
امروزه، تولید علم در تمام کشورها، اولویت مهمی شناخته ‌شده است؛ زیرا توسعۀ علمی پایه‌ای برای توسعۀ فناوری است و توسعۀ فناوری نیز، اساس رشد اقتصادی و رفاه اجتماعی است. به همین دلیل، سنجش سطح کمی و کیفی تولیدات علمی جوامع، بسیار اهمیت دارد. علم‌سنجی و کتاب‌سنجی ابزارهایی هستند که برای اندازه‌گیری و ارزیابی تولیدات علمی در جوامع استفاده می‌شوند. این نوع مطالعات و بررسی‌ها، در زمینه‌های مختلف آموزشی و پژوهشی یا به‌منظور تصمیم‌گیری، سیاست‌گذاری و آینده‌نگری در مؤسسه‌ها و سازمان‌ها کاربردهای وسیعی دارند. در این زمینه، یکی از ابزارهای کاربردی پایگاه اطلاعاتی سایمگو است که داده‌های ارزشمندی، از جمله عملکرد علمی کشورهای دنیا را در حوزه‌های علمی مختلف فراهم می‌کند و به‌عنوان منبع اطلاعاتی مناسب برای انجام چنین تحقیقاتی استفاده می‏شود. در این مقاله، شباهت‏های علمی کشورها و حوزه‌های علمی آن‏ها با ایران، در بازۀ زمانی مشخص و برمبنای دو شاخص کتاب‌سنجی، یعنی تعداد مستندات و شاخص هرش شناسایی شده است. در ادامه با استفاده از شباهت به‌دست‌آمده و به‌کارگیری الگوریتم‌های تشخیص جوامع لووین و لیدن، به خوشه‌بندی و در نتیجه ارائۀ میزان مشابهت علمی کشورها و حوزه‌های علمی پرداخته شده است. میزان مشابهت گزارش‌شده در این مقاله نشان می‌دهد که کشورهایی با ضریب هم‏بستگی بیش از 9/0 با ایران، در روند تولید علمی (از نظر تعداد مستندات و شاخص هرش) شباهت بسیار زیادی با این کشور دارند. در این پژوهش، در الگوریتم لیدن مقدار سیلوئت بهتر نشد؛ اما با اختلاف کمی، تغییری در بحث ماژولاریتی به‏وجود آمد. گفتنی است تغییر ایجاد شده به‌دلیل ماهیت این الگوریتم است که براساس ماژولاریتی کار می‌کند و زمان اجرا، الگوریتم لیدن به‌طور محسوسی بهتر از الگوریتم لووین است.

کلیدواژه‌ها


عنوان مقاله English

Using Machine Learning in Extracting the Scientific Similarity of Countries

نویسندگان English

Seyede Fatemeh Noorani 1
Rana Naghdi 2
1 Assistant Prof., Department of Computer Science, Faculty of Engineering and Technology, Payam Noor University, Tehran, Iran
2 MSc., Department of Computer Science, Faculty of Engineering and Technology, Payam Noor University, Tehran, Iran
چکیده English

Today, the production of science is recognized as an important priority in all countries, because scientific development is the basis for the development of technology, and the development of technology is also the basis of economic growth and social welfare. For this reason, measuring the quantitative and qualitative level of scientific production of societies is very important. Scientometrics and bibliometrics are tools used to measure and evaluate scientific productions in societies. These types of studies and reviews have wide applications in various educational and research fields or for decision-making, policy-making and foresight in institutions and organizations. In this context, one of the useful tools is the Symgo database, which provides valuable data such as the scientific performance of the countries of the world in various scientific fields, and can be used as a suitable source of information for conducting such research. This database provides valuable information and data related to the scientific performance of different countries in various scientific fields and can be used as a scientific database for conducting such research. The purpose of this article is to find the scientific similarity of countries and scientific fields in a certain period of time based on two bibliometric indicators, namely the number of documents and the H-index. Then we will cluster using the similarity obtained by applying Louvain and Leiden community detection algorithms, based on which we will bring analysis. In this research, although the Silhouette value did not improve in the Leiden algorithm, we had a change in the Modularity discussion with a slight difference, and that is because of the nature of this algorithm, which works based on Modularity, and the execution time of the Leiden algorithm was significantly better than the Louvain algorithm.

کلیدواژه‌ها English

Machine learning
Scientific similarity
Data mining
Clustering
آزادی احمدآبادی، قاسم (1401). تحلیل و ارزیابی رشد کمّی و کیفی برون‌دادهای علمی جمهوری اسلامی ایران، پژوهش‌نامه علم‌سنجی، 8 (2)، 265- 286.
ابازری، زهرا؛ ریاحی، عارف؛ صحبتی‌ها، فریبا؛ صیامیان، حسن؛ یمین فیروز، موسی (1399). بررسی تطبیقی رشد مجلات و مقالات حوزه پزشکی در کشورهای عضو منطقه‏ای مدیترانه شرقی در پایگاه اطلاعاتی اسکوپوس (۲۰۰۲-۲۰۱۲). مجله دانشکده پیراپزشکی دانشگاه علوم پزشکی تهران (پیاورد سلامت)، 9(3)، 235- 248.
احقاقی الهام؛ فتحیان محمد (1400). علم‏سنجی و فراترکیب وضعیت موجود پژوهش‏های حوزه شبکه‏های همکاری بین سازمانی. فصلنامه توسعه مدیریت فناوری، 9(1)، 11- 39.
احمدیان دیوکتی، محمدمهدی؛ رازقی، نادر؛ آقاجانی، حسنعلی (1399). آینده‌پژوهی تولیدات علمی ایران تا سال 2030 با استفاده از مدل ARIMA. مطالعات کتابداری و علم اطلاعات، 12(1)، 153- 173.
اسمعیلی آبدر، سمیه؛ جهانشاهی، محسن (1399). استفاده از الگوریتم GSO برای تشخیص جوامع در شبکه‏های اجتماعی پویا. نشریه فناوری اطلاعات و ارتباطات انتظامی، 1(2)، 43-53.  
جنوی، المیرا؛ شاهمرادی، بهروز (1399). سنجش جایگاه رقابت‌پذیری علمی ایران در منطقه با استفاده از شاخص پیچیدگی علمی. پژوهش‌نامه علم‌سنجی، 5(1)، 67- 84.
جنوی، المیرا؛ مرادی، شیما؛ پاکزاد، مهدی (1399). ارزیابی وضعیت انتشارات علمی ایران بر مبنای نقشه جامع علمی کشور. پژوهش‌نامه علم‌سنجی، 6(1)، 213- 236.
حسن‌زاده، رمضان؛ مداح، محمد تقی (1402). روش‏های آماری در علوم رفتاری. انتشارات روان.
خرمی، محیا (1396). تحلیل داده‌های پایگاه سایمگو به‌منظور استخراج روابط شباهتی جغرافیایی و موضوعی، پایان‌نامه کارشناسی ارشد رشته مهندسی فناوری اطلاعات گرایش تجارت الکترونیک.
فرزین یزدی، محبوبه؛ رضایی شریف آبادی، سعید (1396). بررسی تولیدات علمی حوزه موضوعی هوش مصنوعی در کشورهای خاورمیانه طی سال‏های 1996 تا 2014. پژوهش‌نامه علم‏سنجی، 3(2)، 97- 114.  
مجرد، موسی؛ پروین، حمید؛ نجاتیان، صمد؛ رضایی، وحیده؛ باقری فرد، کرم‌اله (1399). خوشه‌بندی مبتنی بر گراف با استفاده از آزمون ویلکاکسون جهت استخراج ارتباطات بیولوژیکی سلول‌ها و بافت‌ها. مجله مهندسی برق دانشگاه تبریز، 50(3)، 1373- 1382.
محمد اسماعیل، صدیقه؛ ریاحی، عارف و صحبتی‌ها، فریبا (1393). ارزیابی کمی و کیفی مجلات ایران در پایگاه استنادی اسکوپوس طی سال‌های 2012-2000. مجله علم‌سنجی کاسپین، 1(1)، 33-39.
نصرتی، وحید؛ رحمانی، محسن (1401). ارائه روش انتخاب ویژگی مبتنی بر خوشه‏بندی در مسئله تشخیص هرزنامه. مدیریت اطلاعات، 8(1)، 202- 224.
Anuar, S. H. H., Abas, Z. A., Yunos, N. M., Zaki, N. H. M., Hashim, N. A., Mokhtar, M. F., ... & Nizam, A. F. (2021, December). Comparison between Louvain and Leiden algorithm for network structure: a review. In Journal of Physics: Conference Series,  2129 (1). 012028. IOP Publishing.
Bedi, P. & Sharma, C. (2016). Community detection in social networks. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 6(3), 115-135.
Blondel, V. D., Guillaume, J. L., Lambiotte, R. & Lefebvre, E. (2008). Fast unfolding of communities in large networks. Journal of statistical mechanics: theory and experiment, 2008(10),10008.
Daradkeh, M. Abualigah, L. Atalla, S. & Mansoor, W. (2022). Scientometric analysis and classification of research using convolutional neural networks: A case study in data science and analytics. Electronics, 11(13),2066.
Dikusar A. & Cujba, R. (2024). Scientometric Approach in Determining the Role of Science in Socioeconomic Development of Society. Journal of Social Sciences, 7(2), 159–169.
Dollmann, M. M. (2023). Graph Clustering: A Comparison of Louvain and Leiden. Conf. Ser. 2129 012028.
Erfanmanesh, M., Jahromi, R. B. Hosseini, E. & Gholamhosseinzadeh, Z. (2013). Scientific productivity, impact and collaboration of the top Asian countries in Scopus during 1996-2010. Collnet Journal of Scientometrics and Information Management,  7(1), 97-110.
Gilad, G. & Sharan, R. (2023). From Leiden to Tel-Aviv University (TAU): exploring clustering solutions via a genetic algorithm. PNAS nexus, 2(6), pgad180.
Khokhlov, A. N. (2020). How scientometrics became the most important science for researchers of all specialties. Moscow University Biological Sciences Bulletin, 75(4), 159-163.
Noroozi Chakoli, A., Noroozi Chakoli, S. & Chehrenegar, L. (2023). Is there relationship between cultural-economic indicators and the scientific status of countries? Analysis of Western and Central Asian countries using a neural network algorithm. 27th International Conference on Science, Technology and Innovation Indicators (STI 2023).
Reyes, C. F. (2014). Growth of the number of indexed journals of Latin America and the Caribbean: The effect on the impact of each country. Scientometrics, 98,197-209.
Roldan-Valadez, E., Salazar-Ruiz, S. Y., Ibarra-Contreras, R. & Rios, C. (2019). Current concepts on bibliometrics: a brief review about impact factor, Eigenfactor score, CiteScore, SCImago Journal Rank, Source-Normalised Impact per Paper, H-index, and alternative metrics. Irish Journal of Medical Science (1971-), (188), 939-951.
Sallam, M., Mohammadi, M., Sainsbury, F., Nguyen, N. T., Kimizuka, N., Muyldermans, S. & Benešova-Schäfer, M. (2024). Bibliometric and scientometric analysis of PSMA-targeted radiotheranostics: knowledge mapping and global standing. Frontiers in oncology14, 1397790.
Traag, V.A., Waltman, L. & Van Eck, N.J. (2019). From Louvain to Leiden: guaranteeing well-connected communities. Scientific reports, 9(1), 5233.
Wang, X., Long, S., Zeng, L., Chen, C. & Yishan, L. (2024, June). Mapping the Evolution and Future Trajectories of Network Mining: A Scientometric Analysis (2004–2023). In 2024 International Symposium on Power Electronics, Electrical Drives,  Automation and Motion (SPEEDAM) (pp. 468-473). IEEE.
Wani, Z. A. & Zainab, T. (2017). A review of eminence of scientometric indicators in scientific research productivity’, COLLNET Journal of Scientometrics and Information Management, 11(2), 273–285.
Winarko, B., Abrizah, A. & Tahira, M. (2016). An assessment of quality, trustworthiness and usability of Indonesian agricultural science journals: stated preference versus revealed preference study. Scientometrics, 108, 289-304.

  • تاریخ دریافت 03 خرداد 1403
  • تاریخ بازنگری 23 دی 1403
  • تاریخ پذیرش 09 بهمن 1403