نوع مقاله : مقاله پژوهشی
نویسنده
دانشیار، پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران، ایران
چکیده
در مدارک علمی، نمایهسازی و کنترل کیفیت، فرایندهایی کلیدی وجود دارد که در صورت انجام درست آنها، امکان بازیابی مناسب در موتورهای جستوجو فراهم میآید. در منابع علمی، به روشهای نمونهبرداری در محصولات فیزیکی به اندازۀ کافی پرداخته شده است؛ اما در حوزه دادهها، بهویژه دادههای پژوهشی، کارهای اندکی انجام شده است. در این پژوهش، چارچوبی برای نمونهبرداری فرایندهای کنترل کیفیت داده فراهم شده است. بهعنوان مطالعه موردی، دادههای پژوهشی پایگاه اشاعه اطلاعات پایاننامهها/ رساله (پارسا)های دانشآموختگان کل کشور (گنج) انتخاب شده است. بر اساس نتایج، با توجه به کیفیت پذیرفتنی بسیاری از اقلام اطلاعاتی پارسا، پس از ثبت، نمونهبرداری کاری حیاتی برای ارتقای کارایی واحد سازماندهی و تحلیل اطلاعات است. منحنی OC برای طرحهای گوناگون نشان میدهد که طرحهای ارائهشده برای ارزیابی سطح کیفیت دادههای پژوهشی، از کارایی مناسبی برخوردارند. چارچوب ارائهشده در این پژوهش، برای سازمانهای گوناگون دادهمحور، بهویژه کسبوکارهای مبتنی بر داده، قابلیت بومیسازی دارد.
کلیدواژهها
عنوان مقاله [English]
Statistical Design of a Sampling Method in Quality Control of Research Data
نویسنده [English]
Associate Professor of Iranian Research Institute for Information Science and Technology (IranDoc), Tehran, Iran
چکیده [English]
In the scientific literature, indexing and quality control are key processes that, if done correctly, can be properly retrieved by search engines by researchers. On the other hand, the use of mechanisms such as infallibility and empowerment of users has made research organizations 100% free from quality control. Also, the restriction on the use of specialized organizational human resources has doubled the importance of paying attention to sampling methods. Although in scientific sources, sampling methods in physical and tangible products have been well and adequately addressed, but in the field of data, especially research data, little work has been done. In this research, a framework for sampling in data quality control processes is provided. Also, an algorithm has been developed for statistical design to minimize type I and II errors. As a case study of research data, the information dissemination database of dissertations / dissertations (pious) of graduates of the whole country (Ganj) has been selected and the research method has been implemented in this database. The results of this study showed that, considering the acceptable quality of many pious information items after registration, sampling is a vital task in improving the efficiency of the information organization and analysis unit. The classification of information items into three categories is critical, main and partial, and determining the number and method of sampling for each category is another result of this research. The framework presented in this research can be localized for various data-driven organizations, especially businesses based on research data. Since any revision of AQL and LTPD values affects type I and II errors, it is necessary to apply the algorithms developed in this research to new AQL and LTPD values as well. Obviously, the results of the algorithm implementation such as number of samples, acceptance number and rejection number will be updated in this process.
کلیدواژهها [English]