ANALISIS KARAKTERISTIK KELOMPOK DENGAN MENGGUNAKAN PENDEKATAN CLUSTER ENSEMBLE
Keywords: algoritma algCEBMDC, kompleksitas, pengelompokan
Abstract
Clustering is one of data mining techniques which is used to group databased on similarity of the object data attributes. In general clustering algorithm is developed to process only one type of data, either category or numerical data type. Not many algorithms were developed to process the mixture between category and numerical data. One algorithm to process the mixed data is algCEBMDC, a clustering algorithm using cluster ensemble approach. The purpose of this study was to analyze the characteristics of the results of clustering algorithms algCEBMDC. The research methods follow the work-flow of data mining and algCEBMDC algorithm. The data used is the data of inactive students of Mathematics study program in Universitas Terbuka (The Indonesia Open University). First, the data is cleared up to get clean data ready for processing, and then is separated into two groups based on the type of category data and numerical data. The category data is processed using QROCK algorithm, producing 44 groups which is obtained at the 0.98 threshold value with cohesion of 2044. The numerical data is processed using AGNES algorithm, generating 69 groups which is derived from a combination of Cityblock Distance and Average link method with cophenet value of 0,822. The results of the two grouping are combined, considered as a data category, then is processed using QROCK algorithm. The resulting groups had similar characteristics on the end of education, employment status, marital status, and gender. The academic achievement factors indicate that the passing level of courses in the first two semesters are very low. It can be concluded that the first two semesters is a critical time for distance education students in mathematic study program.
Pengelompokkan merupakan salah satu tehnik data mining yang digunakan untuk mengelompokkan data berdasarkan kemiripan atribut dari data obyek. Pada umumnya algoritma pengelompokan dikembangkan hanya untuk memproses salah satu tipe data kategori atau numerik. Tidak banyak algoritma yang dikembangkan untuk memproses data campuran kategori dan numerik. Salah satu algoritma untuk memproses data campuran adalah algCEBMDC, algoritma pengelompokan dengan pendekatan cluster ensemble. Tujuan penelitian ini adalah untuk menganalisis karakteristik hasil pengelompokan algoritma algCEBMDC. Metode penelitian mengikuti alur kerja data mining dan algoritma algCEBMDC. Data yang digunakan adalah data mahasiswa non aktif Program Studi Matematika FMIPA, Universitas Terbuka. Data awal bertipe campuran dibersihkan untuk mendapatkan data bersih siap proses, kemudian dipisah menjadi dua berdasarkan tipe datanya: kategori dan numerik. Data kategori diproses menggunakan algoritma QROCK, menghasilkan 44 kelompok yang diperoleh pada threshold 0.98 dengan nilai kohesi 2044. Data numerik diproses menggunakan algoritma AGNES, menghasilkan 69 kelompok yang diperoleh dari kombinasi ukuran jarak Cityblock distance dan metode penggabungan Average link dengan nilai cophenet 0,822. Hasil dari kedua pengelompokan digabung, dianggap sebagai data kategori, kemudian diproses menggunakan algoritma QROCK. Kelompok-kelompok yang dihasilkan memiliki kesamaan karakteristik pada pendidikan akhir, status pekerjaan, status perkawinan, dan jenis kelamin. Faktor prestasi akademik menunjukkan bahwa tingkat kelulusan matakuliah dalam dua semester pertama sangat rendah. Dapat dikatakan bahwa dua semester pertama merupakan masa kritis bagi mahasiswa Program Studi Matematika UT.
Downloads
References
Dutta, M., Mahanta A.K., & Arun K.P. (2005). QROCK: A quick version of the ROCK algorithm for clustering of categorical data. Proceedings of the15IEEE International Conference on Data Engineering, 2004.
Han, J., & Kamber M. (2001). Data mining: Concepts and techniques. USA: Academic Press.
Marisa, A. (2008). Perbandingan algoritme clustering rock dan qrock untuk data kategorik. Skripsi sarjana yang tidak dipublikasikan. Institut Pertanian Bogor, Bogor:
Saxena, A., Pankaj K., & Suresh G. (2002). Aplication of cluster analysis as a tool to analyse distance educations students. Indira Gandi Open University, New Delhi, India.
Shaeela, A., Tasleem M., & Ahsan R.S. (2010). Data mining model for higher education system. Europen Journal of Scientific Research, 43(1), 24-29.
Tan, P., Steinbach M., & Kumar V. (2006). Introduction to data mining. USA: Pearson Education,Inc
Zengyou, H., Xiaofe I X., & Shengchum D. (2002). Clustering mixed numeric and categorical data: A cluster Ensemble Approach. http://arxiv.org/ftp/cs/papers/0509/050911.pdf