Partisi data kuantitatif pada tahapan prapemrosesan dalam penyelesaian secara Association Rule Mining
INAN, Dedi Iskandar, Ir. Wahyuni R., M.Sc
2006 | Tesis | S2 Teknik Elektro (Sistem Komputer dan Informasi)Data mining merupakan sebuah bidang kajian baru yang terus berkembang karena kemajuan teknologi media penyimpanan data. Kebutuhan untuk mengekstrak informasi dalam basis data yang sangat besar telah menarik minat komunitas bisnis dan peneliti, dan membuat penelitian dalam bidang ini terus berkembang. Oleh karena diperlukan teknik atau metode dalam menganalisa data yang terdapat dalam basis data tersebut untuk mencari informasi yang berguna didalamnya. Studi memperlihatkan bahwa teknik dalam data mining terus berkembang sejalan dengan permasalahan yang dihadapi. Dalam teknik mining dengan menggunakan aturan – aturan asosiasi (Association Rule Mining), kebanyakan metode yang digunakan adalah dikhususkan untuk data yang bersifat kategorikal. Walaupun dalam penelitian yang lainya juga telah diperlihatkan teknik dalam menyelesaikan proses mining dengan aturan – aturan asosiatif untuk data yang bersifat kuantitatif namun kebanyakan teknik yang dibangun hanya menggunakan satu atribut kuantitatif. Dalam studi ini akan diperlihatkan tentang bagaimana menyelesaikan proses mining dengan aturan - aturan asosiasi untuk data yang bersifat kuantitatif dengan menggunakan dua atau lebih atribut kuantitatif. Dalam penelitian ini juga akan diperlihatkan tentang bagaimana menyiapkan data yang akan digunakan dalam proses mining pada tahapan preprocessing data, yang merupakan salah satu tahapan yang sangat penting dalam keseluruhan proses data mining. Dalam penelitian ini, metode yang diusulkan untuk menyelesaikan permasalahan dalam ARM jika basis data yang digunakan adalah data kuantitatif yaitu dengan melakukan partisi dengan menggunakan teknik distance-based partition dan setelah itu data tersebut ditransformasi menjadi bentuk yang dapat dengan mudah dikenali oleh algoritma ARM. Namun sebelum melakukan partisi, langkah partama yang sangat penting diperhatikan adalah proses penentuan atribut yang akan digunakan dalam proses mining. Penentuan atribut yang keliru tidak hanya menyebabkan rule yang akan dihasilkan tidak memiliki nilai informasi tapi juga menyebabkan proses komputasi akan menjadi “mahalâ€. Dengan menggunakan metode tersebut terbukti bahwa proses ARM dengan menggunakan dua atau lebih dari atribut kuantitatif dapat diselesaikan dengan metode tersebut walaupun dalam melakukan partisi masih menggunakan aturan – aturan yang bersifat subjektif. Untuk mengukur objektifitas rule yang dihasilkan digunakan metrik tambahan yaitu Lift selain support dan confidence. Walaupun metode tersebut tidak mengoreksi performa dari algoritma – algoritma sebelumnya proses mining untuk data yang mengandung atribut kuantitatif namun terbukti dapat digunakan untuk menyelesaikan ARM untuk data yang mengandung dua atau lebih atribut kuantitatif.
Data mining is one of the new challenging fields that have been growing rapidly because of enhancement of repository technology. The urgent need to extract the information in huge amount of data base has been attracting research and business community. Because of that, it is required technique or method for analyzing the data in the data base to discover useful information in it. Study shows that techniques in data mining are growing parallel with its own problem. In Association Rule Mining (ARM) technique, most of the method which is often used is specialized for categorical data. Even though in other research has shown ARM technique for quantitative data but those techniques use only one quantitative attribute. In this paper, it will be shown about how to solve ARM for quantitative data using two or more quantitative attribute. And this paper will shows about how to prepare data that will be used in mining process in the preprocessing level, as well, which is one of the very important levels in whole data mining process. In this research, proposed method to solve ARM problem for quantitative data is doing partition using distance-based partition technique and then this data is transformed to a form that can be easily recognized by ARM algorithm. But before doing the partition, one of the first important steps in this method is to determine the attributes which will be used in mining process. This is very important steps because choosing wrong attributes is not only will produce noinformative rules but also costly computational process. This method has proven that it can be used to solve ARM problem for two or more quantitative attributes even though in doing partition still using subjective conditions. For measuring objectivity rule in this process, it used additional metric that is called “lift value†besides support and confidence. Even though this method is not correct the performance of previous algorithms in mining process for quantitative data, it can be used in ARM for two or more quantitative attributes.
Kata Kunci : Data Mining,Atribut Kuantitatif,ARM, Data mining, ARM, Quantitative Attribute, Distance – based partition, Lift Value