Single Pass Clustering merupakan suatu tipe clustering yang berusaha melakukan pengelompokan data satu demi satu dan pembentukan kelompok dilakukan seiring dengan pengevaluasian setiap data yang dimasukkan ke dalam proses cluster. Pengevaluasian tingkat kesamaan antar data dan cluster dilakukan dengan berbagai macam cara termasuk menggunakan fungsi jarak, vectors similarity, dan lain-lain.
Algoritma yang sering digunakan dalam Single Pass Clustering adalah sebagai berikut:
1) for each data d loop
a) find a cluster c that maximises an objective function
b) if the value of the objective function > a threshold value then include d in c
c) else create a new cluster whose only data is d
2) end loop
a) find a cluster c that maximises an objective function
b) if the value of the objective function > a threshold value then include d in c
c) else create a new cluster whose only data is d
2) end loop
Dalam menggunakan algoritma ini, dua hal yang perlu menjadi perhatian adalah penentuan objective function dan penentuan threshold value. Objective function yang ditentukan haruslah sebisa mungkin mencerminkan keadaan data yang dimodel dan dapat memberikan nilai tingkat kesamaan atau perbedaan yang terkandung di dalam data tersebut. Penentuan threshold value juga merupakan hal yang subjektif, makin besar nilai threshold, makin mudah suatu data untuk bergabung ke dalam suatu cluster, dan demikian juga sebaliknya.
Reference:
Klampanos I. A., Jose J. M., and van Rijsbergen C. J. K. (2006). Single Pass Clustering for Peer-to-Peer Information Retrieval: The Effect of Document Ordering. Proceedings of the First International Conference on Scalable Information Systems, Hongkong.
Klampanos I. A., Jose J. M., and van Rijsbergen C. J. K. (2006). Single Pass Clustering for Peer-to-Peer Information Retrieval: The Effect of Document Ordering. Proceedings of the First International Conference on Scalable Information Systems, Hongkong.
Sumber:yudiagusta.wordpress.com