::Linux:: PC Cluster ::

Update 23/11/05 Alamat Redaksi ::: Laboratorium Ilmu Tanah (Gedung H) Faperta UNIB Jl. WR. Soepratman Telp.(0736)21170 Ext.218 Bengkulu 38371A

Info Linux

Halaman ini akan tampil lebih baik melalui browser IE dgn resolusi 800 x 600 pixels

An open-source XML/HTML browser which is implementing full Level 2 DOM support

Ganglia is a scalable distributed monitoring system for high-performance computing systems such as clusters and Grids

Efisiensi Pengolahan data Numeris dalam Analisis Data secara Paralel dengan Klaster PC

Bambang Gonggo M., Mohammad Chozin

Fakultas Pertanian Universitas Bengkulu

bgonggo@yahoo.com

(Hibah Pekerti, Dikti, 2004-2005)

Hasil

Performa klaster

Hasil benchmarking dengan HPL menunjukkan bahwa klaster yang dibangun memiliki performa sebagaimana disajikan dalam Tabel 1.

Tabel 1. Performa klaster dalam Gflops untuk beberapa ukuran sistem linier

Grid	2000	5000	8000	10000
1 x 4	1.032	2.041	2.897	2.946
2 x 2	1.095	2.350	3.100	3.480
4 x 1	0.770	1.823	2.438	2.816

Berdasarkan kinerja klaster pembanding yang menggunakan 4 AMD Athlon K7 500 Mhz (256 Mb) – (2x) 100 Mbps switch – 2 NIC per node sebagaimana dapat dilihat pada Tabel 2, maka klaster yang dibangun secara rata-rata lebih cepat. Secara teoritis, ukuran maksimal nilai pada Tabel 1 idealnya harus mendekati 2 kali lipat dari Tabel 2. Kondisi ini akan dapat diperbaiki dengan meningkatkan kecepatan transmisi dan distribusi data

Jika diperhatikan Tabel 1 akan terlihat bahwa performa klaster meningkat seiring dengan peningkatan parameter problem. Peningkatan paling nyata berlangsung mulai pada paramater problem 8000. Hal ini berarti bahwa efisiensi transimisi dan receive data dari master ke slave dan sebaliknya semakin tinggi pada parameter yang tinggi.

Tabel 2. Performa pembanding dalam Gflops untuk beberapa ukuran sistem linier

Grid	2000	5000	8000	10000
1 x 4	1.25	1.73	1.89	1.95
2 x 2	1.17	1.68	1.88	1.93
4 x 1	0.81	1.43	1.70	1.80

Pengujian Klaster untuk pengolahan data secara numeris

Operasi Matriks

Perbandingan running time (detik) antara pengolahan data secara serial dengan sebuah PC dan pengolahan data secara paralel dengan klaster untuk mendapat solusi dari operasi perkalian matriks disajikan pada Tabel 3. Secara umum pengolahan secara serial memerlukan waktu yang lebih singkat dibanding pengolahan secara paralel jika matriks maupun vektor yang dikalikan memiliki dimensi relatif sedikit, yakni matriks yang berdimensi 200 x 200 atau yang lebih rendah. Kondisi tersebut menjadi sebaliknya seiring dengan bertambah besarya dimensi matrik yang dioperasikan. Bahkan secara konsisten pengolahan secara paralel 1,5 kali lebih cepat dibanding pengokahan serial untuk operasi berdimensi 1800 x 1800 atau lebih tinggi.

Tabel 3. Catatan running time pengujian klaster melalui operasi matriks

NRA	NCA	NCB	t (serial)	t (paralel)	SpeedUp
25	25	25	0.272	43.408	0.01
50	50	50	1.206	51.304	0.02
100	100	100	322334.83	203706914	1.58E-003
200	200	200	8.995	92.812	0.1
400	400	400	137.201	321.941	0.43
600	600	600	190727.459	223654.174	0.85
800	800	800	210280.423	280310.632	0.75
1600	1600	1600	251207.466	304528.13	0.82
1650	1650	1650	295566.101	345077.874	0.86
1700	1700	1700	2295.191	1893.853	1.21
1800	1800	1800	248191.629	172232.943	1.44
1950	1950	1950	344265.944	258207.297	1.43
1975	1975	1975	21447.963	14001.488	1.53
2000	2000	2000	176464.992	104475.149	1.69

NRA = number of rows in matrix A ; NCA = number of column in matrix NCB =number of column in matrix B; t = running time (detik)

Analisis Statistik

Analisis data secara statistik yang ditampilkan dengan menggunakan R menunjukkan bahwa pengolahan paralel dengan klaster secara umum lebih efisien penggunaan waktunya dibanding dengan pengolahan secara serial. Tabel 4 merupakan catatan waktu yang diperlukan oleh kedua sistem pengolahan tersebut untuk melakukan satu jenis analisis (procedure), yakni Anova terhadap 8 variabel. Dari catatan waktu tampak bahwa pengolahan secara serial, yakni sebuah PC melakukan analisis 8 variabel sekaligus memerlukan waktu yang lebih lama dibanding pengolahan paralel, yang dalam hal ini beban 8 variabel tersebut dibebankan secara merata kepada setiap anggota klaster; masing-masing 2 variabel. Perbedaan running time tersebut semakin jelas seiring dengan meningkatnya ukuran data

Tabel 4.Catatan running time pengujian klaster melalui analisis varian untuk 8 varaibel

Tabel 5.Catatan running time pengujian klaster melalui Anova, Manova, Korelasi, Kovarian untuk 8 variabel

Ukuran data (N)	t (serial)	t (paralel)	SpeedUp
50	1.02	0.98	1.04
100	1.08	0.96	1.13
200	1.27	1.19	1.07
400	3.27	1.30	2.52
800	20.84	6.49	3.21
1600	154.54	41.95	3.68
3200	1142.92	291.62	3.92

Ukuran data (N)	t (serial)	t (paralel)	SpeedUp
100	100	1.07	1.32
200	200	1.19	1.42
400	400	2.11	1.53
800	800	12.60	1.96
1600	1600	82.38	2.18
3200	3200	590.03	2.19

Loading time

Dari seluruh pengujian yang menggunakan titik data (N), yakni hingga 3200 titik data, sistem belum mengalami permasalahan loading data. Namun ketika N tersebut ditingkatkan hingga 4 juta dan 8 juta titik data yang filenya berukuran masing-masing 35 Mb dan 90 Mb, permasalah tersebut mulai muncul. Pada N= 4 juta waktu yang diperlukan untuk data loading adalah 90 menit dengan memori yang tersisa. Permasalahan ini terkait dengan ketersedian data pada file yang harus dibaca secara sekuensial. Solusi yang dapat ditempuh untuk mengatasi permasalahan ini adalah tersedianya data dalam bentuk random akses, sebagaimana diterapkan dalam program database management system (DBMS).

Kesimpulan

Operasi pengolahan data secara numeris dengan klaster PC akan lebih efisien jika data yang diolah berukuran besar. Program statistik R sangat kompatibel dengan sistem klaster yang dibangun. Untuk data berukuran sangat besar ( puluhan Mb) klaster mengalami hambatan waktu dalam data loading