Update 23/11/05                                                                Alamat Redaksi ::: Laboratorium Ilmu Tanah (Gedung H) Faperta UNIB Jl. WR. Soepratman Telp.(0736)21170 Ext.218 Bengkulu 38371A

 
Info Linux
 
Halaman ini akan tampil lebih baik melalui browser IE dgn resolusi 800 x 600 pixels

An open-source XML/HTML browser which is implementing full Level 2 DOM support

Ganglia is a scalable distributed monitoring system for high-performance computing systems such as clusters and Grids

Efisiensi Pengolahan data Numeris dalam Analisis Data secara Paralel dengan Klaster PC

Bambang Gonggo M., Mohammad Chozin

Fakultas Pertanian Universitas Bengkulu

bgonggo@yahoo.com

(Hibah Pekerti, Dikti, 2004-2005)

Hasil
Performa klaster

Hasil benchmarking dengan HPL menunjukkan bahwa klaster yang dibangun memiliki performa sebagaimana disajikan dalam Tabel 1.

Tabel 1. Performa klaster dalam Gflops untuk beberapa ukuran sistem linier
Grid 2000 5000 8000 10000
1 x 4 1.032 2.041 2.897 2.946
2 x 2 1.095 2.350 3.100 3.480
4 x 1 0.770 1.823 2.438 2.816
    Berdasarkan kinerja klaster pembanding yang menggunakan 4 AMD Athlon K7 500 Mhz (256 Mb) – (2x) 100 Mbps switch – 2 NIC per node sebagaimana dapat dilihat pada    Tabel 2, maka klaster yang dibangun secara rata-rata lebih cepat. Secara teoritis, ukuran maksimal nilai pada Tabel 1  idealnya harus mendekati 2 kali lipat dari Tabel 2.  Kondisi ini akan dapat diperbaiki dengan meningkatkan kecepatan transmisi dan distribusi data
     Jika diperhatikan Tabel 1 akan terlihat bahwa performa klaster meningkat seiring dengan peningkatan parameter problem. Peningkatan paling nyata berlangsung mulai pada paramater problem 8000. Hal ini berarti bahwa efisiensi transimisi dan receive data dari master ke slave  dan sebaliknya semakin tinggi pada parameter yang tinggi.
Tabel 2. Performa pembanding  dalam Gflops untuk beberapa ukuran sistem linier
Grid 2000 5000 8000 10000
1 x 4 1.25 1.73 1.89 1.95
2 x 2 1.17 1.68 1.88 1.93
4 x 1 0.81 1.43 1.70 1.80
Pengujian Klaster untuk pengolahan data secara numeris
Operasi Matriks
     Perbandingan running time (detik) antara pengolahan data secara serial dengan sebuah PC dan pengolahan data secara paralel dengan klaster untuk mendapat solusi dari  operasi perkalian matriks disajikan pada Tabel 3.  Secara umum pengolahan secara serial  memerlukan waktu yang lebih singkat dibanding pengolahan secara paralel jika matriks maupun vektor yang  dikalikan memiliki dimensi relatif sedikit, yakni matriks yang berdimensi  200 x 200 atau yang lebih rendah. Kondisi tersebut menjadi sebaliknya seiring dengan bertambah besarya dimensi matrik yang dioperasikan. Bahkan secara konsisten pengolahan secara paralel  1,5 kali lebih cepat dibanding pengokahan serial untuk operasi  berdimensi  1800 x 1800  atau lebih tinggi.
Tabel 3.  Catatan running time pengujian klaster melalui operasi matriks
NRA NCA NCB t (serial) t (paralel) SpeedUp
25 25 25 0.272 43.408 0.01
50 50 50 1.206 51.304 0.02
100 100 100 322334.83 203706914 1.58E-003
200 200 200 8.995 92.812 0.1
400 400 400 137.201 321.941 0.43
600 600 600 190727.459 223654.174 0.85
800 800 800 210280.423 280310.632 0.75
1600 1600 1600 251207.466 304528.13 0.82
1650 1650 1650 295566.101 345077.874 0.86
1700 1700 1700 2295.191 1893.853 1.21
1800 1800 1800 248191.629 172232.943 1.44
1950 1950 1950 344265.944 258207.297 1.43
1975 1975 1975 21447.963 14001.488 1.53
2000 2000 2000 176464.992 104475.149 1.69

NRA = number of rows in matrix A ; NCA = number of column in matrix   NCB =number of column in matrix B; t = running time (detik)

Analisis Statistik
   Analisis data secara statistik yang ditampilkan dengan menggunakan R menunjukkan bahwa pengolahan paralel dengan klaster secara umum lebih efisien penggunaan waktunya dibanding dengan pengolahan secara serial.  Tabel 4 merupakan catatan waktu yang diperlukan oleh kedua sistem pengolahan tersebut untuk melakukan satu jenis analisis (procedure), yakni Anova terhadap 8 variabel. Dari catatan waktu tampak bahwa pengolahan secara serial, yakni sebuah PC melakukan analisis 8 variabel sekaligus memerlukan waktu yang lebih lama dibanding pengolahan paralel, yang dalam hal ini beban 8 variabel tersebut dibebankan secara merata kepada setiap anggota klaster; masing-masing 2 variabel. Perbedaan running time tersebut semakin jelas seiring dengan meningkatnya ukuran data

Tabel 4.Catatan running time pengujian klaster melalui analisis varian untuk 8 varaibel

Tabel 5.Catatan running time pengujian klaster melalui    Anova, Manova, Korelasi, Kovarian  untuk 8 variabel

Ukuran data (N) t (serial) t (paralel) SpeedUp
50 1.02 0.98 1.04
100 1.08 0.96 1.13
200 1.27 1.19 1.07
400 3.27 1.30 2.52
800 20.84 6.49 3.21
1600 154.54 41.95 3.68
3200 1142.92 291.62 3.92
Ukuran data (N) t (serial) t (paralel) SpeedUp
100 100 1.07 1.32
200 200 1.19 1.42
400 400 2.11 1.53
800 800 12.60 1.96
1600 1600 82.38 2.18
3200 3200 590.03 2.19
Loading time
     Dari seluruh pengujian yang menggunakan titik data (N), yakni hingga 3200 titik data, sistem belum mengalami permasalahan loading data. Namun ketika N tersebut ditingkatkan hingga 4 juta  dan 8 juta titik data yang filenya berukuran masing-masing       35 Mb dan   90  Mb,  permasalah tersebut mulai muncul. Pada N= 4 juta waktu yang diperlukan untuk data loading adalah 90 menit dengan memori yang tersisa. Permasalahan ini terkait dengan ketersedian data pada file yang harus dibaca secara sekuensial. Solusi yang dapat ditempuh untuk mengatasi permasalahan ini adalah tersedianya data dalam bentuk random akses, sebagaimana diterapkan dalam program database management system (DBMS).
Kesimpulan

    Operasi pengolahan data secara numeris dengan klaster PC  akan lebih efisien jika data yang diolah berukuran besar. Program statistik R sangat kompatibel dengan sistem klaster yang dibangun. Untuk data berukuran sangat besar ( puluhan  Mb) klaster mengalami hambatan waktu dalam data loading 


 

Hak Cipta © 2003 pada TIM e-Jurnal