Penelitian ini membandingkan kinerja klaster Hadoop private cloud dan klaster Hadoop fisik dalam menyelesaikan komputasi MapReduce untuk skyline query pada big data. Hasilnya menunjukkan bahwa klaster Hadoop private cloud mampu menyelesaikan komputasi tersebut lebih cepat dibandingkan klaster Hadoop fisik karena fleksibilitas dan skalabilitas yang disediakan cloud computing.
2. Outline Pembahasan
Latar Belakang
Kesimpulan
Metodelogi Penelitian
Hasil
Penjelasan singkat
masalah penelitian
dan rumusan
masalah
Kesimpulan hasil
penelitian secara
keseluruhan
Penyampaian alur
dan metodologi
pengujian sistem
Penyampaian hasil
dan analisa hasil
penelitian
02
03
04
01
3. Tantangan Implementasi Hadoop
Diperlukan biaya investasi awal yang tidak sedikit.
● Infrastruktur
● Operasional
● Pakar TI
● Pemeliharaan berkelanjutan
Hal ini membuat implementasi Hadoop dengan
physical machine terbatas dilakukan.
4. Cloud Computing
Cloud computing menawarkan konsep pengolahan sumber
daya komputasi melalui jaringan internet (cloud) dengan
biaya sebesar yang digunakan pengguna saja. Layanan
IaaS:
• Server
• Storage
• Software
• Network
Infrastructure as a Service (IaaS) berbentuk virtual machine
yang bisa di-request sesuai kebutuhan internal.
5. Fokus Penelitian
Memanfaatkan cluster virtual private
cloud yang dibangun pada server
Universitas Mataram untuk diteliti
kinerjanya dalam menyelesaikan
komputasi Hadoop MapReduce.
Kemudian membandingkan hasil
pengujian performanya pada klaster
Hadoop yang dibangun menggunakan
infrastruktur fisik. Dalam menguji
performance, digunakan beberapa
skenario pengujian.
MR-BNL
Skyline Query
Varian skyline query yang
menggunakan konsep perulan
-gan dalam membaca suatu
record.
6. Metode Pengujian
Komputasi MapReduce menggunakan
algoritma MR-BNL untuk mencari lokal dan
global Skyline pada data berukuran besar.
Penambahan Jumlah
Node
Penambahan jumlah node pada cluster
bervariatif mulai dari 1 hingga 7 node.
Modifikasi ukuran file
Eksekusi ukuran file mulai dari 100 MB,
200MB, 350 MB, 512 MB, 800 MB hingga 1
GB.
Modifikasi ukuran
block data input
Penambahan block data dengan ukuran
bervariasi mulai dari ukuran default 64 MB,
128 MB, 256 MB dan 512 MB.
Komputasi MR-BNL
Skyline Query
7. Performa
Klaster Hadoop Private Cloud dan Klaster Hadoop Fisik
Menggunakan data berjumlah 1.5 juta atau 100 MB
pada ketiga data sintetis, klaster private cloud
memproses data anti-correlated (55%), independent
(31%) dan correlated (46%) lebih cepat dibandingkan
klaster Hadoop fisik.
Skenario Variasi Jumlah Data
02
8. Performa
Klaster Hadoop Private Cloud dan Klaster Hadoop Fisik
Saat mengeksekusi aplikasi Skyline MR-BNL pada data
anti-correlated, correlated dan independent menggunakan
1 mesin, waktu komputasi dengan klaster Hadoop private
cloud unggul dibanding klaster Hadoop fisik masing-
masing sebesar 36%, 35% dan 36%.
Skenario Variasi Jumlah Mesin
02
9. Performa
Klaster Hadoop Private Cloud dan Klaster Hadoop Fisik
Misalnya, menggunakan block size 64 MB pada ketiga
dataset berukuran 1.06 GB akan menghasilkan potongan
block sebanyak 17 block. Waktu komputasi yang
diperlukan oleh klaster private cloud pada data anti-
correlated, independent dan correlated lebih rendah
dibanding klaster Hadoop fisik dengan persentase
masing-masing sebesar 26%, 18% dan 23%.
Skenario Variasi Ukuran Block HDFS
02
10. Performa
Klaster Hadoop Private Cloud dan Klaster Hadoop Fisik
02
Hasil T- Test
Klaster Hadoop private cloud yang dibangun bekerja lebih baik dalam menjalankan komputasi Hadoop MapReduce,
dibandingkan klaster mesin fisik (tanpa virtualisasi)
11. Kesimpulan
• Hadoop MapReduce diimplementasikan
melalui proses instalasi dan konfigurasi
dilakukan lingkungan tempat daemon
Hadoop.
• Penambahan jumlah mesin dari 1 mesin
menjadi 7 mesin meningkatkan kinerja klaster
Hadoop private cloud, sementara bagi klaster
Hadoop fisik menyebabkan overhead.
• Penambahan volume data yang dieksekusi dari 1.5
juta hingga 12 juta akan menyebabkan kenaikan
waktu komputasi dan penurunan kinerja klaster.
01 02
03
03
• Block Size menentukan jumlah potongan block
yang akan dieksekusi dan mempengaruhi
kecepatan komputasi Hadoop MapReduce.
04
• Klaster Hadoop Private Cloud bekerja jauh
lebih baik dalam mengeksekusi aplikasi
Skyline dibandingkan klaster Hadoop Fisik.
05
Editor's Notes
Hadoop merupakan suatu framework popular yang digunakan untuk mengolah data bervolume besar menggunakan konsep distribusi paralel melalui suatu cluster.
Mengelola big data menggunakan Hadoop memiliki tantangan tersendiri dalam menyediakan, setting dan maintenance infrastruktur skala besar yang kompleks seperti Hadoop.
Untuk menangani permasalahan ini, dibutuhkan teknologii cloud computing.
Maka dari itu, cloud computing menawarkan penyediaan sumber daya komputasi berupa server, storage, software dan network. Cloud computing setara dengan komputer dan sistem operasi kita. Sejumlah besar sumber daya perangkat keras divirtualisasi (penyimpanan, RAM, disk space, sistem operasi, network dan kekuatan pemrosesan CPU) dan kemudian dialokasikan dan digunakan. Inti dari cloud computing adalah memberikan kekuatan komputasi kepada pengguna sebagai layanan kecil dengan menggunakan dan membayar sesuai permintaan pengguna saja.
Pada penelitian saya, objek yang diteliti terletak pada analisa kinerja atau performa cluster virtual private cloud yang dibangun pada server Universitas Mataram untuk komputasi Hadoop Mapreduce menggunakan beberapa skenario pengujian. Salah satunya ialah MR-BNL Skyline Query atau Block Nested Loops. Skyline Query merupakan metode pencarian sekumpulan objek penting yang memiliki kriteria lebih baik dari pada objek lainnya dalam himpunan data. Algoritma ini dipilih karena kompleksitas algoritma ini sangat bergantung pada jumlah dimensi dan besar dataset yang digunakan.
- Pada pengujian kedua, jumlah node aktif yang digunakan akan ditambah untuk mengamati respon cluster dalam mengerjakan suatu task. Penambahan jumlah node pada cluster bervariatif mulai dari1hingga 7 node.
- Skenario modifikasi ukuran file dilakukan secara bertahap untuk menguji kecepatan waktu eksekusi cluster terhadap data seiring penambahan ukuran file
- Skenario penambahan block akan menguji apakah ukuran data yang di-split dapat berdampak pada waktu eksekusi. Selain itu, skenario ini akan membantu memprediksi perilaku cluster dalam menanggapi input data dengan ukuran block yang berbeda.
Pengaruh penambahan jumlah data secara garis besar mampu menurunkan kinerja klaster.
Secara keseluruhan, pengaruh jumlah data terhadap waktu komputasi Hadoop MapReduce menunjukkan semakin besar data yang diproses, semakin lama pula waktu eksekusinya.
Private cloud : Secara umum, waktu menyelesaikan komputasi Hadoop MapReduce bertambah secara signifikan ketika mesin diskalakan. Ini juga menunjukkan percepatan yang ideal, dimana peningkatan kecepatan komputasi terjadi seiring penambahan jumlah prosessor.
Fisik : Secara garis besar, klaster menunjukkan kinerja yang tidak optimal ketika menjalankan ketiga dataset menggunakan 7 node. Adanya peningkatan waktu komputasi ini diduga dipicu oleh kompleksitas pada proses distribusi data, sinkronisasi antar node dan komunikasi antar daemon Hadoop ketika jumlah mesin ditambah serta network bottleneck.
Perbesaran ukuran block akan memperkecil jumlah block yang akan dieksekusi. Banyaknya potongan block yang akan diproses membuat kinerja namenode dan MapReduce menjadi lebih lambat. Hal ini akan membuat kinerja klaster terhambat dan waktu komputasi menjadi lebih lama. Berdasarkan pengujian yang dilakukan, block berukuran 64 MB tidak cocok digunakan untuk file berukuran 1.06 GB. Sementara itu, waktu komputasi tercepat ditunjukkan ketika block size 512 MB dengan jumlah block yang dihasilkan hanya 3 block
Berdasarkan hasil uji statistik t pada Gambar 4.48, Gambar 4.50, Gambar 4.52, dapat dibuktikan bahwa dalam menjalankan keseluruhan pengujian mulai dari perubahan ukuran file, perubahan jumlah mesin dan modifikasi blocksize HDFS, dengan spesifikasi tertentu, klaster Hadoop private cloud yang dibangun bekerja lebih baik dalam menjalankan komputasi Hadoop MapReduce, dibandingkan klaster mesin fisik (tanpa virtualisasi).