2. Referensi
Milton, M, Head First: Data Analysis,
Cielen, D, Meysman, ADB, & Ali, M, Introducing Data Science: Big Data,
Machine Learning, and More, Using Python Tools,
Godsey, B, Think Like a Data Scientist: Tackle the Data Science Process
Step-by-Step,
Skiena, SS, The Data Science Design Manual,
Dietrich, D, Heller, B, & Yang, B, Data Science and Big Data Analytics:
Discovering, Analyzing, Visualizing and Presenting Data,
Bahga, A, & Madisetti, V, Big Data Science and Analytics: A Hands-On
Approach,
Steele, B, Chandler, J, & Reddy, S, Algorithms for Data Science,
Russell, R. Machine Learning: Step-by-Step Guide to Implement Machine
Learning Algorithms with Python,
Salazar, JR , Data Science and Analytics with Python,
Miller, C, Hands-On Data Analysis with NumPy and Pandas: Implement
Python Packages from data Manipulation to Processing,
2
22. Analisis Data dimulai dari Keadaan Data
22
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan
23. Data LEMAH karena Sifat Internalnya
Data palsu, fiktif, manipulasi, dugaan, prediksi
Data dari sumber yang belum/tidak terpercaya
Data yang berubah, bertambah atau berkurang sepanjang
aliran perpindahan data
Data yang diambil dengan purposive sampling (misalnya memilih
sampel potensial untuk memperkuat pembuktian, untuk mengeksplorasi faktor, untuk
menentukan pemusatan data, untuk mengevaluasi pengaruh diversitas data, dll)
Data yang diambil dari populasi yang berbeda (misalnya berbeda
lingkup, karakteristik, situasi, perilaku, dll)
23
25. Data LEMAH karena Kesalahan Pengukuran
Random error : kesalahan tak terkendali antar
pengukuran, karena faktor keacakan dari objek ukur,
operator, alat ukur, lingkungan atau noise lainnya.
Systematic error : kesalahan yang berulang dan
membiaskan hasil, karena kegagalan operator atau
alat ukur, kesalahan prosedur, pengaruh lingkungan
Illegitimate error : kesalahan insidental dan
menghasilkan outlier, karena keteledoran, keliru
kalkulasi, atau kesalahan lainnya
25
27. Data LEMAH karena Kesalahan Pengukuran
Unusual value (outlier), data yang sangat jauh dari
kumpulan data utama, karena illegitimate error
pengukuran atau mungkin sampel berasal dari
populasi lain (terdapat faktor yang berbeda).
Missing value, data relevan yang kurang atau tidak
lengkap, karena kealpaan pengukuran atau
pencatatannya, atau sebaran sampel kurang baik.
Bias, pergeseran data dari nilai yang sebenarnya,
karena systematic error pengukuran.
27
28. Data LEMAH karena Kesalahan Sampling
Random error : kesalahan sampling karena
sebaran sampel kurang merepresentasikan distribusi
populasi. → abandoned subset of population
Systematic error : kesalahan sampling karena
sampel terkumpul di sebagian populasi yang dibatasi
rentang waktu tertentu atau lokasi tertentu dan
melalaikan sebagian yang lain. → undercoverage
Illegitimate error : kesalahan sampling karena
sampel dari populasi yang berbeda → overcoverage
28
33. Data
Data adalah fakta mentah yang diperoleh langsung
dari proses pengumpulan, yang perlu diolah lebih
lanjut untuk menghasilkan informasi yang memiliki
makna spesifik bagi pihak yang berkepentingan.
Data adalah bentuk jamak dari datum.
Datum adalah satu unit fakta mentah yang diperoleh
dari proses pengumpulan, misalnya hasil pengukuran
dalam observasi atau eksperimen.
33
34. Tipe Data
Kuantitatif dan Kualitatif
Parametrik dan Nonparametrik
Nominal, Ordinal, Interval dan Rasio
Diskrit dan Kontinyu
Serentak dan Deret waktu
Tunggal dan Berkelompok
Tunggal dan Jamak
34
35. Tipe Data
Data Kuantitatif atau Numerical, data yang diperoleh
dari pencacahan, penghitungan, pengukuran atau penilaian
dalam format angka atau bilangan yang dapat
diperbandingkan
Biner (0 atau 1) → data logik (true/false), data tanggapan (yes/no,
accept/decline), data kegagalan (sukses/gagal, baik/rusak)
Bilangan Bulat → Bil asli (1,2,...), Bil cacah (0,1,2)
Bilangan Nyata
...
35
36. Tipe Data
...
Data Kualitatif atau Categorical, data yang tidak
bernilai numerik.
Dikotomi
Pelabelan atau simbol
Klasifikasi atau stratifikasi
Penilaian verbal
36
37. Tipe Data
Data Parametrik, data kuantitatif yang mempunyai
sebaran variabel acak mengikuti pola distribusi
probabilitas dengan parameter tertentu (independent
and identically distributed random variables)
Data Nonparametrik, data yang tidak mempunyai
distribusi probabilitas (distribution-free) atau tiada
pengetahuan (sulit diperkirakan) mengenai distribusi
probabilitas populasinya
37
38. Tipe Data
Data Nominal, data yang hanya berupa simbol
(meski berupa angka) untuk membedakan nilainya
tanpa menunjukkan tingkatan
A = B ; A ≠ B
Contoh: jenis kelamin, warna kulit, ras, suku bangsa,
agama, bentuk rambut
...
38
40. Tipe Data
Data Ordinal, data yang mempunyai nilai untuk
menunjukkan tingkatan, namun tanpa skala yang
baku dan jelas antar tingkatan.
A > B ; A < B
Contoh : Kelompok usia (bayi, anak-anak, remaja,
dewasa, manula), Tingkat pendidikan, Status
ekonomi, Tingkat kepentingan
...
40
42. Tipe Data
Data Interval, data yang mempunyai nilai untuk
menunjukkan tingkatan dengan skala tertentu sesuai
intervalnya. Nilai nol hanya untuk menunjukkan titik
acuan (baseline).
A – B = C – D
Contoh : Temperatur, tingkat keasaman
...
42
44. Tipe Data
Data Rasio, data yang mempunyai nilai untuk
menunjukkan tingkatan dengan skala indikasi rasio
perbandingan. Nilai nol menunjukkan titik asal (origin)
yang bernilai kosong (null).
A = k.B
Contoh : Tinggi badan, Berat badan, Banyaknya
orang, dll
44
46. Tipe Data
Data Diskrit, data yang nilainya tertentu (certain),
jelas (distinct), terpisah gap (separate), dan dapat
tersusun di daftar (listed) yang berada dalam interval
tertentu, meskipun bisa dengan batas tak hingga
(misalnya: x = 1, 2, 3, ...).
Biasanya data hasil pencacahan atau penghitungan,
dalam angka bilangan cacah (whole numbers),
misalnya banyaknya orang. Meskipun ada pula data
yang menunjukkan ukuran spesifik, misalnya ukuran
sepatu, ukuran kemeja, ukuran celana.
46
47. Tipe Data
Data Kontinyu, data yang nilainya tersebar (any
value at any point), tersambung tiada gap
(continuum), dan sulit tersusun di daftar (cannot be
listed) yang berada dalam interval tertentu, meskipun
bisa dengan batas tak hingga (misalnya: x > 0).
Biasanya adalah data hasil pengukuran, dalam angka
bilangan nyata (real numbers), misalnya panjang
meja, volume cairan. Meskipun dapat pula dibulatkan,
data pengukuran yang lebih teliti juga masih mungkin
diperoleh, misalnya 2,5 cm ≈ 2,482468... cm.
47
50. Tipe Data
Data serentak (cross sectional) adalah data yang
diperoleh dari observasi pada waktu yang sama atau
dalam jeda waktu yang tidak signifikan, karena
diasumsikan data tidak sensitif terhadap pergerakan
waktu.
Data deret waktu (time series) adalah data yang
diperoleh dari observasi dengan mempertimbangkan
pergerakan waktu, dan biasanya disertai dugaan
bahwa data dipengaruhi oleh waktu.
50
51. Tipe Data
Data tunggal (ungrouped data) adalah data mentah
yang belum terorganisasi dalam kelompok atau grup.
Data berkelompok (grouped data) adalah data
yang terorganisasi dalam kelompok atau grup.
Klaster (clustered data). Pengelompokan data berdasarkan kategori dari variabel
lain (yang terikat dengan data), sehingga data dalam satu klaster masih
heterogen, dan antar klaster bisa serupa atau beririsan.
Kategori (categorical data). Pengelompokan data berdasarkan kategori nominal
dari data itu sendiri, sehingga data dalam satu klaster sudah homogen, dan antar
klaster berbeda dan tidak beririsan.
Strata (stratified data). Pengelompokan data berdasarkan stratum atau kelas
berjenjang dari data mulai kelas terkecil hingga terbesar.
51
54. Tipe Data
Data tunggal (univariate data) adalah data yang
hanya merepresentasikan satu variabel.
Data jamak (multivariate data) adalah data yang
merepresentasikan pasangan atau himpunan dari
dua atau lebih variabel secara simultan dengan
mempertimbangkan hubungan antar variabelnya.
54
55. Tipe Data
55
ID A1 B1 A2 C1 B2 B3 A3 C2 B4 C3 B5 C4 A4 A5 A6 C5 B6 C6 C7 C8
Klaster A B A C B B A C B C B C A A A C B C C C
Warna H H C C B B H H M M H C B M C B M B C H
Intensitas S T T S S T T G S T T G T G S G S T G T
Masing-masing baris adalah data univariate Gabungan 2 atau lebih baris adalah data multivariate
Distribusi data univariate Distribusi data multivariate
Plot data bivariate
Plot data multivariate
57. Jenis Data Berdasarkan Sumber Data
Data primer, fakta yang diperoleh langsung dari
pengukuran atau penghitungan obyek observasi
Data sekunder, data yang diperoleh dari merujuk
hasil observasi atau pernyataan subyek observasi
atau responden (melalui wawancara atau curah
pendapat)
Data tersier, dst..., data yang diperoleh dari pustaka
lainnya.
57
58. Tipe Data
Record
Data Matrix
Document Data
Transaction Data
Graph
World Wide Web
Molecular Structures
Ordered
Spatial Data
Temporal Data
Sequential Data
Genetic Sequence Data
58
59. Record Data
Record Data adalah data yang
terdiri dari sejumlah record
atau tuple atau instance, yang
mana setiap record tersusun
dari satu set atribut tertentu
59
Tid Refund Marital
Status
Taxable
Income Cheat
1 Yes Single 125K No
2 No Married 100K No
3 No Single 70K No
4 Yes Married 120K No
5 No Divorced 95K Yes
6 No Married 60K No
7 Yes Divorced 220K No
8 No Single 85K Yes
9 No Married 75K No
10 No Single 90K Yes
10
60. Graph Data
Graph data adalah data yang menjelaskan node dan relasinya
contoh: Generic graph, a molecule, dan webpages sitemaps
60
5
2
1
2
5
Benzene Molecule: C6H6
61. Ordered Data
Ordered Data adalah data yang menunjukkan rangkaian urutan
Sequences of transactions
An element of the sequence
Items/Events
61
62. Ordered Data
Genomic sequence data
GGTTCCGCCTTCAGCCCCGCGCC
CGCAGGGCCCGCCCCGCGCCGTC
GAGAAGGGCCCGCCTGGCGGGCG
GGGGGAGGCGGGGCCGCCCGAGC
CCAACCGAGTCCGACCAGGTGCC
CCCTCTGCTCGGCCTAGACCTGA
GCTCATTAGGCGGCAGCGGACAG
GCCAAGTAGAACACGCGAAGCGC
TGGGCTGCCTGCTGCGACCAGGG
62
74. Data Science
Data Science adalah disiplin ilmu interdisipliner yang
menggunakan metode ilmiah, algoritma, proses saintifik, dan
pendekatan sistem untuk mengekstrak knowledge dan insight
dari data yang terstruktur atau tidak terstruktur, terorganisasi
atau tercampur-baur, serta menerapkan knowledge dan
insight berbasis data di berbagai domain.
Data Science membutuhkan pengetahuan dan keterampilan:
Matematika dan statistika
Ilmu komputer dan informatika
Domain knowledge (pengetahuan terhadap domain baik dari
keilmuan maupun praktik aplikasi)
74
82. Data Science
Data science memadukan banyak bidang ilmu, mencakup
statistika, metode ilmiah, kecerdasan buatan (artificial
intelligence, AI), dan analisa data untuk mengekstraksi nilai
informasi dari data.
https://www.oracle.com/data-science/what-is-data-science/
Data science memadukan metode ilmiah, matematika dan
statistika, pemrograman, analisa data, kecerdasan buatan
(artificial intelligence, AI), dan storytelling untuk mengungkap
dan menjelaskan business insights yang tersembunyi di data.
https://www.ibm.com/cloud/learn/data-science-introduction
82
85. Data Science
Data Science berkaitan dengan ekstraksi, preparasi,
analisis, visualisasi dan maintain informasi. Merupakan
disiplin ilmu lintas disipliner yang menggunakan metode
ilmiah dan proses saintifik untuk menarik insights dari data.
Data Science berkepentingan dengan pengolahan, analisis
dan ekstraksi data untuk menghasilkan insights dari data
menggunakan berbagai metode statistika dan algoritma
komputer. Merupakan disiplin ilmu multidisipliner yang
memadukan matematika, statistika dan ilmu komputer.
https://data-flair.training/blogs/what-is-data-science/
85
101. Data Science-Data Analysis
What is Data Science?
Data Science adalah disiplin ilmu multidisipliner yang memadukan banyak disiplin
ilmu berkaitan dengan data dan mengaplikasikan tool dan metode interdisipliner
untuk ekstraksi, preparasi, analisis, visualisasi dan maintain data terstruktur atau tak
terstruktur untuk menghasilkan knowledge dan insight dari data.
What is Data Analysis?
Data analysis adalah bagian dari Data Science yang berkaitan dengan pemilihan
dan pengaplikasian tool dan metode analisis yang tepat untuk menghasilkan
knowledge dan insight dari data.
101
102. Data Science-Data Analysis
What is Data Analytics?
Data Analytics adalah bagian dari Data Analysis yang menggunakan query dan
metode agregasi data untuk memetakan berbagai pola relasi dan dependensi antar
variabel input.
What is Data Mining?
Data Mining adalah metode yang dipergunakan dalam Data Analytics yang
memberdayakan kemampuan prediksi dari machine learning dengan
mengaplikasikan berbagai algoritma machine learning atas big data untuk
mengidentifikasikan pola kecenderungan dari data.
102
117. Artificial Intelligence-Machine Learning
What is Artificial Intelligence?
Artifial Intelligence adalah teknik dalam disiplin ilmu komputer yang memungkinkan
komputer menirukan kecerdasan manusia, menggunakan logika, aturan if-then,
pohon keputusan, dan model keputusan lainnya, termasuk machine learning.
What is Machine Learning?
Machine Learning adalah bagian dari Artificial Intelligence yang melibatkan teknik
statistika probabilistik sehingga memungkinkan mesin untuk meningkatkan
kemampuan algoritma komputer menjalankan tugas dengan pengalaman.
What is Deep Learning?
Deep Learning adalah bagian dari Machine Learning yang memadukan algoritma
yang memungkinkan software untuk melatih mandiri hingga mampu menjalankan
tugas dengan menerapkan multilayered neural network pada data skala besar.
117