SlideShare a Scribd company logo
1 of 159
Download to read offline
PREPARASI DATA:
Pembersihan dan Proses
Awal Data
ARIF RAHMAN
1
2
3
Godsey, B, Think Like a Data
Scientist: Tackle the Data
Science Process Step-by-Step
4
5
Cielen, D, Meysman, ADB, & Ali, M,
Introducing Data Science: Big Data,
Machine Learning, and More, Using
Python Tools
Pembersihan Data
(Data Cleansing) dan
Proses Awal Data
(Data Preprocessing)
6
Pembersihan dan Proses Awal Data
7
Pembersihan dan Proses Awal Data
8
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan
Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
9
10
11
12
Pembersihan dan Proses Awal Data
 How do I detect and control noise?—Noise Discovering.
 How do I clean up the data?—Data Cleaning.
 How do I handle missing data?—Missing Data Imputation.
 How do I provide accurate data and standard format?—Data Transformation.
 How do I incorporate and adjust data?—Data Integration.
 How do I unify and scale data?—Data Structure Normalization.
 How do I reduce the dimensionality of data?—Feature Selection (FS).
 How do I remove redundant and/or conflictive examples?—Instance Selection (IS).
 How do I simplify the domain of an attribute?—Discretization.
 How do I fill in gaps in data?—Feature Extraction and/or Instance Generation.
13
Pembersihan dan Proses Awal Data
14
Problem Kualitas Data
Noise and outliers
Wrong data
Fake data
Missing values
Duplicate data
15
Noise
 Untuk objek data, noise merupakan kejanggalan objek data yang
asing dan tak selaras dengan pola umum
 Untuk atribut data, noise merupakan perubahan atau penyimpangan
dari nilai sesungguhnya
 Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan
suara lain dari lingkungan yang ikut tertangkap mikrofon.
 Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama
namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua
gelombang sinus yang terdistorsi oleh random noise acak.
16
Noise
17
Noise
18
Examples of the interaction between classes: a) small disjuncts and
b) overlapping between classes
Outliers adalah objek data dengan karakteristik yang
sangat berbeda dari sebagian besar objek data
lainnya dalam dataset
Kasus 1: Outliers menjadi
noise yang mengganggu
analisis data
Kasus 2: Outliers menjadi
tujuan analisis data
➢ Credit card fraud
➢ Intrusion detection
Outliers
19
Outliers
20
Outliers
21
Missing Values
Latar belakang terjadinya missing values
Informasi tidak dapat diperoleh karena keengganan, penolakan,
kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak
bersedia menyampaikan usia atau berat badannya)
Atribut data yang tidak mungkin cocok untuk sebagian kasus
(misalnya gaji untuk anak-anak)
Kegagalan alat atau ketidak-sengajaan penghapusan.
Penanganan missing values
Mengeliminasi objek data atau variabel
Mengestimasi missing values
➢Misalnya dengan regresi atau interpolasi
➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip
Mengabaikan missing value selama analisis data
22
Duplicate Data
Dataset mungkin mengandung objek data yang redundansi
atau terduplikasi secara utuh atau sebagian.
Contoh: orang yang sama dengan alamat e-mail berbeda
Pengumpulan data dari beberapa sumber heterogen
mempunyai isu mayor memperoleh duplicate data.
Contoh: data identitas pribadi orang yang sama diperoleh dari
instansi kependudukan dan dari afiliasi pekerjaan
Penanganan duplicate data
Mengeliminasi duplicate data
Mencatat atau merekap frekuensi duplikasi
Mengumpulkan subset data yang menjadi data-child untuk
sebagian data berbeda
23
Operasi Dasar dalam Data Preprocessing
Data cleaning
 Fill in missing values, smooth noisy data, identify or remove outliers, and resolve
inconsistencies
Data integration
 Integration of multiple databases, data cubes, or files
Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
Data transformation and data discretization
 Normalization
 Concept hierarchy generation
24
Data Cleaning
Data cleaning
fixes or removes incorrect, corrupted, incorrectly formatted,
duplicate, incomplete or missing data within a dataset.
Data cleaning tasks:
Data acquisition
Metadata and reformatting
Fill in missing values
Unified date format
Converting nominal to numeric
Identify outliers and smooth out noisy data
Correct inconsistent data
25
Data Integration
Data integration:
combines data from multiple sources into a coherent store
Schema integration
integrate metadata from different sources
Entity identification problem: identify real world entities from
multiple data sources, e.g., A.cust-id ≡ B.cust-#
Careful integration of the data from multiple sources may help
reduce/avoid redundancies and inconsistencies and improve
mining speed and quality
26
Data Reduction
Data reduction
Obtains a reduced representation of the data set that is much
smaller in volume but yet produces the same (or almost the same)
analytical results
Data reduction strategies
Data cube aggregation
Dimensionality reduction
Numerosity reduction
Data compression
27
Data Transformation
Data transformation
 maps the entire set of values of an attribute to a new set of replacement values.
 Each old value can be identified with one of the new values
Data transformation methods:
Smoothing: remove noise from data
Aggregation: summarization, data cube construction
Generalization: concept hierarchy climbing
Normalization: scaled to fall within a small, specified range
➢min-max normalization
➢z-score normalization
➢normalization by decimal scaling
Attribute/feature construction
➢New attributes constructed from the given ones
28
Data Discretization
Discretization
reduce the number of values for a given continuous attribute by
dividing the range of the attribute into intervals. Interval labels can
then be used to replace actual data values.
Discretization methods:
Divide the range of a continuous value into intervals
Classify the clustered value into categorical attributes.
Concept hierarchies
reduce the data by collecting and replacing low level concepts
(such as numeric values for the attribute age) by higher level
concepts (such as young, middle-aged, or senior).
29
Pembersihan Data
(Data Cleaning)
30
Latar Belakang
Kualitas Data tidak baik karena kesalahan manusia, kegagalan instrumen,
gangguan transmisi atau lainnya
 incomplete: data kosong (missing data), data terpotong (lacking value),
data simpulan umum (aggregate data)
 noisy: terkacaukan (noise), salah (errors), menyimpang (outliers),
janggal (absurd)
 inconsistent: berbeda nilai (discrepancies), berbeda standar pelabelan
(irregularities), berbeda field (deformities) misal usia vs tanggal lahir
 Intentional: nilai baku bawaan (default value), pengganti data kosong
(disguised missing data)
31
Data Cleaning
Preemptive:
Process architecture (memeriksa integritas data)
Process management (mengendalikan data entry, data sharing,
data stewards)
Retrospective:
Cleaning focus (menghapus-menggabungkan duplikasi data,
mencocokkan-mengoreksi inkonsistensi data, memadukan-
membakukan keragaman format data, menerka-menggantikan
missing data)
Diagnostic focus (deteksi otomatis gangguan).
32
Data Cleaning Tasks
Data acquisition
Metadata and reformatting
Fill in missing values
Unified date format
Converting nominal to numeric
Identify outliers and smooth out noisy data
Correct inconsistent data
33
Data Cleaning: Data Acquisition
Data yang tersimpan dalam sistem basisdata
Protokol ODBC – JDBC – OLE DB
Data yang tersimpan dalam file arff (attribute-relation file
format), csv (comma-separated values), dan lainnya
Format dengan fixed-column
Pemisahan dengan pembatas (delimiters) : tabulasi, spasi ganda,
titik”.”, koma “,” , titik koma “;”, simbol, dll
Peringatan: hati-hati konversi pembatas (delimiters) dalam data
berformat strings
Verifikasi banyaknya atribut data (fields) sebelum dan
sesudah data cleaning
34
Data Cleaning: Data Acquisition
35
Data Cleaning: Data Acquisition
36
Data Cleaning: Data Acquisition
37
Data Cleaning: Metadata
Mengenali atribut data (field)
Tipe atribut data (field types):
➢binary, nominal (categorical), ordinal, numeric, …
➢Untuk data nominal: diperlukan table untuk menerjemahkan kode ke deskripsi
lengkap yang menjelaskan kategori/kelas
Pemanfaatan atribut data (field role):
➢input : inputs for modeling
➢target : output
➢id/auxiliary : keep, but not use for modeling
➢ignore : don’t use for modeling
➢weight : instance weight
➢…
Deskripsi dari atribut data (field descriptions)
Konversi dan perbaiki format data ke format baku seragam.
38
Data Cleaning: Missing Data
Ignore the tuple: biasanya dilakukan bila pendugaan sesuai
klasifikasi tidak mungkin dilakukan.
Fill in the missing value manually: jika data mentah tersedia dan
tidak merepotkan.
Use a global constant to fill in the missing value: misalnya
“nihil”, “kosong”, “tidak tahu”, atau lainnya
Imputation: menggunakan nilai mean atau modus
Use the most probable value: metode inferensia misalnya
Bayesian formula, decision tree, regression
39
Data Cleaning: Date Format
Terdapat banyak date format yang digunakan
misalnya “Sep 24, 2003” , 9/24/03, 24.09.03, 24-09-2003
Bahkan terkadang tersimpan dalam string format
Tersimpan dengan rincian data yang berbeda
Beberapa tersimpan dalam tahun (YY) atau (YYYY) saja
Sebagian juga menyimpan bulan tanpa tanggal spesifik
Namun juga mungkin menyimpan sangat rinci sampai jam
Mentransformasikan semua tanggal dalam date format yang
sama atau numeric format :
Banyak hari sejak 01-01-1960
Rasio tahun = tahun + (hari ke / banyak hari dalam setahun)
40
Data Cleaning: Nominal Conversion
Keterbatasan pemodelan data, karena banyak model data
yang mempersyaratkan input data numerik
Konversi data nominal ke numerik, kerapkali hanya
memberikan pelabelan untuk pembedaan tanpa
menunjukkan urutan (order), tingkat (level) ataupun jarak
(distance).
Terdapat beberapa strategi konversi data nominal:
Binary → Numeric
Ordered → Numeric
Multi-valued → Numeric
41
Data Cleaning: Nominal Conversion
Conversion: binary → numeric
Jenis kelamin → 0 (perempuan) dan 1 (laki-laki)
Conversion: ordered → numeric
Nilai → 4 (A), 3 (B), 2 (C), 1 (D), 0 (E)
Cuaca → 4(cerah), 3(berawan), 2(mendung), 1(gerimis), 0(hujan)
Conversion: multi-valued → numeric
Warna → merah (R=1;B=0;Y=0), hijau (R=0;B=1;Y=1)
Alamat → kodepos
Jurusan keilmuan → nomenklatur keilmuan
Metode umum: compound key, group technology, hierarchical
classification
42
Data Cleaning: Noisy Data + Ouliers
Noise: deviasi atau variansi yang acak dari data pengukuran
Faktor penyebab penyimpangan nilai:
faulty data collection instruments
data entry problems
data transmission problems
technology limitation
inconsistency in naming convention
Masalah lain yang mempengaruhi noisy data:
duplicate records
incomplete data
inconsistent data
43
Data Cleaning: Noisy Data + Ouliers
44
Data Cleaning: Noisy Data + Ouliers
Combined computer and human inspection
 Mendeteksi dan memeriksa nilai data yang dicurigai
Binning method:
 Mengurutkan data dan membagi data dalam beberapa bins
➢Equal-width (distance) partitioning
➢Equal-depth (frequency) partitioning
 Memuluskan data dengan bin means atau bin median atau bin boundaries, dan
lain-lain.
Empirical distribution
 Membuat pemetaan distribusi frekuensi dari data
 Mendeteksi dan memeriksa posisi tiap objek data dengan:
➢Interquartile Range (batas Q1 dan Q3)
➢Confidence Interval dengan pendekatan distribusi normal
45
Data Cleaning: Noisy Data + Ouliers
Central tendency
 Menghitung dan memeriksa jarak (distance) tiap objek data dengan titik
pemusatan data mean, modus atau median
Curve fitting, regression atau interpolation
 Estimasi nilai dugaan data variabel terikat berbasis variabel bebasnya dengan
curve fitting, regression atau interpolation
 Menghitung dan memeriksa jarak (distance) antara nilai aktual dengan nilai
dugaan tiap objek data
Clustering
 Menentukan titik rujukan di tiap cluster
 Menghitung dan memeriksa jarak (distance) tiap objek data dengan masing-
masing titik rujukan di tiap cluster
46
Data Cleaning: Noisy Data + Ouliers
Binning method:
47
Equal-width (distance) partitioning
Equal-depth (frequency) partitioning
Data Cleaning: Noisy Data + Ouliers
Binning method:
 Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into (equal-width) bins:
- Bin 1 (4<x<14) : 4, 8, 9
- Bin 2 (14<x<24): 15, 21, 21
- Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34
 Smoothing by bin means:
- Bin 1: 7, 7, 7
- Bin 2: 19, 19, 19
- Bin 3: 272/3, 272/3, 272/3, 272/3, 272/3, 272/3
 Smoothing by bin boundaries:
- Bin 1: 4, 4, 14
- Bin 2: 14, 24, 24
- Bin 3: 24, 24, 24, 24, 34, 34
48
Data Cleaning: Noisy Data + Ouliers
Binning method:
 Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into (equal-depth) bins:
- Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15
- Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25
- Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34
 Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
 Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
49
Data Cleaning: Noisy Data + Ouliers
Empirical distribution
50
Data Cleaning: Noisy Data + Ouliers
Empirical distribution
51
Confidence Interval
Critical
Limit
Rejection
Area
Rejection
Area
Outliers
Data Cleaning: Noisy Data + Ouliers
52
x
3002
4570
15246
1581
2933
3427
4995
1940
2665
6618
1012
4635
585
6363
2689
3929
3892
2692
5252
4120
3193
543
4647
892
1341
3258
2645
5606
2235
1783
4648
x'
-0,24
0,34
4,29
-0,76
-0,26
-0,08
0,50
-0,63
-0,36
1,10
-0,97
0,37
-1,13
1,00
-0,35
0,11
0,09
-0,35
0,59
0,18
-0,17
-1,15
0,37
-1,02
-0,85
-0,14
-0,37
0,73
-0,52
-0,69
0,37
24
,
0
82
,
2706
13
,
3643
3002
'
82
,
2706
13
,
3643
−
=
−
=
=
=
x
s
x
x
Data Cleaning: Noisy Data + Ouliers
Empirical distribution
53
Data Cleaning: Noisy Data + Ouliers
Central Tendency
54
A deviation
indicates the
distance of data
object from the
mean
Outliers are extreme values
that differ from the mean
Outliers affect the measure of central
tendency, especially the mean
Data Cleaning: Noisy Data + Ouliers
55
x y
106 3002
174 4570
207 15246
232 1581
256 2933
257 3427
266 4995
274 1940
279 2665
310 6618
313 1012
326 4635
336 585
345 6363
356 2689
371 3929
396 3892
406 2692
418 5252
425 4120
439 3193
445 543
448 4647
489 892
528 1341
539 3258
550 2645
556 5606
560 2235
619 1783
696 4648
x' y' distance
-2,01 -0,24 2,03
-1,52 0,34 1,56
-1,28 4,29 4,47
-1,10 -0,76 1,34
-0,93 -0,26 0,97
-0,92 -0,08 0,93
-0,86 0,50 0,99
-0,80 -0,63 1,02
-0,76 -0,36 0,84
-0,54 1,10 1,22
-0,52 -0,97 1,10
-0,42 0,37 0,56
-0,35 -1,13 1,18
-0,29 1,00 1,04
-0,21 -0,35 0,41
-0,10 0,11 0,14
0,08 0,09 0,12
0,15 -0,35 0,38
0,24 0,59 0,64
0,29 0,18 0,34
0,39 -0,17 0,43
0,44 -1,15 1,23
0,46 0,37 0,59
0,75 -1,02 1,27
1,04 -0,85 1,34
1,12 -0,14 1,12
1,20 -0,37 1,25
1,24 0,73 1,44
1,27 -0,52 1,37
1,69 -0,69 1,83
2,25 0,37 2,28
Outlier
01
,
2
42
,
138
58
,
384
106
'
42
,
138
58
,
384
−
=
−
=
=
=
x
s
x
x
24
,
0
82
,
2706
13
,
3643
3002
'
82
,
2706
13
,
3643
−
=
−
=
=
=
y
s
y
y
03
,
2
)
0
24
,
0
(
)
0
01
,
2
(
distance 2
2
=
−
−
+
−
−
=
Data Cleaning: Noisy Data + Ouliers
Regression
56
Data Cleaning: Noisy Data + Ouliers
Regression
57
ε = y – ŷ
A residual or error
is the distance
between an
observed y and
the estimated ŷ
An outlier has extreme
residual, since it is far away
from the linear regression
approximation
Data Cleaning: Noisy Data + Ouliers
58
x y ŷ d d'
203 3267 3831 -564 -0,52
222 3368 3804 -436 -0,40
224 9214 3801 5413 4,97
224 3459 3801 -342 -0,31
232 3325 3789 -464 -0,43
234 3561 3787 -226 -0,21
248 3264 3766 -502 -0,46
248 3232 3766 -534 -0,49
254 3556 3758 -202 -0,19
271 3893 3733 160 0,15
280 3204 3720 -516 -0,47
310 3414 3677 -263 -0,24
319 3369 3664 -295 -0,27
331 3409 3647 -238 -0,22
347 3314 3624 -310 -0,28
365 3346 3598 -252 -0,23
365 3215 3598 -383 -0,35
366 3219 3596 -377 -0,35
371 3311 3589 -278 -0,26
388 3159 3564 -405 -0,37
389 3207 3563 -356 -0,33
411 3176 3531 -355 -0,33
414 2984 3527 -543 -0,50
414 3110 3527 -417 -0,38
416 3428 3524 -96 -0,09
421 3330 3517 -187 -0,17
427 3628 3508 120 0,11
439 3588 3491 97 0,09
466 3943 3452 491 0,45
489 4553 3419 1134 1,04
498 4530 3406 1124 1,03
Outlier
d
3831
)
203
4425
,
1
(
4124
ˆ
4425
,
1
4124
ˆ
1
0
1
0
=

−
+
=
−
=
=
+
=
y
a
a
x
a
a
y
52
,
0
52
,
1088
564
'
52
,
1088
0
564
3831
3267
−
=
−
=
=
=
=
−
=
−
=
d
d
s
d
d
s
d
d
Outliers
A distance represents the dissimilarity
each pair of data objects.
An outlier is
different from other
data objects. Most
its distances are
beyond the limit.
The data objects have high
similarity within a cluster and low
similarity between clusters
Data Cleaning: Noisy Data + Ouliers
Clustering
59
Data Discretization: Clustering
60
x y
203 3326
203 3728
222 3896
250 2823
251 3709
261 4186
265 3035
274 3991
281 3470
295 3376
342 5808
347 5781
348 5441
351 6010
352 5563
359 5951
360 5749
365 5925
371 5635
375 5891
450 1741
467 460
469 502
533 1278
558 3670
572 2326
573 3986
614 2799
616 2589
638 4489
616 2589
xcentroid ycentroid
251 1,25 3554 2,54
357 2,14 5775 4,13
549 3,74 2384 1,70
x' y' d1 d2 d3
0,86 2,38 0,43 2,17 2,96
0,86 2,66 0,41 1,95 3,04
0,89 0,18 2,39 4,14 3,23
1,02 2,78 0,34 1,75 2,93
1,25 2,02 0,52 2,29 2,51
1,26 2,65 0,11 1,72 2,66
1,34 2,99 0,46 1,39 2,72
1,38 2,17 0,39 2,10 2,41
1,45 2,85 0,37 1,45 2,56
1,51 2,48 0,26 1,76 2,36
1,63 2,41 0,39 1,79 2,23
2,02 4,15 1,78 0,13 2,99
2,06 4,13 1,78 0,08 2,95
2,07 3,89 1,57 0,25 2,75
2,09 4,29 1,94 0,17 3,07
2,10 3,97 1,67 0,16 2,80
2,16 4,25 1,94 0,13 3,00
2,17 4,11 1,81 0,03 2,87
2,21 4,23 1,94 0,13 2,96
2,26 4,03 1,79 0,15 2,76
2,29 4,21 1,97 0,17 2,89
2,92 1,24 2,11 2,98 0,94
3,06 0,33 2,85 3,91 1,53
3,08 0,36 2,84 3,88 1,50
3,61 0,91 2,86 3,53 0,80
3,82 2,62 2,56 2,25 0,92
3,93 1,66 2,82 3,05 0,20
3,94 2,85 2,71 2,21 1,16
4,28 2,00 3,08 3,02 0,62
4,30 1,85 3,12 3,14 0,58
4,48 3,21 3,30 2,52 1,68
86
,
0
85833
,
0
)
0
5
(
100
700
100
203
0
'
5
max
0
min
700
max
100
min

=
−
−
−
+
=
=
=
=
=
x
n
n
o
o
38
,
2
37571
,
2
)
0
5
(
0
7000
0
3326
0
'
5
max
0
min
7000
max
0
min

=
−
−
−
+
=
=
=
=
=
y
n
n
o
o
Outlier
d1
d2
d3
23
,
3
)
70
,
1
18
,
0
(
)
74
,
3
89
,
0
(
d3
14
,
4
)
13
,
4
18
,
0
(
)
14
,
2
89
,
0
(
d2
39
,
2
)
54
,
2
18
,
0
(
)
25
,
1
89
,
0
(
d1
2
2
2
2
2
2
=
−
+
−
=
=
−
+
−
=
=
−
+
−
=
Integrasi Data
(Data Integration)
61
Data Integration
Data integration:
Menggabungkan data dari banyak sumber ke penyimpanan data
yang koheren (coherent datastore)
Schema integration
mengintegrasikan metadata dari berbagai sumber berbeda
Problem identifikasi entitas: mengenali entitas dari berbagai sumber
data, misal: A.cust-id ≡ B.cust-#
Integrasi data dari banyak sumber berbeda perlu dilakukan
dengan hati-hati untuk mencegah/mengurangi data redundan
dan tak konsisten, sekaligus memperbaiki kecepatan dan
kualitas penambangan data
62
Data Integration
Mendeteksi dan menangani konflik nilai data
Pada sumber berbeda, deskripsi entitas yang sama dirinci dalam
atribut (field) yang banyaknya dan macamnya berbeda.
Pada entitas yang sama pada atribut yang sama namun di sumber
berbeda mempunyai nilai data berbeda
Faktor perbedaan:
➢perbedaan sudut pandang, misal: usia vs tanggal lahir
➢perbedaan representasi, misal: alamat di satu field vs alamat di banyak field
➢perbedaan tipe data, misal: gender dalam string vs dalam nominal numerik
➢perbedaan skala, misal: skala british vs skala metrik
63
Data Integration
Data redundan sangat mungkin terjadi saat mengambil data
dengan mengintegrasikan banyak sumber berbeda
Object identification: objek data sama yang tersimpan di sumber
data berbeda dengan nama tabel (entity class) berbeda, nama
atribut (field) berbeda, tipe (data type) berbeda, dan nilai (value)
berbeda
Derivable data: Satu atribut mungkin juga menjadi atribut turunan
(derived attribute) di tabel lainnya
Data redundan mungkin dapat terdeteksi dengan:
correlation analysis
independence test
covariance analysis
64
Data Integration: Data Join or Algebra
65
Inner Join vs Outer Join
   M
a b c #1
d e f #1
g h i #2
j k l #3
  M
A B #1
C D #1
E F #2
G H #2
I J #4
     M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
     M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
j k l #3
I J #4
Inner Join Outer Join
Atribut yang
dipergunakan
untuk
memeriksa
dugaan
redundansi
data
Data Integration: Data Join or Algebra
66
Natural Join vs Cross Join
   M
a b c #1
d e f #1
g h i #2
j k l #3
  M
A B #1
C D #1
E F #2
G H #2
I J #4
     M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
     M
a b c A B #1
a b c C D #1
a b c E F
a b c G H
a b c I J
d e f A B #1
d e f C D #1
d e f E F
d e f G H
d e f I J
dan seterusnya
Natural Join Cross Join
Atribut yang
dipergunakan
untuk
memeriksa
dugaan
redundansi
data
Data Integration: Hirarki Data
Aggregation Relation
67
Data Integration: Hirarki Data
Aggregation Relation
68
Data Integration: Hirarki Data
Categorization Relation (Incomplete)
69
Data Integration: Hirarki Data
Categorization Relation (complete)
70
Data Integration: key-based relation
Star Schema
71
Data Integration: key-based relation
Snowflake Schema
72
Data Integration: key-based relation
Fact Constellations
73
Data Integration: Correlation Analysis
74
Data Integration: Correlation Analysis
 Pearson’s r (product moment) correlation,
 Spearman’s  (rho) correlation,
 Kendall’s  (tau) correlation,
 Cronbach’s α (alpha) correlation,
 Blomqvist’s β (beta) correlation,
 Cramer’s  (nu) correlation,
 Moran’s  (iota) correlation,
 Shepherd’s  (pi) correlation,
 Hoeffding’s D correlation,
 Goodman and Kruskal’s  (lambda)
correlation,
 Goodman and Kruskal’s  (gamma)
correlation,
 Pearson’s C (contingency coeff) correlation,
 Pearson’s  (phi) correlation,
 Gaussian rank correlation,
 Biserial – Polyserial correlation,
 Tetrachoric – Polychoric correlation,
 Biweight midcorrelation,
 Distance correlation,
 Percentage bend correlation,
 Canonical correlation,
 Concordance correlation,
 Circular data correlation,
 Partial correlation,
 Multilevel correlation
Sumber : https://www.statisticssolutions.com/correlation-pearson-kendall-spearman/
https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/correlation-coefficient-formula/
https://www.ncss.com/software/ncss/correlation-in-ncss/
75
Data Integration: Correlation Analysis
Sumber: M. Allen. The SAGE Encyclopedia of Communication Research
Methods. Sage Publishing, 2017
https://methods.sagepub.com/images/virtual/the-sage-encyclopedia-of-
communication-research-methods/10.4135_9781483381411-table7.jpg
76
Data Integration: Correlation Analysis
77
Linear increasing non-decreasing
Linear decreasing non-increasing
chaotic random
Sumber:
https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-
statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and-
spearman-correlation-methods/
Data Integration: Pearson Correlation
Pearson correlation mengukur hubungan linier antara
dua variabel. Pearson correlation merupakan ukuran
korelasi statistik yang paling umum. Kadang-kadang
disebut product-moment correlation, the simple linear
correlation, or the simple correlation coefficient.
78
yy
xx
xy
xy
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
i
xy
S
S
S
r
y
y
n
x
x
n
y
x
y
x
n
r
=






−






−
−
=







=
=
=
=
=
=
=
2
1
2
1
2
2
1
2
1
2
1
1
1
where
rxy: Pearson Correlation Coefficient
n : number of observations
xi : value of i-th x
yi : value of i-th y
Data Integration: Spearman Correlation
Spearman’s  (rho) correlation adalah perhitungan
korelasi nonparametrik berdasarkan peringkat.
Kadang-kadang disebut dengan Spearman rank
correlation. Menjadi korelasi alternatif nonparametrik
untuk menggantikan Pearson correlation.
79
)
(
)
(
)
1
(
6
1 2
1
2
i
i
i
n
i
i
xy
y
R
x
R
d
n
n
d
−
=
−
−
=

=

where
ρxy: Spearman Correlation Coefficient
n : number of observations
di : the difference between the ranks of corresponding variables
R(xi): the ranks of i-th x
R(yi): the ranks of i-th y
Data Integration: Kendall Correlation
Kendall's  (tau) correlation merupakan korelasi
nonparametrik yang mengukur kekuatan asosiasi
antara dua variabel berdasarkan kombinasi pasangan
data. Dihitung dengan membandingkan selisih
pasangan data yang concordant (searah) dan
discordant (berlawanan). Jika ukuran sampel adalah
n, maka banyaknya pasangan adalah n(n-1) / 2.
80
)
1
(
2
1
−
−
=
n
n
n
n d
c
xy

where
τxy: Kendall Correlation Coefficient
n : number of observations
nc : number of concordant
nd : number of discordant
Data Integration: Covariance
Pearson correlation yang mengukur hubungan linier
antara dua variabel juga dapat diperoleh dari
covariance dari X dan Y yang dibagi dengan
perkalian simpangan baku X dan Y.
81
( )
y
x
xy
n
i
i
i
s
s
Y
X
Cov
r
n
y
y
x
x
Y
Y
X
X
E
Y
X
Cov
)
,
(
1
)
)(
(
)
)(
(
)
,
( 1
=
−
−
−
=
−
−
=

=
where
rxy: Pearson Correlation Coefficient
n : number of observations
xi : value of i-th x
yi : value of i-th y
Cov(X,Y): covariance of x and y
Data Integration: Dot Product
Pearson correlation yang mengukur hubungan linier
antara dua variabel juga dapat diperoleh dari dot
product dari X' dengan Y' sebagai vektor. Di mana
X' dan Y' diperoleh dari normalisasi Z dari X dan Y.
82
1
'
'
'
'
−
•
=
−
=
−
=
n
Y
X
r
s
x
y
y
s
x
x
x
xy
y
i
i
x
i
i where
rxy: Pearson Correlation Coefficient
n : number of observations
xi' : value of i-th x
yi : value of i-th y
Contoh: Analisis Korelasi
83
Analisis Korelasi: Pearson
84
No x y x2 y2 x.y
1 2 9,95 4 99,0025 19,90
2 8 24,45 64 597,8025 195,60
3 11 31,75 121 1008,0625 349,25
4 10 35,00 100 1225,0000 350,00
5 8 25,02 64 626,0004 200,16
6 4 16,86 16 284,2596 67,44
7 2 14,38 4 206,7844 28,76
8 2 9,60 4 92,1600 19,20
9 9 24,35 81 592,9225 219,15
10 8 27,50 64 756,2500 220,00
11 4 17,08 16 291,7264 68,32
12 11 37,00 121 1369,0000 407,00
13 12 41,95 144 1759,8025 503,40
14 2 11,66 4 135,9556 23,32
15 4 21,65 16 468,7225 86,60
16 4 17,89 16 320,0521 71,56
17 20 69,00 400 4761,0000 1380,00
18 1 10,30 1 106,0900 10,30
19 10 34,93 100 1220,1049 349,30
20 15 46,59 225 2170,6281 698,85
21 15 44,88 225 2014,2144 673,20
22 16 54,12 256 2928,9744 865,92
23 17 56,63 289 3206,9569 962,71
24 6 22,13 36 489,7369 132,78
25 5 21,15 25 447,3225 105,75
Total 206 725,82 2396 27178,5316 8008,47
( ) ( )
( ) ( )
9818
,
0
67
,
526814
29
,
679463
42436
59900
92
,
149518
75
,
200211
82
,
725
)
5316
,
27178
25
(
206
)
2396
25
(
)
82
,
725
206
(
)
47
,
8008
25
(
2
2
2
2
2
2
=
−
−
−
=
−

−


−

=
−
−
−
=







i
i
i
i
i
i
i
i
xy
y
y
n
x
x
n
y
x
y
x
n
r
Analisis Korelasi: Spearman
85
No x y R(x) R(y) d d2
1 2 9,95 3,5 2 1,5 2,25
2 8 24,45 13 13 0 0
3 11 31,75 18,5 16 2,5 6,25
4 10 35,00 16,5 18 -1,5 2,25
5 8 25,02 13 14 -1 1
6 4 16,86 7,5 6 1,5 2,25
7 2 14,38 3,5 5 -1,5 2,25
8 2 9,60 3,5 1 2,5 6,25
9 9 24,35 15 12 3 9
10 8 27,50 13 15 -2 4
11 4 17,08 7,5 7 0,5 0,25
12 11 37,00 18,5 19 -0,5 0,25
13 12 41,95 20 20 0 0
14 2 11,66 3,5 4 -0,5 0,25
15 4 21,65 7,5 10 -2,5 6,25
16 4 17,89 7,5 8 -0,5 0,25
17 20 69,00 25 25 0 0
18 1 10,30 1 3 -2 4
19 10 34,93 16,5 17 -0,5 0,25
20 15 46,59 21,5 22 -0,5 0,25
21 15 44,88 21,5 21 0,5 0,25
22 16 54,12 23 23 0 0
23 17 56,63 24 24 0 0
24 6 22,13 11 11 0 0
25 5 21,15 10 9 1 1
Total 206 725,82 425 425 0 48,5
( )
9813
,
0
15600
291
1
)
1
25
(
25
)
5
,
48
6
(
1
1
6
1
2
2
2
=
−
=
−


−
=
−
−
=

n
n
di
xy

Analisis Korelasi: Kendall
86
i x y
1 2 9,95
2 8 24,45 +
3 11 31,75 + +
4 10 35,00 + + –
5 8 25,02 + 0 + +
6 4 16,86 + + + + +
7 2 14,38 0 + + + + +
8 2 9,60 0 + + + + + 0
9 9 24,35 + – + + – + + +
10 8 27,50 + 0 + + 0 + + + –
11 4 17,08 + + + + + 0 + + + +
12 11 37,00 + + 0 + + + + + + + +
13 12 41,95 + + + + + + + + + + + +
14 2 11,66 0 + + + + + 0 0 + + + + +
15 4 21,65 + + + + + 0 + + + + 0 + + +
16 4 17,89 + + + + + 0 + + + + 0 + + + 0
17 20 69,00 + + + + + + + + + + + + + + + +
18 1 10,30 – + + + + + + – + + + + + + + + +
19 10 34,93 + + – 0 + + + + + + + + + + + + + +
20 15 46,59 + + + + + + + + + + + + + + + + + + +
21 15 44,88 + + + + + + + + + + + + + + + + + + + 0
22 16 54,12 + + + + + + + + + + + + + + + + + + + + +
23 17 56,63 + + + + + + + + + + + + + + + + + + + + + +
24 6 22,13 + + + + + + + + + + + + + + + + + + + + + + +
25 5 21,15 + + + + + + + + + + + + + + – + + + + + + + + +
j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
( )
( )
8867
,
0
300
266
)
1
25
(
25
8
274
)
1
(
2
1
2
1
=
=
−

−
=
−
−
=
n
n
n
n D
C
xy

Concordant (+) if (Xi-Xj)(Yi-Yj) > 0 ➔274
Discordant (–) if (Xi-Xj)(Yi-Yj) < 0 ➔ 8
Independent (0) if (Xi-Xj)(Yi-Yj) = 0 ➔ 18
Kovarian
87
No x y δx δy δ2x δ2y δx.δy
1 2 9,95 -6,24 -19,08 38,9376 364,1533 119,0767
2 8 24,45 -0,24 -4,58 0,0576 21,0021 1,0999
3 11 31,75 2,76 2,72 7,6176 7,3832 7,4995
4 10 35,00 1,76 5,97 3,0976 35,6075 10,5023
5 8 25,02 -0,24 -4,01 0,0576 16,1026 0,9631
6 4 16,86 -4,24 -12,17 17,9776 148,1771 51,6127
7 2 14,38 -6,24 -14,65 38,9376 214,7045 91,4335
8 2 9,60 -6,24 -19,43 38,9376 377,6337 121,2607
9 9 24,35 0,76 -4,68 0,5776 21,9286 -3,5589
10 8 27,50 -0,24 -1,53 0,0576 2,3495 0,3679
11 4 17,08 -4,24 -11,95 17,9776 142,8694 50,6799
12 11 37,00 2,76 7,97 7,6176 63,4763 21,9895
13 12 41,95 3,76 12,92 14,1376 166,8541 48,5687
14 2 11,66 -6,24 -17,37 38,9376 301,8142 108,4063
15 4 21,65 -4,24 -7,38 17,9776 54,5057 31,3031
16 4 17,89 -4,24 -11,14 17,9776 124,1620 47,2455
17 20 69,00 11,76 39,97 138,2976 1597,3771 470,0143
18 1 10,30 -7,24 -18,73 52,4176 350,9178 135,6255
19 10 34,93 1,76 5,90 3,0976 34,7770 10,3791
20 15 46,59 6,76 17,56 45,6976 308,2553 118,6867
21 15 44,88 6,76 15,85 45,6976 251,1337 107,1271
22 16 54,12 7,76 25,09 60,2176 629,3676 194,6767
23 17 56,63 8,76 27,60 76,7376 761,6054 241,7515
24 6 22,13 -2,24 -6,90 5,0176 47,6486 15,4623
25 5 21,15 -3,24 -7,88 10,4976 62,1385 25,5403
Total 206 725,82 698,5600 6105,9447 2027,7132
rerata 8,24 29,0328
4881
,
84
1
25
7132
,
2027
)
,
(
1
1
)
)(
(
)
,
( 1
=
−
=
−
=
−
−
−
=

=
Y
X
Cov
n
S
n
y
y
x
x
Y
X
Cov
xy
n
i
i
i
1067
,
29
1
25
5600
,
698
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
x
xx
n
i
i
x
s
n
S
n
x
x
s
4144
,
254
1
25
9447
,
6105
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
y
yy
n
i
i
y
s
n
S
n
y
y
s
9818
,
0
4144
,
254
1067
,
29
4881
,
84
)
,
(
=

=
=
xy
y
x
xy
r
s
s
Y
X
Cov
r
Dot Product
88
No x y x' y' x'y'
1 2 9,95 -1,1566 -1,1964 1,3838
2 8 24,45 -0,0445 -0,2873 0,0128
3 11 31,75 0,5116 0,1704 0,0871
4 10 35,00 0,3262 0,3741 0,122
5 8 25,02 -0,0445 -0,2516 0,0112
6 4 16,86 -0,7859 -0,7632 0,5998
7 2 14,38 -1,1566 -0,9186 1,0625
8 2 9,60 -1,1566 -1,2183 1,4091
9 9 24,35 0,1409 -0,2936 -0,0414
10 8 27,50 -0,0445 -0,0961 0,0043
11 4 17,08 -0,7859 -0,7494 0,5889
12 11 37,00 0,5116 0,4995 0,2555
13 12 41,95 0,6969 0,8098 0,5644
14 2 11,66 -1,1566 -1,0892 1,2598
15 4 21,65 -0,7859 -0,4629 0,3638
16 4 17,89 -0,7859 -0,6986 0,549
17 20 69,00 2,1798 2,5057 5,4619
18 1 10,30 -1,342 -1,1744 1,5761
19 10 34,93 0,3262 0,3697 0,1206
20 15 46,59 1,253 1,1007 1,3792
21 15 44,88 1,253 0,9935 1,2449
22 16 54,12 1,4384 1,5728 2,2623
23 17 56,63 1,6237 1,7302 2,8093
24 6 22,13 -0,4152 -0,4328 0,1797
25 5 21,15 -0,6005 -0,4942 0,2968
Total 206 725,82 23,5635
rerata 8,24 29,0328
9818
,
0
1
25
5635
,
23
1
'
'
=
−
=
−
•
=
n
Y
X
rxy
1067
,
29
1
25
5600
,
698
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
x
xx
n
i
i
x
s
n
S
n
x
x
s
4144
,
254
1
25
9447
,
6105
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
y
yy
n
i
i
y
s
n
S
n
y
y
s
y
i
i
x
i
i
s
x
y
y
s
x
x
x
−
=
−
= '
'
Data Integration: Chi-Square Test
Chi-square test merupakan uji independensi dua
(atau lebih) metode klasifikasi yang terpetakan dalam
tabel kontingensi dua arah (atau lebih). Jika statistik
uji chi-square lebih besar dari batas kritis, maka
disimpulkan tiada independensi alias ada interaksi
antara kedua metode klasifikasi.
89

 
= =
= =
−
=
=
r
i
c
j ij
ij
ij
r
i
c
j
ij
ij
ij
E
E
O
n
O
O
E
1 1
2
2
1 1
)
(

where
Oij: observed frequency
Eij: expected fequency
n : number of observations
r : number of rows
c : number of columns
Contoh: Chi-Square Test
90
Chi-Square Test
91
Chi-Square Test
92
Chi-Square Test
93
Reduksi Data
(Data Reduction)
94
Latar Belakang
 Basisdata menyimpan data berukuran terabyte.
 Analisis data yang kompleks akan membutuhkan waktu yang sangat
lama untuk dijalankan pada kumpulan data yang lengkap.
 Lebih banyak atribut tidak berarti lebih sukses dalam proses
penambangan data.
 Bekerja dengan atribut yang lebih sedikit mengurangi kerumitan
masalah dan waktu pengerjaan.
 Dengan atribut yang lebih sedikit, kemampuan generalisasi meningkat.
 Nilai untuk atribut tertentu mungkin sulit dan mahal untuk didapatkan.
95
Data Reduction
Data reduction
Obtains a reduced representation of the data set that is much
smaller in volume but yet produces the same (or almost the same)
analytical results
Data reduction strategies
Data cube aggregation
Dimensionality reduction
Numerosity reduction
Data compression
96
Data Cube Aggregation
97
Data Cube Aggregation
98
Complete
Set of
Features
Empty
Set of
Features
Data Cube Aggregation
99
{}
{1} {2} {3} {4}
{1,3} {2,3} {1,4} {2,4}
{1,2} {3,4}
{1,2,3} {1,2,4} {1,3,4} {2,3,4}
{1,2,3,4}
Data Cube Aggregation
100
Data Cube Aggregation
Level terrendah aggregation di data cube
Data ter-aggregate untuk entitas individu yang diamati
misalnya, pelanggan dalam data warehouse tentang panggilan
telepon.
Level jamak aggregation di data cube
Mengurangi lebih lanjut ukuran data yang perlu ditangani
Merujuk level yang sesuai
Menggunakan representasi terkecil yang cukup untuk
menyelesaikan tugas
Queries berdasarkan informasi ter-aggregate dengan data
cube jika memungkinkan
101
Dimensionality Reduction
 Problem dimensionality
 Ketika dimensionality bertambah, data di setiap dimensi semakin jarang
 Kerapatan dan jarak antar data points, yang kritis dalam clustering, menyebabkan
analisis outlier menjadi kurang berarti
 Kombinasi subgrup yang memungkinkan bertambah tumbuh secara eksponensial
 Dimensionality reduction
 Mengurangi problem dimensionality
 Mengeliminasi fitur/atribut yang tidak relevan dan mereduksi noise
 Mereduksi waktu dan ruang yang diperlukan dalam penambangan data
 Mempermudah visualization
102
Dimensionality Reduction
 Teknik dimensionality reduction
 Wavelet transforms
 Principal Component Analysis
 Supervised and nonlinear techniques (e.g., feature selection)
 Heuristic methods:
 step-wise forward selection / step-wise best feature selection
 step-wise backward elimination / step-wise worst attribute elimination
 combining forward selection and backward elimination
 branch and bound elimination and backtracking
 decision-tree induction
103
Dimensionality Reduction
104
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
B 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
C 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
D 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
E 0 1 0 0 0 1 1 0 1 1 0 0 0 0 1 0
F 1 1 1 0 1 1 0 0 1 0 1 0 0 1 0 0
V
ar. 5
V
ar. 1. V
ar. 13
Dimensionality Reduction: Feature Selection
 Feature selection (misalnya: seleksi atribut):
 Menyeleksi fitur minimal yang mungkin di mana distribusi probabilitas dengan
dengan fitur terbatas tersebut mempunyai nilai yang mendekati distribusi
probabilitas awal dengan fitur lengkap.
 Menemukan subset dari atribut/fitur/variabel dari kumpulan data yang
mengoptimalkan probabilitas keberhasilan dalam penambangan data.
 Mengurangi noise yang menimbulkan pola dalam pola, agar lebih mudah
dipahami
 Feature selection outcomes:
 Less data → algorithms could learn quickly
 Higher accuracy → the algorithm better generalizes
 Simpler results → easier to understand them
105
Dimensionality Reduction: Feature Selection
 Feature selection:
 Terdapat 2d sub-fitur yang mungkin dari fitur sebanyak d
 Dimulai dengan menghilangkan atribut yang tidak relevan (tidak bermanfaat untuk
model informasi dari insight ), atribut redundan (sebagian besar atau semua tuple
sama dengan atribut lainnya), serta atribut homogen (tidak mempunyai variabilitas
atau sedikit variabilitas).
 Feature selection:
 Filter. Goal Function mengevaluasi himpunan bagian berdasarkan informasi yang
dikandungnya. Ukuran separasi kelas, dependensi statistik, teori informasi,…
digunakan sebagai fungsi tujuan.
 Wrapper. Goal Function terdiri dari penerapan teknik pembelajaran yang sama
yang akan digunakan kembali pada data hasil pemilihan fitur. Nilai yang
dikembalikan biasanya sesuai tingkat akurasi dari klasifikasi yang terbangun.
106
Dimensionality Reduction: Feature Selection
Filter
 Advantages:
 Fast: They usually compute
frequencies, much quicker than training
a classifier.
 Generality: Due to they evaluate
intrinsic properties of the data and not
their interaction with a classifier, they
can be used in any problem.
 Drawbacks:
 Trend to include many variables:
Normally, it is due to the fact that there
are monotone features in the goal
function used.
Wrapper
 Advantages:
 Accuracy: generally, they are more
accurate than filters, due to the
interaction between the classifier used
in the goal function and the training
data set.
 Generalization capability: they
pose capacity to avoid overfitting due to
validation techniques employed.
 Drawbacks:
 Very costly: for each evaluation, it is
required to learn and validate a model.
It is prohibitive to complex classifiers.
 Ad-hoc solutions: The solutions are
skewed towards the used classifier.
107
Dimensionality Reduction: Feature Selection
108
Dimensionality Reduction: Decision-Tree Induction
109
Initial attribute set:
{A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 2
Class 1 Class 1 Class 2
> Reduced attribute set: {A1, A4, A6}
Dimensionality Reduction: Wavelet Transform
Mendekomposisi sinyal menjadi beberapa frequency
subbands yang berbeda. Diaplikasikan pada n-dimensional
signals.
Data ditransformasikan untuk mempertahankan jarak relatif
antar objek pada level resolusi yang berbeda.
Menggunakan klaster alami agar lebih mudah dibedakan
Digunakan untuk image compression
110
Dimensionality Reduction: Wavelet Transform
111
8000 points
2000 points
500 points
Dimensionality Reduction: Wavelet Transform
Wavelets: A math tool for space-efficient hierarchical
decomposition of functions
S = [2, 2, 0, 2, 3, 5, 4, 4] dapat ditransformasikan menjadi
S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0]
Compression: banyak koefisien detail kecil dapat diganti
dengan 0, dan hanya koefisien signifikan yang dipertahankan
112
Dimensionality Reduction: Wavelet Transform
113
2 2 0 2 3 5 4 4
-1.25
2.75
0.5 0
0 -1 0
-1
+
-
+
+
+ + +
+
+
- -
- - - -
+
-
+
+ -
+ -
+-
+-
-
+
+-
-1
-1
0.5
0
2.75
-1.25
0
0
Original frequency distribution
Hierarchical
decomposition
structure (a.k.a.
“error tree”)
Coefficient “Supports”
Dimensionality Reduction: PrincipalComponentAnalysis
Mencari proyeksi yang menangkap variasi data terbanyak
Data asli diproyeksikan pada ruang yang jauh lebih sempit
untuk menghasilkan dimensionality reduction. Menggunakan
eigenvectors dari covariance matrix untuk menentukan ruang
data yang baru
114
Dimensionality Reduction: PrincipalComponentAnalysis
 Berdasarkan N vektor data dari n-dimensi, mencari k (≤ n) vektor
ortogonal (sebagai principal components) yang dapat digunakan
merepresentasikan data.
 Menormalisasikan data input: Setiap atribut berada dalam rentang yang sama
 Menghitung k vektor ortogonal (sebagai principal components)
 Setiap data input (sebagai vektor) merupakan kombinasi linier dari k principal
component vectors
 Principal components diurutkan berdasarkan penurunan signifikansi
 Setelah principal components diurutkan, banyaknya data dapat dikurangi dengan
menghilangkan principal components yang lemah.
 Hanya dapat dipergunakan pada data numerik.
115
Numerosity Reduction
Mengurangi volume data dengan alternatif pemilihan untuk
menghasilkan representasi data yang lebih sedikit.
Parametric methods (e.g., regression)
Berasumsi data sesuai model tertentu, mengestimasikan parameter
model, menyimpan parameter dari model menggantikan data
Misalnya: regresi linier, regresi polinomial, regresi non-linier: log-
linear model, exponential model, power model, logistic model,
saturation growth model,
Non-parametric methods
Tanpa asumsi model tertentu
Menggunakan: histograms, clustering, sampling, …
116
Numerosity Reduction: Regression Analysis
Regression analysis: teknik analisis dan pemodelan data
numerik yang terdiri dari variabel terikat (dependent variable,
response variable or effect) dan variabel bebas (independent
variables, explanatory variables or predictors)
Mengestimasikan parameter untuk memperoleh model yang
paling mendekati deskripsi data
Metode yang paling umum digunakan mengevaluasi
kesesuaian model adalah least squares method. Meskipun
demikian kriteria lainnya juga terkadang digunakan
Digunakan untuk inferensi dan prediksi hubungan kausal
117
Numerosity Reduction: Regression Analysis
Regresi Linier : y = a0 + a1.x
Regresi Polinomial : y = a0 + a1.x + a2.x2 + a3.x3 + ...
Regresi Nonlinier
Regresi Berganda : y = a0 + a1.x1 + a2.x2 + a3.x3 + ...
Regresi model gabungan
118
Numerosity Reduction: Regression Analysis
119
x y
203 3267
222 3368
224 3459
232 3325
234 3561
248 3264
248 3232
254 3556
271 3893
280 3204
310 3414
319 3369
331 3409
347 3314
365 3346
365 3215
366 3219
371 3311
388 3159
389 3207
411 3176
414 2984
414 3110
416 3428
421 3330
427 3628
439 3588
466 3943
489 4553
498 4530
xmin xmax a0 a1
203 280 2862,817 2,2767
310 389 4304,515 -2,8392
411 498 -3577,94 16,3935
y = a0 + a1.x 30 tuples 2 attributes → 3 tuples 4 attributes
60 data → 12 data
Numerosity Reduction: Histogram
Mengelompokkan data dalam beberapa kelas, selanjutnya
menyimpan nilai acuan (mean, median, sum, boundary) dan
frekuensinya untuk setiap kelas
Aturan partisi pembagian kelas:
Equal-width: equal bucket range
Equal-frequency (or equal-depth)
120
Numerosity Reduction: Histogram
121
Class Freq
70 < x < 90 2
90 < x < 110 3
110 < x < 130 6
130 < x < 150 14
150 < x < 170 22
170 < x < 190 17
190 < x < 210 10
210 < x < 230 4
230 < x < 250 2
Xmin Xmax Fr
70 90 2
90 110 3
110 130 6
130 150 14
150 170 22
170 190 17
190 210 10
210 230 4
230 250 2
Mid Fr
80 2
100 3
120 6
140 14
160 22
180 17
200 10
220 4
240 2
80 data → 27 data
→ 18 data
Numerosity Reduction: Clustering
Mengelompokkan data dalam beberapa cluster berdasarkan
similarity, selanjutnya menyimpan representasi cluster
(misalnya titik pusat dan diameter)
Sangat efektif saat data terpolarisasi dalam beberapa cluster,
namun sangat susah saat data tersebar acak dan tercampur
Dapat menggunakan hierarchical clustering dan disimpan
dalam multi-dimensional index tree structures
Terdapat banyak metode dan
algoritma clustering
122
Numerosity Reduction: Clustering
123
x y
203 3326
203 3728
222 3896
250 2823
251 3709
261 4186
265 3035
274 3991
281 3470
295 3376
342 5808
347 5781
348 5441
351 6010
352 5563
359 5951
360 5749
365 5925
371 5635
375 5891
450 1741
467 460
469 502
533 1278
558 3670
572 2326
573 3986
614 2799
616 2589
638 4489
xcentroid ycentroid Δx Δy
251 3554 92 1363
357 5775 33 569
549 2384 188 4029
30 tuples 2 attributes → 3 tuples 4 attributes
60 data → 12 data
Numerosity Reduction: Sampling
Memilih secara acak sebagian data sejumlah n dari
keseluruhan data sebanyak N, selanjutnya menggunakannya
sebagai representasi.
Sampling tidak mengurangi data yang tersimpan di
basisdata, melainkan hanya memanggil sebagian data yang
terpilih sebagai sampel.
Disarankan menggunakan metode stratified sampling.
Terlebih dahulu data dikelompokkan dalam beberapa strata
berdasarkan kategori atau jenjang intervalnya, selanjutnya
diambil sampel acak dari setiap strata secara proporsional
atau nonproporsional
124
Numerosity Reduction: Sampling
125
Sumber : Saunders, M, Lewis, P & Thornhill, A. (2009). Research Methods for business students, fifth edition (pp. 210-251).
Harlow England: Pearson Education.
Numerosity Reduction: Sampling
126
Sumber : Smith, T. (2009). Critical Appraisal of Quantitative and Qualitative Research Literature, The Radiographer 56(3),
(pp. 6-10).Australian Institute of Radiography.
Numerosity Reduction: Sampling
127
Numerosity Reduction: Sampling
128
Numerosity Reduction: Sampling
129
Numerosity Reduction: Sampling
130
Numerosity Reduction: Prototype Selection
Prototype selection atau Instance based learning adalah
mengambil acak sebagian data yang relevan dengan
pemodelan untuk memperoleh hasil maksimum. Prototype
selection menggunakan algoritma penambangan data
Direction of the search: Incremental, decremental, batch,
hybrid or fixed.
Selection type: Condensation, Edition, Hybrid.
Evaluation type: Filter or wrapper.
131
Numerosity Reduction: Prototype Selection
132
Training
Data Set
(TR)
Test
Data Set
(TS)
Instances
Selected (S)
Prototype
Selection
Algorithm
Instance-based
Classifier
Numerosity Reduction: Prototype Selection
133
Data Compression
String compression
There are extensive theories and well-tuned algorithms
Typically lossless, but only limited manipulation is possible without
expansion
Audio/video compression
Typically lossy compression, with progressive refinement
Sometimes small fragments of signal can be reconstructed without
reconstructing the whole
Time sequence is not audio
Typically short and vary slowly with time
Dimensionality and numerosity reduction may also be
considered as forms of data compression
134
Data Compression
135
Original Data Compressed
Data
lossless
Original Data
Approximated
Transformasi Data
(Data Transformation)
136
Data Transformation
Data transformation
 Memetakan seluruh nilai awal atribut digantikan nilai baru atribut.
 Setiap nilai awal dapat teridentifikasi oleh satu nilai baru.
Data transformation methods:
Smoothing: menghilangkan noise dari data
Aggregation: ringkasan, rekapitulasi, konstruksi data cube
Generalization: dinaikkan ke hirarki konsep yang lebih tinggi
Normalization: memakai skala lebih kecil dalam rentang spesifik
➢min-max normalization : interpolation or extrapolation
➢z-score normalization : standardized normal distribution
➢normalization by decimal scaling : equivalent conversion [0,1]
Attribute/feature construction
➢Atribut baru terkonstruksi dengan aturan yang ditentukan
➢Linear transformations, quadratic, polynomial, …
137
Data Transformation
min-max normalization : interpolation or extrapolation
z-score normalization : standardized normal distribution
normalization by decimal scaling : equivalent conversion [0,1]
zero set to origin
zero set to minimum value
138
)
_
_
(
_
' min
new
max
new
min
max
min
v
min
new
v −
−
−
+
=


−
=
v
v'
j
v
v
10
'= Where j is the smallest integer such that Max(|ν’|) < 1
min
max
min
v
v
−
−
=
'
Data Transformation: min-max normalization
139
x y x' y'
203 3326 0,86 2,38
203 3728 0,86 2,66
222 3896 1,02 2,78
250 2823 1,25 2,02
251 3709 1,26 2,65
261 4186 1,34 2,99
265 3035 1,38 2,17
274 3991 1,45 2,85
281 3470 1,51 2,48
295 3376 1,63 2,41
342 5808 2,02 4,15
347 5781 2,06 4,13
348 5441 2,07 3,89
351 6010 2,09 4,29
352 5563 2,10 3,97
359 5951 2,16 4,25
360 5749 2,17 4,11
365 5925 2,21 4,23
371 5635 2,26 4,03
375 5891 2,29 4,21
450 1741 2,92 1,24
467 460 3,06 0,33
469 502 3,08 0,36
533 1278 3,61 0,91
558 3670 3,82 2,62
572 2326 3,93 1,66
573 3986 3,94 2,85
614 2799 4,28 2,00
616 2589 4,30 1,85
638 4489 4,48 3,21
nilai x :
min = 100 dan max = 700
min_new = 0 dan max_new = 5
nilai y :
min = 0 dan max = 7000
min_new = 0 dan max_new = 5
86
,
0
85833
,
0
'
)
0
5
(
100
700
100
203
0
'

=
−
−
−
+
=
x
x
38
,
2
37571
,
2
'
)
0
5
(
0
7000
0
3326
0
'

=
−
−
−
+
=
y
y
Data Transformation: z-score normalization
140
x y x' y'
203 3326 -1,38 -0,35
203 3728 -1,38 -0,11
222 3896 -1,23 -0,01
250 2823 -1,02 -0,66
251 3709 -1,02 -0,12
261 4186 -0,94 0,17
265 3035 -0,91 -0,53
274 3991 -0,84 0,05
281 3470 -0,79 -0,26
295 3376 -0,68 -0,32
342 5808 -0,33 1,15
347 5781 -0,29 1,14
348 5441 -0,28 0,93
351 6010 -0,26 1,28
352 5563 -0,25 1,00
359 5951 -0,20 1,24
360 5749 -0,19 1,12
365 5925 -0,15 1,22
371 5635 -0,11 1,05
375 5891 -0,08 1,20
450 1741 0,49 -1,31
467 460 0,62 -2,09
469 502 0,63 -2,06
533 1278 1,11 -1,59
558 3670 1,30 -0,14
572 2326 1,41 -0,96
573 3986 1,42 0,05
614 2799 1,72 -0,67
616 2589 1,74 -0,80
638 4489 1,91 0,35
nilai x :
mean = 385,5
std deviation = 132,466
nilai y :
mean = 3904,467
std deviation = 1651,079
38
,
1
37771
,
1
'
466
,
132
5
,
385
203
'
−

−
=
−
=
x
x
35
,
0
35036
,
0
'
079
,
1651
467
,
3904
3326
'
−

−
=
−
=
y
y
Data Transformation: decimal scaling
141
x y x' y'
203 3326 0,17 0,48
203 3728 0,17 0,53
222 3896 0,20 0,56
250 2823 0,25 0,40
251 3709 0,25 0,53
261 4186 0,27 0,60
265 3035 0,28 0,43
274 3991 0,29 0,57
281 3470 0,30 0,50
295 3376 0,33 0,48
342 5808 0,40 0,83
347 5781 0,41 0,83
348 5441 0,41 0,78
351 6010 0,42 0,86
352 5563 0,42 0,79
359 5951 0,43 0,85
360 5749 0,43 0,82
365 5925 0,44 0,85
371 5635 0,45 0,81
375 5891 0,46 0,84
450 1741 0,58 0,25
467 460 0,61 0,07
469 502 0,62 0,07
533 1278 0,72 0,18
558 3670 0,76 0,52
572 2326 0,79 0,33
573 3986 0,79 0,57
614 2799 0,86 0,40
616 2589 0,86 0,37
638 4489 0,90 0,64
nilai x :
min = 100 dan max = 700
nilai y :
min = 0 dan max = 7000
17
,
0
17167
,
0
'
100
700
100
203
'

=
−
−
=
x
x
48
,
0
47514
,
0
'
0
7000
0
3326
'

=
−
−
=
y
y
Diskritisasi Data
(Data Discretization)
142
Data Discretization
Discretization
Mengurangi banyaknya ragam nilai dari atribut, terutama data
kontinyu dengan memecahnya dalam beberapa interval.
Label interval dapat digunakan menggantikan nilai aktual atribut.
Discretization methods:
Menggunakan distribusi frekuensi untuk mengelompokkan nilai
kontinyu (atau diskrit rentang lebar) sesuai interval kelasnya
Klasifikasi nilai terklaster dalam kelas kategori nominal.
Concept hierarchy climbing
Mengurangi ragam nilai data dengan mengelompokkan dan
mengganti hirarki konsep rendah ke yang lebih tinggi.
143
Data Discretization
144
Data Discretization
Discretization dikembangkan beberapa jalur sesuai kebutuhan:
Supervised vs. unsupervised: Apakah mempertimbangkan atribut
(field) sasaran?
Dinamical vs. Static: Apakah simultan saat model dibangun?
Local vs. Global: Apakah memperhatikan sebagian atau semua data
(tuple atau instance)?
Top-down vs. Bottom-up: Apakah daftar cut point dimulai dari
kosong (lalu ditambah satu persatu) atau banyak (lalu digabung
sebagian dan sebagian)?
Direct vs. Incremental: Apakah keputusan secara serentak bersama
atau satu persatu?
145
Data Discretization
146
Data Discretization
Discretization methods:
Binning
Klasifikasi dan kategorisasi
Histogram atau distribusi frekuensi
Tabel kontingensi
Analisa klaster
Menaikkan hirarki konsep lebih tinggi
147
Data Discretization: Binning
Binning method:
 Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into (equal-width) bins:
- Bin 1 (4<x<14) : 4, 8, 9
- Bin 2 (14<x<24): 15, 21, 21 → 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3
- Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34
 Partition into (equal-depth) bins:
- Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15
- Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25 → 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3
- Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34
148
Data Discretization: Classification
149
Data Discretization: Classification
150
Data Discretization: Classification
151
Klasifikasi usia sebagai berikut:
1) Masa Balita: 0–5 Tahun;
2) Masa Kanak-Kanak: 5–11 Tahun;
3) Masa Remaja: 12–25 Tahun;
4) Masa Dewasa: 26–45 Tahun;
5) Masa Lansia: 46–lebih Tahun
Data Discretization: Histogram
152
Class Fr
70 < x < 90 2
90 < x < 110 3
110 < x < 130 6
130 < x < 150 14
150 < x < 170 22
170 < x < 190 17
190 < x < 210 10
210 < x < 230 4
230 < x < 250 2
2 8 6 6 3 6 6 4
2 5 5 6 3 5 5 4
9 8 6 7 6 5 6 3
5 4 5 3 5 7 5 4
7 6 7 7 7 4 5 3
4 6 1 5 6 4 8 4
8 5 2 6 5 6 5 5
7 5 4 5 4 6 4 5
5 6 4 1 5 9 5 4
7 7 7 6 5 6 3 4
Class Fr
1 2
2 3
3 6
4 14
5 22
6 17
7 10
8 4
9 2
Data Discretization: Clustering
153
x y
203 3326
203 3728
222 3896
250 2823
251 3709
261 4186
265 3035
274 3991
281 3470
295 3376
342 5808
347 5781
348 5441
351 6010
352 5563
359 5951
360 5749
365 5925
371 5635
375 5891
450 1741
467 460
469 502
533 1278
558 3670
572 2326
573 3986
614 2799
616 2589
638 4489
xcentroid ycentroid Δx Δy
251 3554 92 1363
357 5775 33 569
549 2384 188 4029
Cluster
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
Data Discretization: Contingency Table
154
row column label Fr
1 1 1 O11
1 2 2 O12
: : :
1 c c O1c
r c r X c Orc
row column label Fr
1 1 1 182
1 2 2 213
1 3 3 203
2 1 4 154
2 2 5 138
2 3 6 110
Data Discretization: Concept Hierarchy
Concept hierarchy mengatur nilai atribut berjenjang secara
hirarki dan biasanya terhubung dengan setiap dimensi di data
warehouse
Concept hierarchy memfasilitasi operasi drilling-down dan
rolling-up pada data warehouse untuk melihat data dengan
hirarki berbeda.
Concept hierarchy dapat ditentukan secara eksplisit oleh
domain experts dan/atau data warehouse designers
Concept hierarchy dapat berformat numerik atau
nominal/kategori.
155
Data Discretization: Concept Hierarchy
156
Data Discretization: Concept Hierarchy
Spesifikasi sesuai pengurutan sebagian/total atribut secara
eksplisit di schema level oleh pengguna atau expert
Address → street < city < province <country
Spesifikasi hirarki dari himpunan nilai atribut dengan data
grouping secara eksplisit.
Address → {Surabaya, Sidoarjo, Mojekorto} < East Java
Spesifikasi sesuai urutan sebagian dari set of attributes
Address → street < city , not others
Spesifikasi berdasarkan pembangkitan hierarchy dari analisis
banyaknya nilai yang berbeda di attribute level.
Address → a set of attributes: {street, city, province, country}
157
Data Discretization: Concept Hierarchy
Beberapa hierarchy dapat dibangkitkan secara mudah
dengan membandingkan banyaknya ragam nilai per-atribut
dalam dataset
 Atribut yang mempunyai nilai lebih beragam (banyak ragam) ditempatkan di level
lebih rendah pada hierarchy
 Pengecualian misal: day, date, week, month, quarter, year
158
country
province
city
street
15 distinct values
365 distinct values
3567 distinct values
674,339 distinct values
year
quarter
month
date
2020 distinct values
4 distinct values
12 distinct values
31
distinct
values
week
day 7 distinct values
5 distinct values
159
Terima kasih ...
... Ada pertanyaan ???

More Related Content

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05

Praproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningPraproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningssuseref80a11
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian dataKacung Abdullah
 
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...Arif Rahman
 
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).pptFaniaAmbarWanti
 
Study Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxStudy Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxunikomdsc
 
Pertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxArwansyahDipanegara
 
Database-Environments.pptx
Database-Environments.pptxDatabase-Environments.pptx
Database-Environments.pptxajimaulana27
 
Eps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfEps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfProGaming290098
 
presentasi bab 1 buku informatika kelas 11 smk
presentasi bab 1 buku informatika kelas 11 smkpresentasi bab 1 buku informatika kelas 11 smk
presentasi bab 1 buku informatika kelas 11 smkwindaamriani
 
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa dataSiskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa datarickygunawan84
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...butest
 
APPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningDEDE IRYAWAN
 
Manajemen basis data
Manajemen basis data Manajemen basis data
Manajemen basis data 'Oke Aflatun'
 
basis data kelas 11 smk mata plajaran informatika
basis data kelas 11 smk mata plajaran informatikabasis data kelas 11 smk mata plajaran informatika
basis data kelas 11 smk mata plajaran informatikawindaamriani
 
02 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-201402 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-2014Julis Syofian Syofian
 

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05 (20)

Praproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data miningPraproses data yang digunakan dalam data mining
Praproses data yang digunakan dalam data mining
 
10
1010
10
 
Analisis dan penyajian data
Analisis dan penyajian dataAnalisis dan penyajian data
Analisis dan penyajian data
 
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
Preparasi Data: Penetapan Tujuan dan Pengumpulan Data - Modul Ajar Kuliah Ana...
 
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt2-3. Pengenalan SPSS dan Deskriptif (1).ppt
2-3. Pengenalan SPSS dan Deskriptif (1).ppt
 
Study Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptxStudy Jam GDSC Data #1 - GDSC Unikom.pptx
Study Jam GDSC Data #1 - GDSC Unikom.pptx
 
Pertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptxPertemuan 3 Model Data Mining.pptx
Pertemuan 3 Model Data Mining.pptx
 
Pertemuan 4.pdf
Pertemuan 4.pdfPertemuan 4.pdf
Pertemuan 4.pdf
 
Database-Environments.pptx
Database-Environments.pptxDatabase-Environments.pptx
Database-Environments.pptx
 
Eps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdfEps3 - Data Adalah Kunci.pdf
Eps3 - Data Adalah Kunci.pdf
 
presentasi bab 1 buku informatika kelas 11 smk
presentasi bab 1 buku informatika kelas 11 smkpresentasi bab 1 buku informatika kelas 11 smk
presentasi bab 1 buku informatika kelas 11 smk
 
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa dataSiskohatkes 2020 (kompetensi ppih)   d. pengolahan dan analisa data
Siskohatkes 2020 (kompetensi ppih) d. pengolahan dan analisa data
 
Data dan struktur data
Data dan struktur dataData dan struktur data
Data dan struktur data
 
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...Jawaban No. 2 Tahap-Tahap Data Mining Karena  DM adalah suatu ...
Jawaban No. 2 Tahap-Tahap Data Mining Karena DM adalah suatu ...
 
3. Konsep Data Mining
3. Konsep Data Mining3. Konsep Data Mining
3. Konsep Data Mining
 
APPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data MiningAPPLIED DATABASE III - Slide Arsitektur Data Mining
APPLIED DATABASE III - Slide Arsitektur Data Mining
 
Manajemen basis data
Manajemen basis data Manajemen basis data
Manajemen basis data
 
basis data kelas 11 smk mata plajaran informatika
basis data kelas 11 smk mata plajaran informatikabasis data kelas 11 smk mata plajaran informatika
basis data kelas 11 smk mata plajaran informatika
 
02 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-201402 b data dan informasi rev 09 09-2014
02 b data dan informasi rev 09 09-2014
 
Nota exam
Nota examNota exam
Nota exam
 

More from Arif Rahman

Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Arif Rahman
 
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Arif Rahman
 
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Arif Rahman
 
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi NonlinierModul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi NonlinierArif Rahman
 
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Arif Rahman
 
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikModul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikModul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikModul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikModul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikArif Rahman
 
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika InferensiaModul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika InferensiaArif Rahman
 
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...Arif Rahman
 
Doe15 factorialmixed
Doe15 factorialmixedDoe15 factorialmixed
Doe15 factorialmixedArif Rahman
 
Doe14 factorial3k fractional
Doe14 factorial3k fractionalDoe14 factorial3k fractional
Doe14 factorial3k fractionalArif Rahman
 
Doe13 factorial3k blocking
Doe13 factorial3k blockingDoe13 factorial3k blocking
Doe13 factorial3k blockingArif Rahman
 

More from Arif Rahman (20)

Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 07
 
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
Proses Data: Analisis Data Eksploratori - Modul Ajar Kuliah Analisis Data 06
 
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02Proses Data Science - Modul Ajar Kuliah Analisis Data 02
Proses Data Science - Modul Ajar Kuliah Analisis Data 02
 
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
Modul Ajar Statistika Inferensia ke-13: Analisis Variansi, Eksperimentasi Fak...
 
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
Modul Ajar Statistika Inferensia ke-12: Uji Asumsi Klasik pada Regresi Linier...
 
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
Modul Ajar Statistika Inferensia ke-11: Analisis Regresi Linier Berganda (Mul...
 
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi NonlinierModul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
Modul Ajar Statistika Inferensia ke-10: Analisis Regresi Nonlinier
 
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
Modul Ajar Statistika Inferensia ke-9: Analisis Regresi Linier Sederhana (Sim...
 
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
Modul Ajar Statistika Inferensia ke-8: Analisis Korelasi Pearson, Spearman, K...
 
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
Modul Ajar Statistika Inferensia ke-7: Uji Tabel Kontingensi Independensi dan...
 
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
Modul Ajar Statistika Inferensia ke-6: Uji Kesesuaian Baik (Goodness of Fit T...
 
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata NonparametrikModul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
Modul Ajar Statistika Inferensia ke-5: Uji Hipotesa Rata-Rata Nonparametrik
 
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi ParametrikModul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
Modul Ajar Statistika Inferensia ke-4: Uji Hipotesa Proporsi Parametrik
 
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi ParametrikModul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
Modul Ajar Statistika Inferensia ke-3: Uji Hipotesa Variansi Parametrik
 
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata ParametrikModul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
Modul Ajar Statistika Inferensia ke-2: Uji Hipotesa Rata-rata Parametrik
 
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika InferensiaModul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
Modul Ajar Statistika Inferensia ke-1: Pengantar Statistika Inferensia
 
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
Modul Ajar Statistika Inferensia ke-14: Aplikasi Spreadsheet pada Statistika ...
 
Doe15 factorialmixed
Doe15 factorialmixedDoe15 factorialmixed
Doe15 factorialmixed
 
Doe14 factorial3k fractional
Doe14 factorial3k fractionalDoe14 factorial3k fractional
Doe14 factorial3k fractional
 
Doe13 factorial3k blocking
Doe13 factorial3k blockingDoe13 factorial3k blocking
Doe13 factorial3k blocking
 

Recently uploaded

Strategi Pengembangan Agribisnis di Indonesia
Strategi Pengembangan Agribisnis di IndonesiaStrategi Pengembangan Agribisnis di Indonesia
Strategi Pengembangan Agribisnis di IndonesiaRenaYunita2
 
Pembangkit Listrik Tenaga Nuklir Kelompok 1.pptx
Pembangkit Listrik Tenaga Nuklir Kelompok 1.pptxPembangkit Listrik Tenaga Nuklir Kelompok 1.pptx
Pembangkit Listrik Tenaga Nuklir Kelompok 1.pptxmuhammadrizky331164
 
Slide Transformasi dan Load Data Menggunakan Talend Open Studio
Slide Transformasi dan Load Data Menggunakan Talend Open StudioSlide Transformasi dan Load Data Menggunakan Talend Open Studio
Slide Transformasi dan Load Data Menggunakan Talend Open Studiossuser52d6bf
 
001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx
001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx
001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptxMuhararAhmad
 
05 Sistem Perencanaan Pembangunan Nasional.ppt
05 Sistem Perencanaan Pembangunan Nasional.ppt05 Sistem Perencanaan Pembangunan Nasional.ppt
05 Sistem Perencanaan Pembangunan Nasional.pptSonyGobang1
 
MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++FujiAdam
 

Recently uploaded (6)

Strategi Pengembangan Agribisnis di Indonesia
Strategi Pengembangan Agribisnis di IndonesiaStrategi Pengembangan Agribisnis di Indonesia
Strategi Pengembangan Agribisnis di Indonesia
 
Pembangkit Listrik Tenaga Nuklir Kelompok 1.pptx
Pembangkit Listrik Tenaga Nuklir Kelompok 1.pptxPembangkit Listrik Tenaga Nuklir Kelompok 1.pptx
Pembangkit Listrik Tenaga Nuklir Kelompok 1.pptx
 
Slide Transformasi dan Load Data Menggunakan Talend Open Studio
Slide Transformasi dan Load Data Menggunakan Talend Open StudioSlide Transformasi dan Load Data Menggunakan Talend Open Studio
Slide Transformasi dan Load Data Menggunakan Talend Open Studio
 
001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx
001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx
001. Ringkasan Lampiran Juknis DAK 2024_PAUD.pptx
 
05 Sistem Perencanaan Pembangunan Nasional.ppt
05 Sistem Perencanaan Pembangunan Nasional.ppt05 Sistem Perencanaan Pembangunan Nasional.ppt
05 Sistem Perencanaan Pembangunan Nasional.ppt
 
MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++MAteri:Penggunaan fungsi pada pemrograman c++
MAteri:Penggunaan fungsi pada pemrograman c++
 

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05

  • 1. PREPARASI DATA: Pembersihan dan Proses Awal Data ARIF RAHMAN 1
  • 2. 2
  • 3. 3 Godsey, B, Think Like a Data Scientist: Tackle the Data Science Process Step-by-Step
  • 4. 4
  • 5. 5 Cielen, D, Meysman, ADB, & Ali, M, Introducing Data Science: Big Data, Machine Learning, and More, Using Python Tools
  • 6. Pembersihan Data (Data Cleansing) dan Proses Awal Data (Data Preprocessing) 6
  • 8. Pembersihan dan Proses Awal Data 8 Penting memperhatikan cara memperoleh data yang akan diolah Demikian pula cara mengolah data juga penting diperhatikan
  • 9. Problem Data Data yang dikumpulkan dari banyak sumber berbeda dengan banyak metode akan menyebabkan problem: Heterogeneity and Diversity, data dengan format dan struktur yang beragam dan berantakan. Data Quality, data yang tercemar noise, error, outlier, missing value, bias, fake data, illegal data dan irrelevant data. Scale, data yang berskala besar yang membutuhkan upaya ekstra untuk mengolahnya. 9
  • 10. 10
  • 11. 11
  • 12. 12
  • 13. Pembersihan dan Proses Awal Data  How do I detect and control noise?—Noise Discovering.  How do I clean up the data?—Data Cleaning.  How do I handle missing data?—Missing Data Imputation.  How do I provide accurate data and standard format?—Data Transformation.  How do I incorporate and adjust data?—Data Integration.  How do I unify and scale data?—Data Structure Normalization.  How do I reduce the dimensionality of data?—Feature Selection (FS).  How do I remove redundant and/or conflictive examples?—Instance Selection (IS).  How do I simplify the domain of an attribute?—Discretization.  How do I fill in gaps in data?—Feature Extraction and/or Instance Generation. 13
  • 14. Pembersihan dan Proses Awal Data 14
  • 15. Problem Kualitas Data Noise and outliers Wrong data Fake data Missing values Duplicate data 15
  • 16. Noise  Untuk objek data, noise merupakan kejanggalan objek data yang asing dan tak selaras dengan pola umum  Untuk atribut data, noise merupakan perubahan atau penyimpangan dari nilai sesungguhnya  Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan suara lain dari lingkungan yang ikut tertangkap mikrofon.  Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua gelombang sinus yang terdistorsi oleh random noise acak. 16
  • 18. Noise 18 Examples of the interaction between classes: a) small disjuncts and b) overlapping between classes
  • 19. Outliers adalah objek data dengan karakteristik yang sangat berbeda dari sebagian besar objek data lainnya dalam dataset Kasus 1: Outliers menjadi noise yang mengganggu analisis data Kasus 2: Outliers menjadi tujuan analisis data ➢ Credit card fraud ➢ Intrusion detection Outliers 19
  • 22. Missing Values Latar belakang terjadinya missing values Informasi tidak dapat diperoleh karena keengganan, penolakan, kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak bersedia menyampaikan usia atau berat badannya) Atribut data yang tidak mungkin cocok untuk sebagian kasus (misalnya gaji untuk anak-anak) Kegagalan alat atau ketidak-sengajaan penghapusan. Penanganan missing values Mengeliminasi objek data atau variabel Mengestimasi missing values ➢Misalnya dengan regresi atau interpolasi ➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip Mengabaikan missing value selama analisis data 22
  • 23. Duplicate Data Dataset mungkin mengandung objek data yang redundansi atau terduplikasi secara utuh atau sebagian. Contoh: orang yang sama dengan alamat e-mail berbeda Pengumpulan data dari beberapa sumber heterogen mempunyai isu mayor memperoleh duplicate data. Contoh: data identitas pribadi orang yang sama diperoleh dari instansi kependudukan dan dari afiliasi pekerjaan Penanganan duplicate data Mengeliminasi duplicate data Mencatat atau merekap frekuensi duplikasi Mengumpulkan subset data yang menjadi data-child untuk sebagian data berbeda 23
  • 24. Operasi Dasar dalam Data Preprocessing Data cleaning  Fill in missing values, smooth noisy data, identify or remove outliers, and resolve inconsistencies Data integration  Integration of multiple databases, data cubes, or files Data reduction  Dimensionality reduction  Numerosity reduction  Data compression Data transformation and data discretization  Normalization  Concept hierarchy generation 24
  • 25. Data Cleaning Data cleaning fixes or removes incorrect, corrupted, incorrectly formatted, duplicate, incomplete or missing data within a dataset. Data cleaning tasks: Data acquisition Metadata and reformatting Fill in missing values Unified date format Converting nominal to numeric Identify outliers and smooth out noisy data Correct inconsistent data 25
  • 26. Data Integration Data integration: combines data from multiple sources into a coherent store Schema integration integrate metadata from different sources Entity identification problem: identify real world entities from multiple data sources, e.g., A.cust-id ≡ B.cust-# Careful integration of the data from multiple sources may help reduce/avoid redundancies and inconsistencies and improve mining speed and quality 26
  • 27. Data Reduction Data reduction Obtains a reduced representation of the data set that is much smaller in volume but yet produces the same (or almost the same) analytical results Data reduction strategies Data cube aggregation Dimensionality reduction Numerosity reduction Data compression 27
  • 28. Data Transformation Data transformation  maps the entire set of values of an attribute to a new set of replacement values.  Each old value can be identified with one of the new values Data transformation methods: Smoothing: remove noise from data Aggregation: summarization, data cube construction Generalization: concept hierarchy climbing Normalization: scaled to fall within a small, specified range ➢min-max normalization ➢z-score normalization ➢normalization by decimal scaling Attribute/feature construction ➢New attributes constructed from the given ones 28
  • 29. Data Discretization Discretization reduce the number of values for a given continuous attribute by dividing the range of the attribute into intervals. Interval labels can then be used to replace actual data values. Discretization methods: Divide the range of a continuous value into intervals Classify the clustered value into categorical attributes. Concept hierarchies reduce the data by collecting and replacing low level concepts (such as numeric values for the attribute age) by higher level concepts (such as young, middle-aged, or senior). 29
  • 31. Latar Belakang Kualitas Data tidak baik karena kesalahan manusia, kegagalan instrumen, gangguan transmisi atau lainnya  incomplete: data kosong (missing data), data terpotong (lacking value), data simpulan umum (aggregate data)  noisy: terkacaukan (noise), salah (errors), menyimpang (outliers), janggal (absurd)  inconsistent: berbeda nilai (discrepancies), berbeda standar pelabelan (irregularities), berbeda field (deformities) misal usia vs tanggal lahir  Intentional: nilai baku bawaan (default value), pengganti data kosong (disguised missing data) 31
  • 32. Data Cleaning Preemptive: Process architecture (memeriksa integritas data) Process management (mengendalikan data entry, data sharing, data stewards) Retrospective: Cleaning focus (menghapus-menggabungkan duplikasi data, mencocokkan-mengoreksi inkonsistensi data, memadukan- membakukan keragaman format data, menerka-menggantikan missing data) Diagnostic focus (deteksi otomatis gangguan). 32
  • 33. Data Cleaning Tasks Data acquisition Metadata and reformatting Fill in missing values Unified date format Converting nominal to numeric Identify outliers and smooth out noisy data Correct inconsistent data 33
  • 34. Data Cleaning: Data Acquisition Data yang tersimpan dalam sistem basisdata Protokol ODBC – JDBC – OLE DB Data yang tersimpan dalam file arff (attribute-relation file format), csv (comma-separated values), dan lainnya Format dengan fixed-column Pemisahan dengan pembatas (delimiters) : tabulasi, spasi ganda, titik”.”, koma “,” , titik koma “;”, simbol, dll Peringatan: hati-hati konversi pembatas (delimiters) dalam data berformat strings Verifikasi banyaknya atribut data (fields) sebelum dan sesudah data cleaning 34
  • 35. Data Cleaning: Data Acquisition 35
  • 36. Data Cleaning: Data Acquisition 36
  • 37. Data Cleaning: Data Acquisition 37
  • 38. Data Cleaning: Metadata Mengenali atribut data (field) Tipe atribut data (field types): ➢binary, nominal (categorical), ordinal, numeric, … ➢Untuk data nominal: diperlukan table untuk menerjemahkan kode ke deskripsi lengkap yang menjelaskan kategori/kelas Pemanfaatan atribut data (field role): ➢input : inputs for modeling ➢target : output ➢id/auxiliary : keep, but not use for modeling ➢ignore : don’t use for modeling ➢weight : instance weight ➢… Deskripsi dari atribut data (field descriptions) Konversi dan perbaiki format data ke format baku seragam. 38
  • 39. Data Cleaning: Missing Data Ignore the tuple: biasanya dilakukan bila pendugaan sesuai klasifikasi tidak mungkin dilakukan. Fill in the missing value manually: jika data mentah tersedia dan tidak merepotkan. Use a global constant to fill in the missing value: misalnya “nihil”, “kosong”, “tidak tahu”, atau lainnya Imputation: menggunakan nilai mean atau modus Use the most probable value: metode inferensia misalnya Bayesian formula, decision tree, regression 39
  • 40. Data Cleaning: Date Format Terdapat banyak date format yang digunakan misalnya “Sep 24, 2003” , 9/24/03, 24.09.03, 24-09-2003 Bahkan terkadang tersimpan dalam string format Tersimpan dengan rincian data yang berbeda Beberapa tersimpan dalam tahun (YY) atau (YYYY) saja Sebagian juga menyimpan bulan tanpa tanggal spesifik Namun juga mungkin menyimpan sangat rinci sampai jam Mentransformasikan semua tanggal dalam date format yang sama atau numeric format : Banyak hari sejak 01-01-1960 Rasio tahun = tahun + (hari ke / banyak hari dalam setahun) 40
  • 41. Data Cleaning: Nominal Conversion Keterbatasan pemodelan data, karena banyak model data yang mempersyaratkan input data numerik Konversi data nominal ke numerik, kerapkali hanya memberikan pelabelan untuk pembedaan tanpa menunjukkan urutan (order), tingkat (level) ataupun jarak (distance). Terdapat beberapa strategi konversi data nominal: Binary → Numeric Ordered → Numeric Multi-valued → Numeric 41
  • 42. Data Cleaning: Nominal Conversion Conversion: binary → numeric Jenis kelamin → 0 (perempuan) dan 1 (laki-laki) Conversion: ordered → numeric Nilai → 4 (A), 3 (B), 2 (C), 1 (D), 0 (E) Cuaca → 4(cerah), 3(berawan), 2(mendung), 1(gerimis), 0(hujan) Conversion: multi-valued → numeric Warna → merah (R=1;B=0;Y=0), hijau (R=0;B=1;Y=1) Alamat → kodepos Jurusan keilmuan → nomenklatur keilmuan Metode umum: compound key, group technology, hierarchical classification 42
  • 43. Data Cleaning: Noisy Data + Ouliers Noise: deviasi atau variansi yang acak dari data pengukuran Faktor penyebab penyimpangan nilai: faulty data collection instruments data entry problems data transmission problems technology limitation inconsistency in naming convention Masalah lain yang mempengaruhi noisy data: duplicate records incomplete data inconsistent data 43
  • 44. Data Cleaning: Noisy Data + Ouliers 44
  • 45. Data Cleaning: Noisy Data + Ouliers Combined computer and human inspection  Mendeteksi dan memeriksa nilai data yang dicurigai Binning method:  Mengurutkan data dan membagi data dalam beberapa bins ➢Equal-width (distance) partitioning ➢Equal-depth (frequency) partitioning  Memuluskan data dengan bin means atau bin median atau bin boundaries, dan lain-lain. Empirical distribution  Membuat pemetaan distribusi frekuensi dari data  Mendeteksi dan memeriksa posisi tiap objek data dengan: ➢Interquartile Range (batas Q1 dan Q3) ➢Confidence Interval dengan pendekatan distribusi normal 45
  • 46. Data Cleaning: Noisy Data + Ouliers Central tendency  Menghitung dan memeriksa jarak (distance) tiap objek data dengan titik pemusatan data mean, modus atau median Curve fitting, regression atau interpolation  Estimasi nilai dugaan data variabel terikat berbasis variabel bebasnya dengan curve fitting, regression atau interpolation  Menghitung dan memeriksa jarak (distance) antara nilai aktual dengan nilai dugaan tiap objek data Clustering  Menentukan titik rujukan di tiap cluster  Menghitung dan memeriksa jarak (distance) tiap objek data dengan masing- masing titik rujukan di tiap cluster 46
  • 47. Data Cleaning: Noisy Data + Ouliers Binning method: 47 Equal-width (distance) partitioning Equal-depth (frequency) partitioning
  • 48. Data Cleaning: Noisy Data + Ouliers Binning method:  Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34  Partition into (equal-width) bins: - Bin 1 (4<x<14) : 4, 8, 9 - Bin 2 (14<x<24): 15, 21, 21 - Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34  Smoothing by bin means: - Bin 1: 7, 7, 7 - Bin 2: 19, 19, 19 - Bin 3: 272/3, 272/3, 272/3, 272/3, 272/3, 272/3  Smoothing by bin boundaries: - Bin 1: 4, 4, 14 - Bin 2: 14, 24, 24 - Bin 3: 24, 24, 24, 24, 34, 34 48
  • 49. Data Cleaning: Noisy Data + Ouliers Binning method:  Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34  Partition into (equal-depth) bins: - Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15 - Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25 - Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34  Smoothing by bin means: - Bin 1: 9, 9, 9, 9 - Bin 2: 23, 23, 23, 23 - Bin 3: 29, 29, 29, 29  Smoothing by bin boundaries: - Bin 1: 4, 4, 4, 15 - Bin 2: 21, 21, 25, 25 - Bin 3: 26, 26, 26, 34 49
  • 50. Data Cleaning: Noisy Data + Ouliers Empirical distribution 50
  • 51. Data Cleaning: Noisy Data + Ouliers Empirical distribution 51 Confidence Interval Critical Limit Rejection Area Rejection Area Outliers
  • 52. Data Cleaning: Noisy Data + Ouliers 52 x 3002 4570 15246 1581 2933 3427 4995 1940 2665 6618 1012 4635 585 6363 2689 3929 3892 2692 5252 4120 3193 543 4647 892 1341 3258 2645 5606 2235 1783 4648 x' -0,24 0,34 4,29 -0,76 -0,26 -0,08 0,50 -0,63 -0,36 1,10 -0,97 0,37 -1,13 1,00 -0,35 0,11 0,09 -0,35 0,59 0,18 -0,17 -1,15 0,37 -1,02 -0,85 -0,14 -0,37 0,73 -0,52 -0,69 0,37 24 , 0 82 , 2706 13 , 3643 3002 ' 82 , 2706 13 , 3643 − = − = = = x s x x
  • 53. Data Cleaning: Noisy Data + Ouliers Empirical distribution 53
  • 54. Data Cleaning: Noisy Data + Ouliers Central Tendency 54 A deviation indicates the distance of data object from the mean Outliers are extreme values that differ from the mean Outliers affect the measure of central tendency, especially the mean
  • 55. Data Cleaning: Noisy Data + Ouliers 55 x y 106 3002 174 4570 207 15246 232 1581 256 2933 257 3427 266 4995 274 1940 279 2665 310 6618 313 1012 326 4635 336 585 345 6363 356 2689 371 3929 396 3892 406 2692 418 5252 425 4120 439 3193 445 543 448 4647 489 892 528 1341 539 3258 550 2645 556 5606 560 2235 619 1783 696 4648 x' y' distance -2,01 -0,24 2,03 -1,52 0,34 1,56 -1,28 4,29 4,47 -1,10 -0,76 1,34 -0,93 -0,26 0,97 -0,92 -0,08 0,93 -0,86 0,50 0,99 -0,80 -0,63 1,02 -0,76 -0,36 0,84 -0,54 1,10 1,22 -0,52 -0,97 1,10 -0,42 0,37 0,56 -0,35 -1,13 1,18 -0,29 1,00 1,04 -0,21 -0,35 0,41 -0,10 0,11 0,14 0,08 0,09 0,12 0,15 -0,35 0,38 0,24 0,59 0,64 0,29 0,18 0,34 0,39 -0,17 0,43 0,44 -1,15 1,23 0,46 0,37 0,59 0,75 -1,02 1,27 1,04 -0,85 1,34 1,12 -0,14 1,12 1,20 -0,37 1,25 1,24 0,73 1,44 1,27 -0,52 1,37 1,69 -0,69 1,83 2,25 0,37 2,28 Outlier 01 , 2 42 , 138 58 , 384 106 ' 42 , 138 58 , 384 − = − = = = x s x x 24 , 0 82 , 2706 13 , 3643 3002 ' 82 , 2706 13 , 3643 − = − = = = y s y y 03 , 2 ) 0 24 , 0 ( ) 0 01 , 2 ( distance 2 2 = − − + − − =
  • 56. Data Cleaning: Noisy Data + Ouliers Regression 56
  • 57. Data Cleaning: Noisy Data + Ouliers Regression 57 ε = y – ŷ A residual or error is the distance between an observed y and the estimated ŷ An outlier has extreme residual, since it is far away from the linear regression approximation
  • 58. Data Cleaning: Noisy Data + Ouliers 58 x y ŷ d d' 203 3267 3831 -564 -0,52 222 3368 3804 -436 -0,40 224 9214 3801 5413 4,97 224 3459 3801 -342 -0,31 232 3325 3789 -464 -0,43 234 3561 3787 -226 -0,21 248 3264 3766 -502 -0,46 248 3232 3766 -534 -0,49 254 3556 3758 -202 -0,19 271 3893 3733 160 0,15 280 3204 3720 -516 -0,47 310 3414 3677 -263 -0,24 319 3369 3664 -295 -0,27 331 3409 3647 -238 -0,22 347 3314 3624 -310 -0,28 365 3346 3598 -252 -0,23 365 3215 3598 -383 -0,35 366 3219 3596 -377 -0,35 371 3311 3589 -278 -0,26 388 3159 3564 -405 -0,37 389 3207 3563 -356 -0,33 411 3176 3531 -355 -0,33 414 2984 3527 -543 -0,50 414 3110 3527 -417 -0,38 416 3428 3524 -96 -0,09 421 3330 3517 -187 -0,17 427 3628 3508 120 0,11 439 3588 3491 97 0,09 466 3943 3452 491 0,45 489 4553 3419 1134 1,04 498 4530 3406 1124 1,03 Outlier d 3831 ) 203 4425 , 1 ( 4124 ˆ 4425 , 1 4124 ˆ 1 0 1 0 =  − + = − = = + = y a a x a a y 52 , 0 52 , 1088 564 ' 52 , 1088 0 564 3831 3267 − = − = = = = − = − = d d s d d s d d
  • 59. Outliers A distance represents the dissimilarity each pair of data objects. An outlier is different from other data objects. Most its distances are beyond the limit. The data objects have high similarity within a cluster and low similarity between clusters Data Cleaning: Noisy Data + Ouliers Clustering 59
  • 60. Data Discretization: Clustering 60 x y 203 3326 203 3728 222 3896 250 2823 251 3709 261 4186 265 3035 274 3991 281 3470 295 3376 342 5808 347 5781 348 5441 351 6010 352 5563 359 5951 360 5749 365 5925 371 5635 375 5891 450 1741 467 460 469 502 533 1278 558 3670 572 2326 573 3986 614 2799 616 2589 638 4489 616 2589 xcentroid ycentroid 251 1,25 3554 2,54 357 2,14 5775 4,13 549 3,74 2384 1,70 x' y' d1 d2 d3 0,86 2,38 0,43 2,17 2,96 0,86 2,66 0,41 1,95 3,04 0,89 0,18 2,39 4,14 3,23 1,02 2,78 0,34 1,75 2,93 1,25 2,02 0,52 2,29 2,51 1,26 2,65 0,11 1,72 2,66 1,34 2,99 0,46 1,39 2,72 1,38 2,17 0,39 2,10 2,41 1,45 2,85 0,37 1,45 2,56 1,51 2,48 0,26 1,76 2,36 1,63 2,41 0,39 1,79 2,23 2,02 4,15 1,78 0,13 2,99 2,06 4,13 1,78 0,08 2,95 2,07 3,89 1,57 0,25 2,75 2,09 4,29 1,94 0,17 3,07 2,10 3,97 1,67 0,16 2,80 2,16 4,25 1,94 0,13 3,00 2,17 4,11 1,81 0,03 2,87 2,21 4,23 1,94 0,13 2,96 2,26 4,03 1,79 0,15 2,76 2,29 4,21 1,97 0,17 2,89 2,92 1,24 2,11 2,98 0,94 3,06 0,33 2,85 3,91 1,53 3,08 0,36 2,84 3,88 1,50 3,61 0,91 2,86 3,53 0,80 3,82 2,62 2,56 2,25 0,92 3,93 1,66 2,82 3,05 0,20 3,94 2,85 2,71 2,21 1,16 4,28 2,00 3,08 3,02 0,62 4,30 1,85 3,12 3,14 0,58 4,48 3,21 3,30 2,52 1,68 86 , 0 85833 , 0 ) 0 5 ( 100 700 100 203 0 ' 5 max 0 min 700 max 100 min  = − − − + = = = = = x n n o o 38 , 2 37571 , 2 ) 0 5 ( 0 7000 0 3326 0 ' 5 max 0 min 7000 max 0 min  = − − − + = = = = = y n n o o Outlier d1 d2 d3 23 , 3 ) 70 , 1 18 , 0 ( ) 74 , 3 89 , 0 ( d3 14 , 4 ) 13 , 4 18 , 0 ( ) 14 , 2 89 , 0 ( d2 39 , 2 ) 54 , 2 18 , 0 ( ) 25 , 1 89 , 0 ( d1 2 2 2 2 2 2 = − + − = = − + − = = − + − =
  • 62. Data Integration Data integration: Menggabungkan data dari banyak sumber ke penyimpanan data yang koheren (coherent datastore) Schema integration mengintegrasikan metadata dari berbagai sumber berbeda Problem identifikasi entitas: mengenali entitas dari berbagai sumber data, misal: A.cust-id ≡ B.cust-# Integrasi data dari banyak sumber berbeda perlu dilakukan dengan hati-hati untuk mencegah/mengurangi data redundan dan tak konsisten, sekaligus memperbaiki kecepatan dan kualitas penambangan data 62
  • 63. Data Integration Mendeteksi dan menangani konflik nilai data Pada sumber berbeda, deskripsi entitas yang sama dirinci dalam atribut (field) yang banyaknya dan macamnya berbeda. Pada entitas yang sama pada atribut yang sama namun di sumber berbeda mempunyai nilai data berbeda Faktor perbedaan: ➢perbedaan sudut pandang, misal: usia vs tanggal lahir ➢perbedaan representasi, misal: alamat di satu field vs alamat di banyak field ➢perbedaan tipe data, misal: gender dalam string vs dalam nominal numerik ➢perbedaan skala, misal: skala british vs skala metrik 63
  • 64. Data Integration Data redundan sangat mungkin terjadi saat mengambil data dengan mengintegrasikan banyak sumber berbeda Object identification: objek data sama yang tersimpan di sumber data berbeda dengan nama tabel (entity class) berbeda, nama atribut (field) berbeda, tipe (data type) berbeda, dan nilai (value) berbeda Derivable data: Satu atribut mungkin juga menjadi atribut turunan (derived attribute) di tabel lainnya Data redundan mungkin dapat terdeteksi dengan: correlation analysis independence test covariance analysis 64
  • 65. Data Integration: Data Join or Algebra 65 Inner Join vs Outer Join    M a b c #1 d e f #1 g h i #2 j k l #3   M A B #1 C D #1 E F #2 G H #2 I J #4      M a b c A B #1 a b c C D #1 d e f A B #1 d e f C D #1 g h i E F #2 g h i G H #2      M a b c A B #1 a b c C D #1 d e f A B #1 d e f C D #1 g h i E F #2 g h i G H #2 j k l #3 I J #4 Inner Join Outer Join Atribut yang dipergunakan untuk memeriksa dugaan redundansi data
  • 66. Data Integration: Data Join or Algebra 66 Natural Join vs Cross Join    M a b c #1 d e f #1 g h i #2 j k l #3   M A B #1 C D #1 E F #2 G H #2 I J #4      M a b c A B #1 a b c C D #1 d e f A B #1 d e f C D #1 g h i E F #2 g h i G H #2      M a b c A B #1 a b c C D #1 a b c E F a b c G H a b c I J d e f A B #1 d e f C D #1 d e f E F d e f G H d e f I J dan seterusnya Natural Join Cross Join Atribut yang dipergunakan untuk memeriksa dugaan redundansi data
  • 67. Data Integration: Hirarki Data Aggregation Relation 67
  • 68. Data Integration: Hirarki Data Aggregation Relation 68
  • 69. Data Integration: Hirarki Data Categorization Relation (Incomplete) 69
  • 70. Data Integration: Hirarki Data Categorization Relation (complete) 70
  • 71. Data Integration: key-based relation Star Schema 71
  • 72. Data Integration: key-based relation Snowflake Schema 72
  • 73. Data Integration: key-based relation Fact Constellations 73
  • 75. Data Integration: Correlation Analysis  Pearson’s r (product moment) correlation,  Spearman’s  (rho) correlation,  Kendall’s  (tau) correlation,  Cronbach’s α (alpha) correlation,  Blomqvist’s β (beta) correlation,  Cramer’s  (nu) correlation,  Moran’s  (iota) correlation,  Shepherd’s  (pi) correlation,  Hoeffding’s D correlation,  Goodman and Kruskal’s  (lambda) correlation,  Goodman and Kruskal’s  (gamma) correlation,  Pearson’s C (contingency coeff) correlation,  Pearson’s  (phi) correlation,  Gaussian rank correlation,  Biserial – Polyserial correlation,  Tetrachoric – Polychoric correlation,  Biweight midcorrelation,  Distance correlation,  Percentage bend correlation,  Canonical correlation,  Concordance correlation,  Circular data correlation,  Partial correlation,  Multilevel correlation Sumber : https://www.statisticssolutions.com/correlation-pearson-kendall-spearman/ https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/correlation-coefficient-formula/ https://www.ncss.com/software/ncss/correlation-in-ncss/ 75
  • 76. Data Integration: Correlation Analysis Sumber: M. Allen. The SAGE Encyclopedia of Communication Research Methods. Sage Publishing, 2017 https://methods.sagepub.com/images/virtual/the-sage-encyclopedia-of- communication-research-methods/10.4135_9781483381411-table7.jpg 76
  • 77. Data Integration: Correlation Analysis 77 Linear increasing non-decreasing Linear decreasing non-increasing chaotic random Sumber: https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling- statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and- spearman-correlation-methods/
  • 78. Data Integration: Pearson Correlation Pearson correlation mengukur hubungan linier antara dua variabel. Pearson correlation merupakan ukuran korelasi statistik yang paling umum. Kadang-kadang disebut product-moment correlation, the simple linear correlation, or the simple correlation coefficient. 78 yy xx xy xy n i i n i i n i i n i i n i i n i i n i i i xy S S S r y y n x x n y x y x n r =       −       − − =        = = = = = = = 2 1 2 1 2 2 1 2 1 2 1 1 1 where rxy: Pearson Correlation Coefficient n : number of observations xi : value of i-th x yi : value of i-th y
  • 79. Data Integration: Spearman Correlation Spearman’s  (rho) correlation adalah perhitungan korelasi nonparametrik berdasarkan peringkat. Kadang-kadang disebut dengan Spearman rank correlation. Menjadi korelasi alternatif nonparametrik untuk menggantikan Pearson correlation. 79 ) ( ) ( ) 1 ( 6 1 2 1 2 i i i n i i xy y R x R d n n d − = − − =  =  where ρxy: Spearman Correlation Coefficient n : number of observations di : the difference between the ranks of corresponding variables R(xi): the ranks of i-th x R(yi): the ranks of i-th y
  • 80. Data Integration: Kendall Correlation Kendall's  (tau) correlation merupakan korelasi nonparametrik yang mengukur kekuatan asosiasi antara dua variabel berdasarkan kombinasi pasangan data. Dihitung dengan membandingkan selisih pasangan data yang concordant (searah) dan discordant (berlawanan). Jika ukuran sampel adalah n, maka banyaknya pasangan adalah n(n-1) / 2. 80 ) 1 ( 2 1 − − = n n n n d c xy  where τxy: Kendall Correlation Coefficient n : number of observations nc : number of concordant nd : number of discordant
  • 81. Data Integration: Covariance Pearson correlation yang mengukur hubungan linier antara dua variabel juga dapat diperoleh dari covariance dari X dan Y yang dibagi dengan perkalian simpangan baku X dan Y. 81 ( ) y x xy n i i i s s Y X Cov r n y y x x Y Y X X E Y X Cov ) , ( 1 ) )( ( ) )( ( ) , ( 1 = − − − = − − =  = where rxy: Pearson Correlation Coefficient n : number of observations xi : value of i-th x yi : value of i-th y Cov(X,Y): covariance of x and y
  • 82. Data Integration: Dot Product Pearson correlation yang mengukur hubungan linier antara dua variabel juga dapat diperoleh dari dot product dari X' dengan Y' sebagai vektor. Di mana X' dan Y' diperoleh dari normalisasi Z dari X dan Y. 82 1 ' ' ' ' − • = − = − = n Y X r s x y y s x x x xy y i i x i i where rxy: Pearson Correlation Coefficient n : number of observations xi' : value of i-th x yi : value of i-th y
  • 84. Analisis Korelasi: Pearson 84 No x y x2 y2 x.y 1 2 9,95 4 99,0025 19,90 2 8 24,45 64 597,8025 195,60 3 11 31,75 121 1008,0625 349,25 4 10 35,00 100 1225,0000 350,00 5 8 25,02 64 626,0004 200,16 6 4 16,86 16 284,2596 67,44 7 2 14,38 4 206,7844 28,76 8 2 9,60 4 92,1600 19,20 9 9 24,35 81 592,9225 219,15 10 8 27,50 64 756,2500 220,00 11 4 17,08 16 291,7264 68,32 12 11 37,00 121 1369,0000 407,00 13 12 41,95 144 1759,8025 503,40 14 2 11,66 4 135,9556 23,32 15 4 21,65 16 468,7225 86,60 16 4 17,89 16 320,0521 71,56 17 20 69,00 400 4761,0000 1380,00 18 1 10,30 1 106,0900 10,30 19 10 34,93 100 1220,1049 349,30 20 15 46,59 225 2170,6281 698,85 21 15 44,88 225 2014,2144 673,20 22 16 54,12 256 2928,9744 865,92 23 17 56,63 289 3206,9569 962,71 24 6 22,13 36 489,7369 132,78 25 5 21,15 25 447,3225 105,75 Total 206 725,82 2396 27178,5316 8008,47 ( ) ( ) ( ) ( ) 9818 , 0 67 , 526814 29 , 679463 42436 59900 92 , 149518 75 , 200211 82 , 725 ) 5316 , 27178 25 ( 206 ) 2396 25 ( ) 82 , 725 206 ( ) 47 , 8008 25 ( 2 2 2 2 2 2 = − − − = −  −   −  = − − − =        i i i i i i i i xy y y n x x n y x y x n r
  • 85. Analisis Korelasi: Spearman 85 No x y R(x) R(y) d d2 1 2 9,95 3,5 2 1,5 2,25 2 8 24,45 13 13 0 0 3 11 31,75 18,5 16 2,5 6,25 4 10 35,00 16,5 18 -1,5 2,25 5 8 25,02 13 14 -1 1 6 4 16,86 7,5 6 1,5 2,25 7 2 14,38 3,5 5 -1,5 2,25 8 2 9,60 3,5 1 2,5 6,25 9 9 24,35 15 12 3 9 10 8 27,50 13 15 -2 4 11 4 17,08 7,5 7 0,5 0,25 12 11 37,00 18,5 19 -0,5 0,25 13 12 41,95 20 20 0 0 14 2 11,66 3,5 4 -0,5 0,25 15 4 21,65 7,5 10 -2,5 6,25 16 4 17,89 7,5 8 -0,5 0,25 17 20 69,00 25 25 0 0 18 1 10,30 1 3 -2 4 19 10 34,93 16,5 17 -0,5 0,25 20 15 46,59 21,5 22 -0,5 0,25 21 15 44,88 21,5 21 0,5 0,25 22 16 54,12 23 23 0 0 23 17 56,63 24 24 0 0 24 6 22,13 11 11 0 0 25 5 21,15 10 9 1 1 Total 206 725,82 425 425 0 48,5 ( ) 9813 , 0 15600 291 1 ) 1 25 ( 25 ) 5 , 48 6 ( 1 1 6 1 2 2 2 = − = −   − = − − =  n n di xy 
  • 86. Analisis Korelasi: Kendall 86 i x y 1 2 9,95 2 8 24,45 + 3 11 31,75 + + 4 10 35,00 + + – 5 8 25,02 + 0 + + 6 4 16,86 + + + + + 7 2 14,38 0 + + + + + 8 2 9,60 0 + + + + + 0 9 9 24,35 + – + + – + + + 10 8 27,50 + 0 + + 0 + + + – 11 4 17,08 + + + + + 0 + + + + 12 11 37,00 + + 0 + + + + + + + + 13 12 41,95 + + + + + + + + + + + + 14 2 11,66 0 + + + + + 0 0 + + + + + 15 4 21,65 + + + + + 0 + + + + 0 + + + 16 4 17,89 + + + + + 0 + + + + 0 + + + 0 17 20 69,00 + + + + + + + + + + + + + + + + 18 1 10,30 – + + + + + + – + + + + + + + + + 19 10 34,93 + + – 0 + + + + + + + + + + + + + + 20 15 46,59 + + + + + + + + + + + + + + + + + + + 21 15 44,88 + + + + + + + + + + + + + + + + + + + 0 22 16 54,12 + + + + + + + + + + + + + + + + + + + + + 23 17 56,63 + + + + + + + + + + + + + + + + + + + + + + 24 6 22,13 + + + + + + + + + + + + + + + + + + + + + + + 25 5 21,15 + + + + + + + + + + + + + + – + + + + + + + + + j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 ( ) ( ) 8867 , 0 300 266 ) 1 25 ( 25 8 274 ) 1 ( 2 1 2 1 = = −  − = − − = n n n n D C xy  Concordant (+) if (Xi-Xj)(Yi-Yj) > 0 ➔274 Discordant (–) if (Xi-Xj)(Yi-Yj) < 0 ➔ 8 Independent (0) if (Xi-Xj)(Yi-Yj) = 0 ➔ 18
  • 87. Kovarian 87 No x y δx δy δ2x δ2y δx.δy 1 2 9,95 -6,24 -19,08 38,9376 364,1533 119,0767 2 8 24,45 -0,24 -4,58 0,0576 21,0021 1,0999 3 11 31,75 2,76 2,72 7,6176 7,3832 7,4995 4 10 35,00 1,76 5,97 3,0976 35,6075 10,5023 5 8 25,02 -0,24 -4,01 0,0576 16,1026 0,9631 6 4 16,86 -4,24 -12,17 17,9776 148,1771 51,6127 7 2 14,38 -6,24 -14,65 38,9376 214,7045 91,4335 8 2 9,60 -6,24 -19,43 38,9376 377,6337 121,2607 9 9 24,35 0,76 -4,68 0,5776 21,9286 -3,5589 10 8 27,50 -0,24 -1,53 0,0576 2,3495 0,3679 11 4 17,08 -4,24 -11,95 17,9776 142,8694 50,6799 12 11 37,00 2,76 7,97 7,6176 63,4763 21,9895 13 12 41,95 3,76 12,92 14,1376 166,8541 48,5687 14 2 11,66 -6,24 -17,37 38,9376 301,8142 108,4063 15 4 21,65 -4,24 -7,38 17,9776 54,5057 31,3031 16 4 17,89 -4,24 -11,14 17,9776 124,1620 47,2455 17 20 69,00 11,76 39,97 138,2976 1597,3771 470,0143 18 1 10,30 -7,24 -18,73 52,4176 350,9178 135,6255 19 10 34,93 1,76 5,90 3,0976 34,7770 10,3791 20 15 46,59 6,76 17,56 45,6976 308,2553 118,6867 21 15 44,88 6,76 15,85 45,6976 251,1337 107,1271 22 16 54,12 7,76 25,09 60,2176 629,3676 194,6767 23 17 56,63 8,76 27,60 76,7376 761,6054 241,7515 24 6 22,13 -2,24 -6,90 5,0176 47,6486 15,4623 25 5 21,15 -3,24 -7,88 10,4976 62,1385 25,5403 Total 206 725,82 698,5600 6105,9447 2027,7132 rerata 8,24 29,0328 4881 , 84 1 25 7132 , 2027 ) , ( 1 1 ) )( ( ) , ( 1 = − = − = − − − =  = Y X Cov n S n y y x x Y X Cov xy n i i i 1067 , 29 1 25 5600 , 698 1 1 ) ( 2 1 2 2 = − = − = − − =  = x xx n i i x s n S n x x s 4144 , 254 1 25 9447 , 6105 1 1 ) ( 2 1 2 2 = − = − = − − =  = y yy n i i y s n S n y y s 9818 , 0 4144 , 254 1067 , 29 4881 , 84 ) , ( =  = = xy y x xy r s s Y X Cov r
  • 88. Dot Product 88 No x y x' y' x'y' 1 2 9,95 -1,1566 -1,1964 1,3838 2 8 24,45 -0,0445 -0,2873 0,0128 3 11 31,75 0,5116 0,1704 0,0871 4 10 35,00 0,3262 0,3741 0,122 5 8 25,02 -0,0445 -0,2516 0,0112 6 4 16,86 -0,7859 -0,7632 0,5998 7 2 14,38 -1,1566 -0,9186 1,0625 8 2 9,60 -1,1566 -1,2183 1,4091 9 9 24,35 0,1409 -0,2936 -0,0414 10 8 27,50 -0,0445 -0,0961 0,0043 11 4 17,08 -0,7859 -0,7494 0,5889 12 11 37,00 0,5116 0,4995 0,2555 13 12 41,95 0,6969 0,8098 0,5644 14 2 11,66 -1,1566 -1,0892 1,2598 15 4 21,65 -0,7859 -0,4629 0,3638 16 4 17,89 -0,7859 -0,6986 0,549 17 20 69,00 2,1798 2,5057 5,4619 18 1 10,30 -1,342 -1,1744 1,5761 19 10 34,93 0,3262 0,3697 0,1206 20 15 46,59 1,253 1,1007 1,3792 21 15 44,88 1,253 0,9935 1,2449 22 16 54,12 1,4384 1,5728 2,2623 23 17 56,63 1,6237 1,7302 2,8093 24 6 22,13 -0,4152 -0,4328 0,1797 25 5 21,15 -0,6005 -0,4942 0,2968 Total 206 725,82 23,5635 rerata 8,24 29,0328 9818 , 0 1 25 5635 , 23 1 ' ' = − = − • = n Y X rxy 1067 , 29 1 25 5600 , 698 1 1 ) ( 2 1 2 2 = − = − = − − =  = x xx n i i x s n S n x x s 4144 , 254 1 25 9447 , 6105 1 1 ) ( 2 1 2 2 = − = − = − − =  = y yy n i i y s n S n y y s y i i x i i s x y y s x x x − = − = ' '
  • 89. Data Integration: Chi-Square Test Chi-square test merupakan uji independensi dua (atau lebih) metode klasifikasi yang terpetakan dalam tabel kontingensi dua arah (atau lebih). Jika statistik uji chi-square lebih besar dari batas kritis, maka disimpulkan tiada independensi alias ada interaksi antara kedua metode klasifikasi. 89    = = = = − = = r i c j ij ij ij r i c j ij ij ij E E O n O O E 1 1 2 2 1 1 ) (  where Oij: observed frequency Eij: expected fequency n : number of observations r : number of rows c : number of columns
  • 95. Latar Belakang  Basisdata menyimpan data berukuran terabyte.  Analisis data yang kompleks akan membutuhkan waktu yang sangat lama untuk dijalankan pada kumpulan data yang lengkap.  Lebih banyak atribut tidak berarti lebih sukses dalam proses penambangan data.  Bekerja dengan atribut yang lebih sedikit mengurangi kerumitan masalah dan waktu pengerjaan.  Dengan atribut yang lebih sedikit, kemampuan generalisasi meningkat.  Nilai untuk atribut tertentu mungkin sulit dan mahal untuk didapatkan. 95
  • 96. Data Reduction Data reduction Obtains a reduced representation of the data set that is much smaller in volume but yet produces the same (or almost the same) analytical results Data reduction strategies Data cube aggregation Dimensionality reduction Numerosity reduction Data compression 96
  • 98. Data Cube Aggregation 98 Complete Set of Features Empty Set of Features
  • 99. Data Cube Aggregation 99 {} {1} {2} {3} {4} {1,3} {2,3} {1,4} {2,4} {1,2} {3,4} {1,2,3} {1,2,4} {1,3,4} {2,3,4} {1,2,3,4}
  • 101. Data Cube Aggregation Level terrendah aggregation di data cube Data ter-aggregate untuk entitas individu yang diamati misalnya, pelanggan dalam data warehouse tentang panggilan telepon. Level jamak aggregation di data cube Mengurangi lebih lanjut ukuran data yang perlu ditangani Merujuk level yang sesuai Menggunakan representasi terkecil yang cukup untuk menyelesaikan tugas Queries berdasarkan informasi ter-aggregate dengan data cube jika memungkinkan 101
  • 102. Dimensionality Reduction  Problem dimensionality  Ketika dimensionality bertambah, data di setiap dimensi semakin jarang  Kerapatan dan jarak antar data points, yang kritis dalam clustering, menyebabkan analisis outlier menjadi kurang berarti  Kombinasi subgrup yang memungkinkan bertambah tumbuh secara eksponensial  Dimensionality reduction  Mengurangi problem dimensionality  Mengeliminasi fitur/atribut yang tidak relevan dan mereduksi noise  Mereduksi waktu dan ruang yang diperlukan dalam penambangan data  Mempermudah visualization 102
  • 103. Dimensionality Reduction  Teknik dimensionality reduction  Wavelet transforms  Principal Component Analysis  Supervised and nonlinear techniques (e.g., feature selection)  Heuristic methods:  step-wise forward selection / step-wise best feature selection  step-wise backward elimination / step-wise worst attribute elimination  combining forward selection and backward elimination  branch and bound elimination and backtracking  decision-tree induction 103
  • 104. Dimensionality Reduction 104 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 A 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 B 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1 C 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1 D 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1 E 0 1 0 0 0 1 1 0 1 1 0 0 0 0 1 0 F 1 1 1 0 1 1 0 0 1 0 1 0 0 1 0 0 V ar. 5 V ar. 1. V ar. 13
  • 105. Dimensionality Reduction: Feature Selection  Feature selection (misalnya: seleksi atribut):  Menyeleksi fitur minimal yang mungkin di mana distribusi probabilitas dengan dengan fitur terbatas tersebut mempunyai nilai yang mendekati distribusi probabilitas awal dengan fitur lengkap.  Menemukan subset dari atribut/fitur/variabel dari kumpulan data yang mengoptimalkan probabilitas keberhasilan dalam penambangan data.  Mengurangi noise yang menimbulkan pola dalam pola, agar lebih mudah dipahami  Feature selection outcomes:  Less data → algorithms could learn quickly  Higher accuracy → the algorithm better generalizes  Simpler results → easier to understand them 105
  • 106. Dimensionality Reduction: Feature Selection  Feature selection:  Terdapat 2d sub-fitur yang mungkin dari fitur sebanyak d  Dimulai dengan menghilangkan atribut yang tidak relevan (tidak bermanfaat untuk model informasi dari insight ), atribut redundan (sebagian besar atau semua tuple sama dengan atribut lainnya), serta atribut homogen (tidak mempunyai variabilitas atau sedikit variabilitas).  Feature selection:  Filter. Goal Function mengevaluasi himpunan bagian berdasarkan informasi yang dikandungnya. Ukuran separasi kelas, dependensi statistik, teori informasi,… digunakan sebagai fungsi tujuan.  Wrapper. Goal Function terdiri dari penerapan teknik pembelajaran yang sama yang akan digunakan kembali pada data hasil pemilihan fitur. Nilai yang dikembalikan biasanya sesuai tingkat akurasi dari klasifikasi yang terbangun. 106
  • 107. Dimensionality Reduction: Feature Selection Filter  Advantages:  Fast: They usually compute frequencies, much quicker than training a classifier.  Generality: Due to they evaluate intrinsic properties of the data and not their interaction with a classifier, they can be used in any problem.  Drawbacks:  Trend to include many variables: Normally, it is due to the fact that there are monotone features in the goal function used. Wrapper  Advantages:  Accuracy: generally, they are more accurate than filters, due to the interaction between the classifier used in the goal function and the training data set.  Generalization capability: they pose capacity to avoid overfitting due to validation techniques employed.  Drawbacks:  Very costly: for each evaluation, it is required to learn and validate a model. It is prohibitive to complex classifiers.  Ad-hoc solutions: The solutions are skewed towards the used classifier. 107
  • 109. Dimensionality Reduction: Decision-Tree Induction 109 Initial attribute set: {A1, A2, A3, A4, A5, A6} A4 ? A1? A6? Class 2 Class 1 Class 1 Class 2 > Reduced attribute set: {A1, A4, A6}
  • 110. Dimensionality Reduction: Wavelet Transform Mendekomposisi sinyal menjadi beberapa frequency subbands yang berbeda. Diaplikasikan pada n-dimensional signals. Data ditransformasikan untuk mempertahankan jarak relatif antar objek pada level resolusi yang berbeda. Menggunakan klaster alami agar lebih mudah dibedakan Digunakan untuk image compression 110
  • 111. Dimensionality Reduction: Wavelet Transform 111 8000 points 2000 points 500 points
  • 112. Dimensionality Reduction: Wavelet Transform Wavelets: A math tool for space-efficient hierarchical decomposition of functions S = [2, 2, 0, 2, 3, 5, 4, 4] dapat ditransformasikan menjadi S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0] Compression: banyak koefisien detail kecil dapat diganti dengan 0, dan hanya koefisien signifikan yang dipertahankan 112
  • 113. Dimensionality Reduction: Wavelet Transform 113 2 2 0 2 3 5 4 4 -1.25 2.75 0.5 0 0 -1 0 -1 + - + + + + + + + - - - - - - + - + + - + - +- +- - + +- -1 -1 0.5 0 2.75 -1.25 0 0 Original frequency distribution Hierarchical decomposition structure (a.k.a. “error tree”) Coefficient “Supports”
  • 114. Dimensionality Reduction: PrincipalComponentAnalysis Mencari proyeksi yang menangkap variasi data terbanyak Data asli diproyeksikan pada ruang yang jauh lebih sempit untuk menghasilkan dimensionality reduction. Menggunakan eigenvectors dari covariance matrix untuk menentukan ruang data yang baru 114
  • 115. Dimensionality Reduction: PrincipalComponentAnalysis  Berdasarkan N vektor data dari n-dimensi, mencari k (≤ n) vektor ortogonal (sebagai principal components) yang dapat digunakan merepresentasikan data.  Menormalisasikan data input: Setiap atribut berada dalam rentang yang sama  Menghitung k vektor ortogonal (sebagai principal components)  Setiap data input (sebagai vektor) merupakan kombinasi linier dari k principal component vectors  Principal components diurutkan berdasarkan penurunan signifikansi  Setelah principal components diurutkan, banyaknya data dapat dikurangi dengan menghilangkan principal components yang lemah.  Hanya dapat dipergunakan pada data numerik. 115
  • 116. Numerosity Reduction Mengurangi volume data dengan alternatif pemilihan untuk menghasilkan representasi data yang lebih sedikit. Parametric methods (e.g., regression) Berasumsi data sesuai model tertentu, mengestimasikan parameter model, menyimpan parameter dari model menggantikan data Misalnya: regresi linier, regresi polinomial, regresi non-linier: log- linear model, exponential model, power model, logistic model, saturation growth model, Non-parametric methods Tanpa asumsi model tertentu Menggunakan: histograms, clustering, sampling, … 116
  • 117. Numerosity Reduction: Regression Analysis Regression analysis: teknik analisis dan pemodelan data numerik yang terdiri dari variabel terikat (dependent variable, response variable or effect) dan variabel bebas (independent variables, explanatory variables or predictors) Mengestimasikan parameter untuk memperoleh model yang paling mendekati deskripsi data Metode yang paling umum digunakan mengevaluasi kesesuaian model adalah least squares method. Meskipun demikian kriteria lainnya juga terkadang digunakan Digunakan untuk inferensi dan prediksi hubungan kausal 117
  • 118. Numerosity Reduction: Regression Analysis Regresi Linier : y = a0 + a1.x Regresi Polinomial : y = a0 + a1.x + a2.x2 + a3.x3 + ... Regresi Nonlinier Regresi Berganda : y = a0 + a1.x1 + a2.x2 + a3.x3 + ... Regresi model gabungan 118
  • 119. Numerosity Reduction: Regression Analysis 119 x y 203 3267 222 3368 224 3459 232 3325 234 3561 248 3264 248 3232 254 3556 271 3893 280 3204 310 3414 319 3369 331 3409 347 3314 365 3346 365 3215 366 3219 371 3311 388 3159 389 3207 411 3176 414 2984 414 3110 416 3428 421 3330 427 3628 439 3588 466 3943 489 4553 498 4530 xmin xmax a0 a1 203 280 2862,817 2,2767 310 389 4304,515 -2,8392 411 498 -3577,94 16,3935 y = a0 + a1.x 30 tuples 2 attributes → 3 tuples 4 attributes 60 data → 12 data
  • 120. Numerosity Reduction: Histogram Mengelompokkan data dalam beberapa kelas, selanjutnya menyimpan nilai acuan (mean, median, sum, boundary) dan frekuensinya untuk setiap kelas Aturan partisi pembagian kelas: Equal-width: equal bucket range Equal-frequency (or equal-depth) 120
  • 121. Numerosity Reduction: Histogram 121 Class Freq 70 < x < 90 2 90 < x < 110 3 110 < x < 130 6 130 < x < 150 14 150 < x < 170 22 170 < x < 190 17 190 < x < 210 10 210 < x < 230 4 230 < x < 250 2 Xmin Xmax Fr 70 90 2 90 110 3 110 130 6 130 150 14 150 170 22 170 190 17 190 210 10 210 230 4 230 250 2 Mid Fr 80 2 100 3 120 6 140 14 160 22 180 17 200 10 220 4 240 2 80 data → 27 data → 18 data
  • 122. Numerosity Reduction: Clustering Mengelompokkan data dalam beberapa cluster berdasarkan similarity, selanjutnya menyimpan representasi cluster (misalnya titik pusat dan diameter) Sangat efektif saat data terpolarisasi dalam beberapa cluster, namun sangat susah saat data tersebar acak dan tercampur Dapat menggunakan hierarchical clustering dan disimpan dalam multi-dimensional index tree structures Terdapat banyak metode dan algoritma clustering 122
  • 123. Numerosity Reduction: Clustering 123 x y 203 3326 203 3728 222 3896 250 2823 251 3709 261 4186 265 3035 274 3991 281 3470 295 3376 342 5808 347 5781 348 5441 351 6010 352 5563 359 5951 360 5749 365 5925 371 5635 375 5891 450 1741 467 460 469 502 533 1278 558 3670 572 2326 573 3986 614 2799 616 2589 638 4489 xcentroid ycentroid Δx Δy 251 3554 92 1363 357 5775 33 569 549 2384 188 4029 30 tuples 2 attributes → 3 tuples 4 attributes 60 data → 12 data
  • 124. Numerosity Reduction: Sampling Memilih secara acak sebagian data sejumlah n dari keseluruhan data sebanyak N, selanjutnya menggunakannya sebagai representasi. Sampling tidak mengurangi data yang tersimpan di basisdata, melainkan hanya memanggil sebagian data yang terpilih sebagai sampel. Disarankan menggunakan metode stratified sampling. Terlebih dahulu data dikelompokkan dalam beberapa strata berdasarkan kategori atau jenjang intervalnya, selanjutnya diambil sampel acak dari setiap strata secara proporsional atau nonproporsional 124
  • 125. Numerosity Reduction: Sampling 125 Sumber : Saunders, M, Lewis, P & Thornhill, A. (2009). Research Methods for business students, fifth edition (pp. 210-251). Harlow England: Pearson Education.
  • 126. Numerosity Reduction: Sampling 126 Sumber : Smith, T. (2009). Critical Appraisal of Quantitative and Qualitative Research Literature, The Radiographer 56(3), (pp. 6-10).Australian Institute of Radiography.
  • 131. Numerosity Reduction: Prototype Selection Prototype selection atau Instance based learning adalah mengambil acak sebagian data yang relevan dengan pemodelan untuk memperoleh hasil maksimum. Prototype selection menggunakan algoritma penambangan data Direction of the search: Incremental, decremental, batch, hybrid or fixed. Selection type: Condensation, Edition, Hybrid. Evaluation type: Filter or wrapper. 131
  • 132. Numerosity Reduction: Prototype Selection 132 Training Data Set (TR) Test Data Set (TS) Instances Selected (S) Prototype Selection Algorithm Instance-based Classifier
  • 134. Data Compression String compression There are extensive theories and well-tuned algorithms Typically lossless, but only limited manipulation is possible without expansion Audio/video compression Typically lossy compression, with progressive refinement Sometimes small fragments of signal can be reconstructed without reconstructing the whole Time sequence is not audio Typically short and vary slowly with time Dimensionality and numerosity reduction may also be considered as forms of data compression 134
  • 135. Data Compression 135 Original Data Compressed Data lossless Original Data Approximated
  • 137. Data Transformation Data transformation  Memetakan seluruh nilai awal atribut digantikan nilai baru atribut.  Setiap nilai awal dapat teridentifikasi oleh satu nilai baru. Data transformation methods: Smoothing: menghilangkan noise dari data Aggregation: ringkasan, rekapitulasi, konstruksi data cube Generalization: dinaikkan ke hirarki konsep yang lebih tinggi Normalization: memakai skala lebih kecil dalam rentang spesifik ➢min-max normalization : interpolation or extrapolation ➢z-score normalization : standardized normal distribution ➢normalization by decimal scaling : equivalent conversion [0,1] Attribute/feature construction ➢Atribut baru terkonstruksi dengan aturan yang ditentukan ➢Linear transformations, quadratic, polynomial, … 137
  • 138. Data Transformation min-max normalization : interpolation or extrapolation z-score normalization : standardized normal distribution normalization by decimal scaling : equivalent conversion [0,1] zero set to origin zero set to minimum value 138 ) _ _ ( _ ' min new max new min max min v min new v − − − + =   − = v v' j v v 10 '= Where j is the smallest integer such that Max(|ν’|) < 1 min max min v v − − = '
  • 139. Data Transformation: min-max normalization 139 x y x' y' 203 3326 0,86 2,38 203 3728 0,86 2,66 222 3896 1,02 2,78 250 2823 1,25 2,02 251 3709 1,26 2,65 261 4186 1,34 2,99 265 3035 1,38 2,17 274 3991 1,45 2,85 281 3470 1,51 2,48 295 3376 1,63 2,41 342 5808 2,02 4,15 347 5781 2,06 4,13 348 5441 2,07 3,89 351 6010 2,09 4,29 352 5563 2,10 3,97 359 5951 2,16 4,25 360 5749 2,17 4,11 365 5925 2,21 4,23 371 5635 2,26 4,03 375 5891 2,29 4,21 450 1741 2,92 1,24 467 460 3,06 0,33 469 502 3,08 0,36 533 1278 3,61 0,91 558 3670 3,82 2,62 572 2326 3,93 1,66 573 3986 3,94 2,85 614 2799 4,28 2,00 616 2589 4,30 1,85 638 4489 4,48 3,21 nilai x : min = 100 dan max = 700 min_new = 0 dan max_new = 5 nilai y : min = 0 dan max = 7000 min_new = 0 dan max_new = 5 86 , 0 85833 , 0 ' ) 0 5 ( 100 700 100 203 0 '  = − − − + = x x 38 , 2 37571 , 2 ' ) 0 5 ( 0 7000 0 3326 0 '  = − − − + = y y
  • 140. Data Transformation: z-score normalization 140 x y x' y' 203 3326 -1,38 -0,35 203 3728 -1,38 -0,11 222 3896 -1,23 -0,01 250 2823 -1,02 -0,66 251 3709 -1,02 -0,12 261 4186 -0,94 0,17 265 3035 -0,91 -0,53 274 3991 -0,84 0,05 281 3470 -0,79 -0,26 295 3376 -0,68 -0,32 342 5808 -0,33 1,15 347 5781 -0,29 1,14 348 5441 -0,28 0,93 351 6010 -0,26 1,28 352 5563 -0,25 1,00 359 5951 -0,20 1,24 360 5749 -0,19 1,12 365 5925 -0,15 1,22 371 5635 -0,11 1,05 375 5891 -0,08 1,20 450 1741 0,49 -1,31 467 460 0,62 -2,09 469 502 0,63 -2,06 533 1278 1,11 -1,59 558 3670 1,30 -0,14 572 2326 1,41 -0,96 573 3986 1,42 0,05 614 2799 1,72 -0,67 616 2589 1,74 -0,80 638 4489 1,91 0,35 nilai x : mean = 385,5 std deviation = 132,466 nilai y : mean = 3904,467 std deviation = 1651,079 38 , 1 37771 , 1 ' 466 , 132 5 , 385 203 ' −  − = − = x x 35 , 0 35036 , 0 ' 079 , 1651 467 , 3904 3326 ' −  − = − = y y
  • 141. Data Transformation: decimal scaling 141 x y x' y' 203 3326 0,17 0,48 203 3728 0,17 0,53 222 3896 0,20 0,56 250 2823 0,25 0,40 251 3709 0,25 0,53 261 4186 0,27 0,60 265 3035 0,28 0,43 274 3991 0,29 0,57 281 3470 0,30 0,50 295 3376 0,33 0,48 342 5808 0,40 0,83 347 5781 0,41 0,83 348 5441 0,41 0,78 351 6010 0,42 0,86 352 5563 0,42 0,79 359 5951 0,43 0,85 360 5749 0,43 0,82 365 5925 0,44 0,85 371 5635 0,45 0,81 375 5891 0,46 0,84 450 1741 0,58 0,25 467 460 0,61 0,07 469 502 0,62 0,07 533 1278 0,72 0,18 558 3670 0,76 0,52 572 2326 0,79 0,33 573 3986 0,79 0,57 614 2799 0,86 0,40 616 2589 0,86 0,37 638 4489 0,90 0,64 nilai x : min = 100 dan max = 700 nilai y : min = 0 dan max = 7000 17 , 0 17167 , 0 ' 100 700 100 203 '  = − − = x x 48 , 0 47514 , 0 ' 0 7000 0 3326 '  = − − = y y
  • 143. Data Discretization Discretization Mengurangi banyaknya ragam nilai dari atribut, terutama data kontinyu dengan memecahnya dalam beberapa interval. Label interval dapat digunakan menggantikan nilai aktual atribut. Discretization methods: Menggunakan distribusi frekuensi untuk mengelompokkan nilai kontinyu (atau diskrit rentang lebar) sesuai interval kelasnya Klasifikasi nilai terklaster dalam kelas kategori nominal. Concept hierarchy climbing Mengurangi ragam nilai data dengan mengelompokkan dan mengganti hirarki konsep rendah ke yang lebih tinggi. 143
  • 145. Data Discretization Discretization dikembangkan beberapa jalur sesuai kebutuhan: Supervised vs. unsupervised: Apakah mempertimbangkan atribut (field) sasaran? Dinamical vs. Static: Apakah simultan saat model dibangun? Local vs. Global: Apakah memperhatikan sebagian atau semua data (tuple atau instance)? Top-down vs. Bottom-up: Apakah daftar cut point dimulai dari kosong (lalu ditambah satu persatu) atau banyak (lalu digabung sebagian dan sebagian)? Direct vs. Incremental: Apakah keputusan secara serentak bersama atau satu persatu? 145
  • 147. Data Discretization Discretization methods: Binning Klasifikasi dan kategorisasi Histogram atau distribusi frekuensi Tabel kontingensi Analisa klaster Menaikkan hirarki konsep lebih tinggi 147
  • 148. Data Discretization: Binning Binning method:  Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34  Partition into (equal-width) bins: - Bin 1 (4<x<14) : 4, 8, 9 - Bin 2 (14<x<24): 15, 21, 21 → 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3 - Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34  Partition into (equal-depth) bins: - Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15 - Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25 → 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3 - Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34 148
  • 151. Data Discretization: Classification 151 Klasifikasi usia sebagai berikut: 1) Masa Balita: 0–5 Tahun; 2) Masa Kanak-Kanak: 5–11 Tahun; 3) Masa Remaja: 12–25 Tahun; 4) Masa Dewasa: 26–45 Tahun; 5) Masa Lansia: 46–lebih Tahun
  • 152. Data Discretization: Histogram 152 Class Fr 70 < x < 90 2 90 < x < 110 3 110 < x < 130 6 130 < x < 150 14 150 < x < 170 22 170 < x < 190 17 190 < x < 210 10 210 < x < 230 4 230 < x < 250 2 2 8 6 6 3 6 6 4 2 5 5 6 3 5 5 4 9 8 6 7 6 5 6 3 5 4 5 3 5 7 5 4 7 6 7 7 7 4 5 3 4 6 1 5 6 4 8 4 8 5 2 6 5 6 5 5 7 5 4 5 4 6 4 5 5 6 4 1 5 9 5 4 7 7 7 6 5 6 3 4 Class Fr 1 2 2 3 3 6 4 14 5 22 6 17 7 10 8 4 9 2
  • 153. Data Discretization: Clustering 153 x y 203 3326 203 3728 222 3896 250 2823 251 3709 261 4186 265 3035 274 3991 281 3470 295 3376 342 5808 347 5781 348 5441 351 6010 352 5563 359 5951 360 5749 365 5925 371 5635 375 5891 450 1741 467 460 469 502 533 1278 558 3670 572 2326 573 3986 614 2799 616 2589 638 4489 xcentroid ycentroid Δx Δy 251 3554 92 1363 357 5775 33 569 549 2384 188 4029 Cluster 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3
  • 154. Data Discretization: Contingency Table 154 row column label Fr 1 1 1 O11 1 2 2 O12 : : : 1 c c O1c r c r X c Orc row column label Fr 1 1 1 182 1 2 2 213 1 3 3 203 2 1 4 154 2 2 5 138 2 3 6 110
  • 155. Data Discretization: Concept Hierarchy Concept hierarchy mengatur nilai atribut berjenjang secara hirarki dan biasanya terhubung dengan setiap dimensi di data warehouse Concept hierarchy memfasilitasi operasi drilling-down dan rolling-up pada data warehouse untuk melihat data dengan hirarki berbeda. Concept hierarchy dapat ditentukan secara eksplisit oleh domain experts dan/atau data warehouse designers Concept hierarchy dapat berformat numerik atau nominal/kategori. 155
  • 157. Data Discretization: Concept Hierarchy Spesifikasi sesuai pengurutan sebagian/total atribut secara eksplisit di schema level oleh pengguna atau expert Address → street < city < province <country Spesifikasi hirarki dari himpunan nilai atribut dengan data grouping secara eksplisit. Address → {Surabaya, Sidoarjo, Mojekorto} < East Java Spesifikasi sesuai urutan sebagian dari set of attributes Address → street < city , not others Spesifikasi berdasarkan pembangkitan hierarchy dari analisis banyaknya nilai yang berbeda di attribute level. Address → a set of attributes: {street, city, province, country} 157
  • 158. Data Discretization: Concept Hierarchy Beberapa hierarchy dapat dibangkitkan secara mudah dengan membandingkan banyaknya ragam nilai per-atribut dalam dataset  Atribut yang mempunyai nilai lebih beragam (banyak ragam) ditempatkan di level lebih rendah pada hierarchy  Pengecualian misal: day, date, week, month, quarter, year 158 country province city street 15 distinct values 365 distinct values 3567 distinct values 674,339 distinct values year quarter month date 2020 distinct values 4 distinct values 12 distinct values 31 distinct values week day 7 distinct values 5 distinct values
  • 159. 159 Terima kasih ... ... Ada pertanyaan ???