Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05

PREPARASI DATA:
Pembersihan dan Proses
Awal Data
ARIF RAHMAN
1

3
Godsey, B, Think Like a Data
Scientist: Tackle the Data
Science Process Step-by-Step

5
Cielen, D, Meysman, ADB, & Ali, M,
Introducing Data Science: Big Data,
Machine Learning, and More, Using
Python Tools

Pembersihan Data
(Data Cleansing) dan
Proses Awal Data
(Data Preprocessing)
6

Pembersihan dan Proses Awal Data
7

8
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan

Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
9

 How do I detect and control noise?—Noise Discovering.
 How do I clean up the data?—Data Cleaning.
 How do I handle missing data?—Missing Data Imputation.
 How do I provide accurate data and standard format?—Data Transformation.
 How do I incorporate and adjust data?—Data Integration.
 How do I unify and scale data?—Data Structure Normalization.
 How do I reduce the dimensionality of data?—Feature Selection (FS).
 How do I remove redundant and/or conflictive examples?—Instance Selection (IS).
 How do I simplify the domain of an attribute?—Discretization.
 How do I fill in gaps in data?—Feature Extraction and/or Instance Generation.
13

14

Problem Kualitas Data
Noise and outliers
Wrong data
Fake data
Missing values
Duplicate data
15

Noise
 Untuk objek data, noise merupakan kejanggalan objek data yang
asing dan tak selaras dengan pola umum
 Untuk atribut data, noise merupakan perubahan atau penyimpangan
dari nilai sesungguhnya
 Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan
suara lain dari lingkungan yang ikut tertangkap mikrofon.
 Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama
namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua
gelombang sinus yang terdistorsi oleh random noise acak.
16

Noise
18
Examples of the interaction between classes: a) small disjuncts and
b) overlapping between classes

Outliers adalah objek data dengan karakteristik yang
sangat berbeda dari sebagian besar objek data
lainnya dalam dataset
Kasus 1: Outliers menjadi
noise yang mengganggu
analisis data
Kasus 2: Outliers menjadi
tujuan analisis data
➢ Credit card fraud
➢ Intrusion detection
Outliers
19

Missing Values
Latar belakang terjadinya missing values
Informasi tidak dapat diperoleh karena keengganan, penolakan,
kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak
bersedia menyampaikan usia atau berat badannya)
Atribut data yang tidak mungkin cocok untuk sebagian kasus
(misalnya gaji untuk anak-anak)
Kegagalan alat atau ketidak-sengajaan penghapusan.
Penanganan missing values
Mengeliminasi objek data atau variabel
Mengestimasi missing values
➢Misalnya dengan regresi atau interpolasi
➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip
Mengabaikan missing value selama analisis data
22

Duplicate Data
Dataset mungkin mengandung objek data yang redundansi
atau terduplikasi secara utuh atau sebagian.
Contoh: orang yang sama dengan alamat e-mail berbeda
Pengumpulan data dari beberapa sumber heterogen
mempunyai isu mayor memperoleh duplicate data.
Contoh: data identitas pribadi orang yang sama diperoleh dari
instansi kependudukan dan dari afiliasi pekerjaan
Penanganan duplicate data
Mengeliminasi duplicate data
Mencatat atau merekap frekuensi duplikasi
Mengumpulkan subset data yang menjadi data-child untuk
sebagian data berbeda
23

Operasi Dasar dalam Data Preprocessing
Data cleaning
 Fill in missing values, smooth noisy data, identify or remove outliers, and resolve
inconsistencies
Data integration
 Integration of multiple databases, data cubes, or files
Data reduction
 Dimensionality reduction
 Numerosity reduction
 Data compression
Data transformation and data discretization
 Normalization
 Concept hierarchy generation
24

Data Cleaning
Data cleaning
fixes or removes incorrect, corrupted, incorrectly formatted,
duplicate, incomplete or missing data within a dataset.
Data cleaning tasks:
Data acquisition
Metadata and reformatting
Fill in missing values
Unified date format
Converting nominal to numeric
Identify outliers and smooth out noisy data
Correct inconsistent data
25

Data Integration
Data integration:
combines data from multiple sources into a coherent store
Schema integration
integrate metadata from different sources
Entity identification problem: identify real world entities from
multiple data sources, e.g., A.cust-id ≡ B.cust-#
Careful integration of the data from multiple sources may help
reduce/avoid redundancies and inconsistencies and improve
mining speed and quality
26

Data Reduction
Data reduction
Obtains a reduced representation of the data set that is much
smaller in volume but yet produces the same (or almost the same)
analytical results
Data reduction strategies
Data cube aggregation
Dimensionality reduction
Numerosity reduction
Data compression
27

Data Transformation
Data transformation
 maps the entire set of values of an attribute to a new set of replacement values.
 Each old value can be identified with one of the new values
Data transformation methods:
Smoothing: remove noise from data
Aggregation: summarization, data cube construction
Generalization: concept hierarchy climbing
Normalization: scaled to fall within a small, specified range
➢min-max normalization
➢z-score normalization
➢normalization by decimal scaling
Attribute/feature construction
➢New attributes constructed from the given ones
28

Data Discretization
Discretization
reduce the number of values for a given continuous attribute by
dividing the range of the attribute into intervals. Interval labels can
then be used to replace actual data values.
Discretization methods:
Divide the range of a continuous value into intervals
Classify the clustered value into categorical attributes.
Concept hierarchies
reduce the data by collecting and replacing low level concepts
(such as numeric values for the attribute age) by higher level
concepts (such as young, middle-aged, or senior).
29

Pembersihan Data
(Data Cleaning)
30

Latar Belakang
Kualitas Data tidak baik karena kesalahan manusia, kegagalan instrumen,
gangguan transmisi atau lainnya
 incomplete: data kosong (missing data), data terpotong (lacking value),
data simpulan umum (aggregate data)
 noisy: terkacaukan (noise), salah (errors), menyimpang (outliers),
janggal (absurd)
 inconsistent: berbeda nilai (discrepancies), berbeda standar pelabelan
(irregularities), berbeda field (deformities) misal usia vs tanggal lahir
 Intentional: nilai baku bawaan (default value), pengganti data kosong
(disguised missing data)
31

Data Cleaning
Preemptive:
Process architecture (memeriksa integritas data)
Process management (mengendalikan data entry, data sharing,
data stewards)
Retrospective:
Cleaning focus (menghapus-menggabungkan duplikasi data,
mencocokkan-mengoreksi inkonsistensi data, memadukan-
membakukan keragaman format data, menerka-menggantikan
missing data)
Diagnostic focus (deteksi otomatis gangguan).
32

Data Cleaning Tasks
Data acquisition
Metadata and reformatting
Fill in missing values
Unified date format
Converting nominal to numeric
Identify outliers and smooth out noisy data
Correct inconsistent data
33

Data Cleaning: Data Acquisition
Data yang tersimpan dalam sistem basisdata
Protokol ODBC – JDBC – OLE DB
Data yang tersimpan dalam file arff (attribute-relation file
format), csv (comma-separated values), dan lainnya
Format dengan fixed-column
Pemisahan dengan pembatas (delimiters) : tabulasi, spasi ganda,
titik”.”, koma “,” , titik koma “;”, simbol, dll
Peringatan: hati-hati konversi pembatas (delimiters) dalam data
berformat strings
Verifikasi banyaknya atribut data (fields) sebelum dan
sesudah data cleaning
34

35

36

37

Data Cleaning: Metadata
Mengenali atribut data (field)
Tipe atribut data (field types):
➢binary, nominal (categorical), ordinal, numeric, …
➢Untuk data nominal: diperlukan table untuk menerjemahkan kode ke deskripsi
lengkap yang menjelaskan kategori/kelas
Pemanfaatan atribut data (field role):
➢input : inputs for modeling
➢target : output
➢id/auxiliary : keep, but not use for modeling
➢ignore : don’t use for modeling
➢weight : instance weight
➢…
Deskripsi dari atribut data (field descriptions)
Konversi dan perbaiki format data ke format baku seragam.
38

Data Cleaning: Missing Data
Ignore the tuple: biasanya dilakukan bila pendugaan sesuai
klasifikasi tidak mungkin dilakukan.
Fill in the missing value manually: jika data mentah tersedia dan
tidak merepotkan.
Use a global constant to fill in the missing value: misalnya
“nihil”, “kosong”, “tidak tahu”, atau lainnya
Imputation: menggunakan nilai mean atau modus
Use the most probable value: metode inferensia misalnya
Bayesian formula, decision tree, regression
39

Data Cleaning: Date Format
Terdapat banyak date format yang digunakan
misalnya “Sep 24, 2003” , 9/24/03, 24.09.03, 24-09-2003
Bahkan terkadang tersimpan dalam string format
Tersimpan dengan rincian data yang berbeda
Beberapa tersimpan dalam tahun (YY) atau (YYYY) saja
Sebagian juga menyimpan bulan tanpa tanggal spesifik
Namun juga mungkin menyimpan sangat rinci sampai jam
Mentransformasikan semua tanggal dalam date format yang
sama atau numeric format :
Banyak hari sejak 01-01-1960
Rasio tahun = tahun + (hari ke / banyak hari dalam setahun)
40

Data Cleaning: Nominal Conversion
Keterbatasan pemodelan data, karena banyak model data
yang mempersyaratkan input data numerik
Konversi data nominal ke numerik, kerapkali hanya
memberikan pelabelan untuk pembedaan tanpa
menunjukkan urutan (order), tingkat (level) ataupun jarak
(distance).
Terdapat beberapa strategi konversi data nominal:
Binary → Numeric
Ordered → Numeric
Multi-valued → Numeric
41

Data Cleaning: Nominal Conversion
Conversion: binary → numeric
Jenis kelamin → 0 (perempuan) dan 1 (laki-laki)
Conversion: ordered → numeric
Nilai → 4 (A), 3 (B), 2 (C), 1 (D), 0 (E)
Cuaca → 4(cerah), 3(berawan), 2(mendung), 1(gerimis), 0(hujan)
Conversion: multi-valued → numeric
Warna → merah (R=1;B=0;Y=0), hijau (R=0;B=1;Y=1)
Alamat → kodepos
Jurusan keilmuan → nomenklatur keilmuan
Metode umum: compound key, group technology, hierarchical
classification
42

Data Cleaning: Noisy Data + Ouliers
Noise: deviasi atau variansi yang acak dari data pengukuran
Faktor penyebab penyimpangan nilai:
faulty data collection instruments
data entry problems
data transmission problems
technology limitation
inconsistency in naming convention
Masalah lain yang mempengaruhi noisy data:
duplicate records
incomplete data
inconsistent data
43

44

Combined computer and human inspection
 Mendeteksi dan memeriksa nilai data yang dicurigai
Binning method:
 Mengurutkan data dan membagi data dalam beberapa bins
➢Equal-width (distance) partitioning
➢Equal-depth (frequency) partitioning
 Memuluskan data dengan bin means atau bin median atau bin boundaries, dan
lain-lain.
Empirical distribution
 Membuat pemetaan distribusi frekuensi dari data
 Mendeteksi dan memeriksa posisi tiap objek data dengan:
➢Interquartile Range (batas Q1 dan Q3)
➢Confidence Interval dengan pendekatan distribusi normal
45

Central tendency
 Menghitung dan memeriksa jarak (distance) tiap objek data dengan titik
pemusatan data mean, modus atau median
Curve fitting, regression atau interpolation
 Estimasi nilai dugaan data variabel terikat berbasis variabel bebasnya dengan
curve fitting, regression atau interpolation
 Menghitung dan memeriksa jarak (distance) antara nilai aktual dengan nilai
dugaan tiap objek data
Clustering
 Menentukan titik rujukan di tiap cluster
 Menghitung dan memeriksa jarak (distance) tiap objek data dengan masing-
masing titik rujukan di tiap cluster
46

Binning method:
47
Equal-width (distance) partitioning
Equal-depth (frequency) partitioning

Binning method:
 Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into (equal-width) bins:
- Bin 1 (4<x<14) : 4, 8, 9
- Bin 2 (14<x<24): 15, 21, 21
- Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34
 Smoothing by bin means:
- Bin 1: 7, 7, 7
- Bin 2: 19, 19, 19
- Bin 3: 272/3, 272/3, 272/3, 272/3, 272/3, 272/3
 Smoothing by bin boundaries:
- Bin 1: 4, 4, 14
- Bin 2: 14, 24, 24
- Bin 3: 24, 24, 24, 24, 34, 34
48

Binning method:
 Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into (equal-depth) bins:
- Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15
- Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25
- Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34
 Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
 Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
49

50

51
Confidence Interval
Critical
Limit
Rejection
Area
Rejection
Area
Outliers

52
x
3002
4570
15246
1581
2933
3427
4995
1940
2665
6618
1012
4635
585
6363
2689
3929
3892
2692
5252
4120
3193
543
4647
892
1341
3258
2645
5606
2235
1783
4648
x'
-0,24
0,34
4,29
-0,76
-0,26
-0,08
0,50
-0,63
-0,36
1,10
-0,97
0,37
-1,13
1,00
-0,35
0,11
0,09
-0,35
0,59
0,18
-0,17
-1,15
0,37
-1,02
-0,85
-0,14
-0,37
0,73
-0,52
-0,69
0,37
24
,
0
82
,
2706
13
,
3643
3002
'
82
,
2706
13
,
3643
−
=
−
=
=
=
x
s
x
x

53

Central Tendency
54
A deviation
indicates the
distance of data
object from the
mean
Outliers are extreme values
that differ from the mean
Outliers affect the measure of central
tendency, especially the mean

55
x y
106 3002
174 4570
207 15246
232 1581
256 2933
257 3427
266 4995
274 1940
279 2665
310 6618
313 1012
326 4635
336 585
345 6363
356 2689
371 3929
396 3892
406 2692
418 5252
425 4120
439 3193
445 543
448 4647
489 892
528 1341
539 3258
550 2645
556 5606
560 2235
619 1783
696 4648
x' y' distance
-2,01 -0,24 2,03
-1,52 0,34 1,56
-1,28 4,29 4,47
-1,10 -0,76 1,34
-0,93 -0,26 0,97
-0,92 -0,08 0,93
-0,86 0,50 0,99
-0,80 -0,63 1,02
-0,76 -0,36 0,84
-0,54 1,10 1,22
-0,52 -0,97 1,10
-0,42 0,37 0,56
-0,35 -1,13 1,18
-0,29 1,00 1,04
-0,21 -0,35 0,41
-0,10 0,11 0,14
0,08 0,09 0,12
0,15 -0,35 0,38
0,24 0,59 0,64
0,29 0,18 0,34
0,39 -0,17 0,43
0,44 -1,15 1,23
0,46 0,37 0,59
0,75 -1,02 1,27
1,04 -0,85 1,34
1,12 -0,14 1,12
1,20 -0,37 1,25
1,24 0,73 1,44
1,27 -0,52 1,37
1,69 -0,69 1,83
2,25 0,37 2,28
Outlier
01
,
2
42
,
138
58
,
384
106
'
42
,
138
58
,
384
−
=
−
=
=
=
x
s
x
x
24
,
0
82
,
2706
13
,
3643
3002
'
82
,
2706
13
,
3643
−
=
−
=
=
=
y
s
y
y
03
,
2
)
0
24
,
0
(
)
0
01
,
2
(
distance 2
2
=
−
−
+
−
−
=

Regression
56

Regression
57
ε = y – ŷ
A residual or error
is the distance
between an
observed y and
the estimated ŷ
An outlier has extreme
residual, since it is far away
from the linear regression
approximation

58
x y ŷ d d'
203 3267 3831 -564 -0,52
222 3368 3804 -436 -0,40
224 9214 3801 5413 4,97
224 3459 3801 -342 -0,31
232 3325 3789 -464 -0,43
234 3561 3787 -226 -0,21
248 3264 3766 -502 -0,46
248 3232 3766 -534 -0,49
254 3556 3758 -202 -0,19
271 3893 3733 160 0,15
280 3204 3720 -516 -0,47
310 3414 3677 -263 -0,24
319 3369 3664 -295 -0,27
331 3409 3647 -238 -0,22
347 3314 3624 -310 -0,28
365 3346 3598 -252 -0,23
365 3215 3598 -383 -0,35
366 3219 3596 -377 -0,35
371 3311 3589 -278 -0,26
388 3159 3564 -405 -0,37
389 3207 3563 -356 -0,33
411 3176 3531 -355 -0,33
414 2984 3527 -543 -0,50
414 3110 3527 -417 -0,38
416 3428 3524 -96 -0,09
421 3330 3517 -187 -0,17
427 3628 3508 120 0,11
439 3588 3491 97 0,09
466 3943 3452 491 0,45
489 4553 3419 1134 1,04
498 4530 3406 1124 1,03
Outlier
d
3831
)
203
4425
,
1
(
4124
ˆ
4425
,
1
4124
ˆ
1
0
1
0
=

−
+
=
−
=
=
+
=
y
a
a
x
a
a
y
52
,
0
52
,
1088
564
'
52
,
1088
0
564
3831
3267
−
=
−
=
=
=
=
−
=
−
=
d
d
s
d
d
s
d
d

Outliers
A distance represents the dissimilarity
each pair of data objects.
An outlier is
different from other
data objects. Most
its distances are
beyond the limit.
The data objects have high
similarity within a cluster and low
similarity between clusters
Clustering
59

Data Discretization: Clustering
60
x y
203 3326
203 3728
222 3896
250 2823
251 3709
261 4186
265 3035
274 3991
281 3470
295 3376
342 5808
347 5781
348 5441
351 6010
352 5563
359 5951
360 5749
365 5925
371 5635
375 5891
450 1741
467 460
469 502
533 1278
558 3670
572 2326
573 3986
614 2799
616 2589
638 4489
616 2589
xcentroid ycentroid
251 1,25 3554 2,54
357 2,14 5775 4,13
549 3,74 2384 1,70
x' y' d1 d2 d3
0,86 2,38 0,43 2,17 2,96
0,86 2,66 0,41 1,95 3,04
0,89 0,18 2,39 4,14 3,23
1,02 2,78 0,34 1,75 2,93
1,25 2,02 0,52 2,29 2,51
1,26 2,65 0,11 1,72 2,66
1,34 2,99 0,46 1,39 2,72
1,38 2,17 0,39 2,10 2,41
1,45 2,85 0,37 1,45 2,56
1,51 2,48 0,26 1,76 2,36
1,63 2,41 0,39 1,79 2,23
2,02 4,15 1,78 0,13 2,99
2,06 4,13 1,78 0,08 2,95
2,07 3,89 1,57 0,25 2,75
2,09 4,29 1,94 0,17 3,07
2,10 3,97 1,67 0,16 2,80
2,16 4,25 1,94 0,13 3,00
2,17 4,11 1,81 0,03 2,87
2,21 4,23 1,94 0,13 2,96
2,26 4,03 1,79 0,15 2,76
2,29 4,21 1,97 0,17 2,89
2,92 1,24 2,11 2,98 0,94
3,06 0,33 2,85 3,91 1,53
3,08 0,36 2,84 3,88 1,50
3,61 0,91 2,86 3,53 0,80
3,82 2,62 2,56 2,25 0,92
3,93 1,66 2,82 3,05 0,20
3,94 2,85 2,71 2,21 1,16
4,28 2,00 3,08 3,02 0,62
4,30 1,85 3,12 3,14 0,58
4,48 3,21 3,30 2,52 1,68
86
,
0
85833
,
0
)
0
5
(
100
700
100
203
0
'
5
max
0
min
700
max
100
min

=
−
−
−
+
=
=
=
=
=
x
n
n
o
o
38
,
2
37571
,
2
)
0
5
(
0
7000
0
3326
0
'
5
max
0
min
7000
max
0
min

=
−
−
−
+
=
=
=
=
=
y
n
n
o
o
Outlier
d1
d2
d3
23
,
3
)
70
,
1
18
,
0
(
)
74
,
3
89
,
0
(
d3
14
,
4
)
13
,
4
18
,
0
(
)
14
,
2
89
,
0
(
d2
39
,
2
)
54
,
2
18
,
0
(
)
25
,
1
89
,
0
(
d1
2
2
2
2
2
2
=
−
+
−
=
=
−
+
−
=
=
−
+
−
=

Integrasi Data
(Data Integration)
61

Data Integration
Data integration:
Menggabungkan data dari banyak sumber ke penyimpanan data
yang koheren (coherent datastore)
Schema integration
mengintegrasikan metadata dari berbagai sumber berbeda
Problem identifikasi entitas: mengenali entitas dari berbagai sumber
data, misal: A.cust-id ≡ B.cust-#
Integrasi data dari banyak sumber berbeda perlu dilakukan
dengan hati-hati untuk mencegah/mengurangi data redundan
dan tak konsisten, sekaligus memperbaiki kecepatan dan
kualitas penambangan data
62

Data Integration
Mendeteksi dan menangani konflik nilai data
Pada sumber berbeda, deskripsi entitas yang sama dirinci dalam
atribut (field) yang banyaknya dan macamnya berbeda.
Pada entitas yang sama pada atribut yang sama namun di sumber
berbeda mempunyai nilai data berbeda
Faktor perbedaan:
➢perbedaan sudut pandang, misal: usia vs tanggal lahir
➢perbedaan representasi, misal: alamat di satu field vs alamat di banyak field
➢perbedaan tipe data, misal: gender dalam string vs dalam nominal numerik
➢perbedaan skala, misal: skala british vs skala metrik
63

Data Integration
Data redundan sangat mungkin terjadi saat mengambil data
dengan mengintegrasikan banyak sumber berbeda
Object identification: objek data sama yang tersimpan di sumber
data berbeda dengan nama tabel (entity class) berbeda, nama
atribut (field) berbeda, tipe (data type) berbeda, dan nilai (value)
berbeda
Derivable data: Satu atribut mungkin juga menjadi atribut turunan
(derived attribute) di tabel lainnya
Data redundan mungkin dapat terdeteksi dengan:
correlation analysis
independence test
covariance analysis
64

Data Integration: Data Join or Algebra
65
Inner Join vs Outer Join
   M
a b c #1
d e f #1
g h i #2
j k l #3
  M
A B #1
C D #1
E F #2
G H #2
I J #4
     M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
     M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
j k l #3
I J #4
Inner Join Outer Join
Atribut yang
dipergunakan
untuk
memeriksa
dugaan
redundansi
data

Data Integration: Data Join or Algebra
66
Natural Join vs Cross Join
   M
a b c #1
d e f #1
g h i #2
j k l #3
  M
A B #1
C D #1
E F #2
G H #2
I J #4
     M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
     M
a b c A B #1
a b c C D #1
a b c E F
a b c G H
a b c I J
d e f A B #1
d e f C D #1
d e f E F
d e f G H
d e f I J
dan seterusnya
Natural Join Cross Join
Atribut yang
dipergunakan
untuk
memeriksa
dugaan
redundansi
data

Data Integration: Hirarki Data
Aggregation Relation
67

Aggregation Relation
68

Categorization Relation (Incomplete)
69

Categorization Relation (complete)
70

Data Integration: key-based relation
Star Schema
71

Snowflake Schema
72

Fact Constellations
73

Data Integration: Correlation Analysis
74

 Pearson’s r (product moment) correlation,
 Spearman’s  (rho) correlation,
 Kendall’s  (tau) correlation,
 Cronbach’s α (alpha) correlation,
 Blomqvist’s β (beta) correlation,
 Cramer’s  (nu) correlation,
 Moran’s  (iota) correlation,
 Shepherd’s  (pi) correlation,
 Hoeffding’s D correlation,
 Goodman and Kruskal’s  (lambda)
correlation,
 Goodman and Kruskal’s  (gamma)
correlation,
 Pearson’s C (contingency coeff) correlation,
 Pearson’s  (phi) correlation,
 Gaussian rank correlation,
 Biserial – Polyserial correlation,
 Tetrachoric – Polychoric correlation,
 Biweight midcorrelation,
 Distance correlation,
 Percentage bend correlation,
 Canonical correlation,
 Concordance correlation,
 Circular data correlation,
 Partial correlation,
 Multilevel correlation
Sumber : https://www.statisticssolutions.com/correlation-pearson-kendall-spearman/
https://www.statisticshowto.datasciencecentral.com/probability-and-statistics/correlation-coefficient-formula/
https://www.ncss.com/software/ncss/correlation-in-ncss/
75

Sumber: M. Allen. The SAGE Encyclopedia of Communication Research
Methods. Sage Publishing, 2017
https://methods.sagepub.com/images/virtual/the-sage-encyclopedia-of-
communication-research-methods/10.4135_9781483381411-table7.jpg
76

77
Linear increasing non-decreasing
Linear decreasing non-increasing
chaotic random
Sumber:
https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-
statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and-
spearman-correlation-methods/

Data Integration: Pearson Correlation
Pearson correlation mengukur hubungan linier antara
dua variabel. Pearson correlation merupakan ukuran
korelasi statistik yang paling umum. Kadang-kadang
disebut product-moment correlation, the simple linear
correlation, or the simple correlation coefficient.
78
yy
xx
xy
xy
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
i
xy
S
S
S
r
y
y
n
x
x
n
y
x
y
x
n
r
=






−






−
−
=







=
=
=
=
=
=
=
2
1
2
1
2
2
1
2
1
2
1
1
1
where
rxy: Pearson Correlation Coefficient
n : number of observations
xi : value of i-th x
yi : value of i-th y

Data Integration: Spearman Correlation
Spearman’s  (rho) correlation adalah perhitungan
korelasi nonparametrik berdasarkan peringkat.
Kadang-kadang disebut dengan Spearman rank
correlation. Menjadi korelasi alternatif nonparametrik
untuk menggantikan Pearson correlation.
79
)
(
)
(
)
1
(
6
1 2
1
2
i
i
i
n
i
i
xy
y
R
x
R
d
n
n
d
−
=
−
−
=

=

where
ρxy: Spearman Correlation Coefficient
di : the difference between the ranks of corresponding variables
R(xi): the ranks of i-th x
R(yi): the ranks of i-th y

Data Integration: Kendall Correlation
Kendall's  (tau) correlation merupakan korelasi
nonparametrik yang mengukur kekuatan asosiasi
antara dua variabel berdasarkan kombinasi pasangan
data. Dihitung dengan membandingkan selisih
pasangan data yang concordant (searah) dan
discordant (berlawanan). Jika ukuran sampel adalah
n, maka banyaknya pasangan adalah n(n-1) / 2.
80
)
1
(
2
1
−
−
=
n
n
n
n d
c
xy

where
τxy: Kendall Correlation Coefficient
nc : number of concordant
nd : number of discordant

Data Integration: Covariance
Pearson correlation yang mengukur hubungan linier
antara dua variabel juga dapat diperoleh dari
covariance dari X dan Y yang dibagi dengan
perkalian simpangan baku X dan Y.
81
( )
y
x
xy
n
i
i
i
s
s
Y
X
Cov
r
n
y
y
x
x
Y
Y
X
X
E
Y
X
Cov
)
,
(
1
)
)(
(
)
)(
(
)
,
( 1
=
−
−
−
=
−
−
=

=
where
xi : value of i-th x
Cov(X,Y): covariance of x and y

Data Integration: Dot Product
Pearson correlation yang mengukur hubungan linier
antara dua variabel juga dapat diperoleh dari dot
product dari X' dengan Y' sebagai vektor. Di mana
X' dan Y' diperoleh dari normalisasi Z dari X dan Y.
82
1
'
'
'
'
−
•
=
−
=
−
=
n
Y
X
r
s
x
y
y
s
x
x
x
xy
y
i
i
x
i
i where
xi' : value of i-th x

Analisis Korelasi: Pearson
84
No x y x2 y2 x.y
1 2 9,95 4 99,0025 19,90
2 8 24,45 64 597,8025 195,60
3 11 31,75 121 1008,0625 349,25
4 10 35,00 100 1225,0000 350,00
5 8 25,02 64 626,0004 200,16
6 4 16,86 16 284,2596 67,44
7 2 14,38 4 206,7844 28,76
8 2 9,60 4 92,1600 19,20
9 9 24,35 81 592,9225 219,15
10 8 27,50 64 756,2500 220,00
11 4 17,08 16 291,7264 68,32
12 11 37,00 121 1369,0000 407,00
13 12 41,95 144 1759,8025 503,40
14 2 11,66 4 135,9556 23,32
15 4 21,65 16 468,7225 86,60
16 4 17,89 16 320,0521 71,56
17 20 69,00 400 4761,0000 1380,00
18 1 10,30 1 106,0900 10,30
19 10 34,93 100 1220,1049 349,30
20 15 46,59 225 2170,6281 698,85
21 15 44,88 225 2014,2144 673,20
22 16 54,12 256 2928,9744 865,92
23 17 56,63 289 3206,9569 962,71
24 6 22,13 36 489,7369 132,78
25 5 21,15 25 447,3225 105,75
Total 206 725,82 2396 27178,5316 8008,47
( ) ( )
( ) ( )
9818
,
0
67
,
526814
29
,
679463
42436
59900
92
,
149518
75
,
200211
82
,
725
)
5316
,
27178
25
(
206
)
2396
25
(
)
82
,
725
206
(
)
47
,
8008
25
(
2
2
2
2
2
2
=
−
−
−
=
−

−


−

=
−
−
−
=







i
i
i
i
i
i
i
i
xy
y
y
n
x
x
n
y
x
y
x
n
r

Analisis Korelasi: Spearman
85
No x y R(x) R(y) d d2
1 2 9,95 3,5 2 1,5 2,25
2 8 24,45 13 13 0 0
3 11 31,75 18,5 16 2,5 6,25
4 10 35,00 16,5 18 -1,5 2,25
5 8 25,02 13 14 -1 1
6 4 16,86 7,5 6 1,5 2,25
7 2 14,38 3,5 5 -1,5 2,25
8 2 9,60 3,5 1 2,5 6,25
9 9 24,35 15 12 3 9
10 8 27,50 13 15 -2 4
11 4 17,08 7,5 7 0,5 0,25
12 11 37,00 18,5 19 -0,5 0,25
13 12 41,95 20 20 0 0
14 2 11,66 3,5 4 -0,5 0,25
15 4 21,65 7,5 10 -2,5 6,25
16 4 17,89 7,5 8 -0,5 0,25
17 20 69,00 25 25 0 0
18 1 10,30 1 3 -2 4
19 10 34,93 16,5 17 -0,5 0,25
20 15 46,59 21,5 22 -0,5 0,25
21 15 44,88 21,5 21 0,5 0,25
22 16 54,12 23 23 0 0
23 17 56,63 24 24 0 0
24 6 22,13 11 11 0 0
25 5 21,15 10 9 1 1
Total 206 725,82 425 425 0 48,5
( )
9813
,
0
15600
291
1
)
1
25
(
25
)
5
,
48
6
(
1
1
6
1
2
2
2
=
−
=
−


−
=
−
−
=

n
n
di
xy


Analisis Korelasi: Kendall
86
i x y
1 2 9,95
2 8 24,45 +
3 11 31,75 + +
4 10 35,00 + + –
5 8 25,02 + 0 + +
6 4 16,86 + + + + +
7 2 14,38 0 + + + + +
8 2 9,60 0 + + + + + 0
9 9 24,35 + – + + – + + +
10 8 27,50 + 0 + + 0 + + + –
11 4 17,08 + + + + + 0 + + + +
12 11 37,00 + + 0 + + + + + + + +
13 12 41,95 + + + + + + + + + + + +
14 2 11,66 0 + + + + + 0 0 + + + + +
15 4 21,65 + + + + + 0 + + + + 0 + + +
16 4 17,89 + + + + + 0 + + + + 0 + + + 0
17 20 69,00 + + + + + + + + + + + + + + + +
18 1 10,30 – + + + + + + – + + + + + + + + +
19 10 34,93 + + – 0 + + + + + + + + + + + + + +
20 15 46,59 + + + + + + + + + + + + + + + + + + +
21 15 44,88 + + + + + + + + + + + + + + + + + + + 0
22 16 54,12 + + + + + + + + + + + + + + + + + + + + +
23 17 56,63 + + + + + + + + + + + + + + + + + + + + + +
24 6 22,13 + + + + + + + + + + + + + + + + + + + + + + +
25 5 21,15 + + + + + + + + + + + + + + – + + + + + + + + +
j 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
( )
( )
8867
,
0
300
266
)
1
25
(
25
8
274
)
1
(
2
1
2
1
=
=
−

−
=
−
−
=
n
n
n
n D
C
xy

Concordant (+) if (Xi-Xj)(Yi-Yj) > 0 ➔274
Discordant (–) if (Xi-Xj)(Yi-Yj) < 0 ➔ 8
Independent (0) if (Xi-Xj)(Yi-Yj) = 0 ➔ 18

Kovarian
87
No x y δx δy δ2x δ2y δx.δy
1 2 9,95 -6,24 -19,08 38,9376 364,1533 119,0767
2 8 24,45 -0,24 -4,58 0,0576 21,0021 1,0999
3 11 31,75 2,76 2,72 7,6176 7,3832 7,4995
4 10 35,00 1,76 5,97 3,0976 35,6075 10,5023
5 8 25,02 -0,24 -4,01 0,0576 16,1026 0,9631
6 4 16,86 -4,24 -12,17 17,9776 148,1771 51,6127
7 2 14,38 -6,24 -14,65 38,9376 214,7045 91,4335
8 2 9,60 -6,24 -19,43 38,9376 377,6337 121,2607
9 9 24,35 0,76 -4,68 0,5776 21,9286 -3,5589
10 8 27,50 -0,24 -1,53 0,0576 2,3495 0,3679
11 4 17,08 -4,24 -11,95 17,9776 142,8694 50,6799
12 11 37,00 2,76 7,97 7,6176 63,4763 21,9895
13 12 41,95 3,76 12,92 14,1376 166,8541 48,5687
14 2 11,66 -6,24 -17,37 38,9376 301,8142 108,4063
15 4 21,65 -4,24 -7,38 17,9776 54,5057 31,3031
16 4 17,89 -4,24 -11,14 17,9776 124,1620 47,2455
17 20 69,00 11,76 39,97 138,2976 1597,3771 470,0143
18 1 10,30 -7,24 -18,73 52,4176 350,9178 135,6255
19 10 34,93 1,76 5,90 3,0976 34,7770 10,3791
20 15 46,59 6,76 17,56 45,6976 308,2553 118,6867
21 15 44,88 6,76 15,85 45,6976 251,1337 107,1271
22 16 54,12 7,76 25,09 60,2176 629,3676 194,6767
23 17 56,63 8,76 27,60 76,7376 761,6054 241,7515
24 6 22,13 -2,24 -6,90 5,0176 47,6486 15,4623
25 5 21,15 -3,24 -7,88 10,4976 62,1385 25,5403
Total 206 725,82 698,5600 6105,9447 2027,7132
rerata 8,24 29,0328
4881
,
84
1
25
7132
,
2027
)
,
(
1
1
)
)(
(
)
,
( 1
=
−
=
−
=
−
−
−
=

=
Y
X
Cov
n
S
n
y
y
x
x
Y
X
Cov
xy
n
i
i
i
1067
,
29
1
25
5600
,
698
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
x
xx
n
i
i
x
s
n
S
n
x
x
s
4144
,
254
1
25
9447
,
6105
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
y
yy
n
i
i
y
s
n
S
n
y
y
s
9818
,
0
4144
,
254
1067
,
29
4881
,
84
)
,
(
=

=
=
xy
y
x
xy
r
s
s
Y
X
Cov
r

Dot Product
88
No x y x' y' x'y'
1 2 9,95 -1,1566 -1,1964 1,3838
2 8 24,45 -0,0445 -0,2873 0,0128
3 11 31,75 0,5116 0,1704 0,0871
4 10 35,00 0,3262 0,3741 0,122
5 8 25,02 -0,0445 -0,2516 0,0112
6 4 16,86 -0,7859 -0,7632 0,5998
7 2 14,38 -1,1566 -0,9186 1,0625
8 2 9,60 -1,1566 -1,2183 1,4091
9 9 24,35 0,1409 -0,2936 -0,0414
10 8 27,50 -0,0445 -0,0961 0,0043
11 4 17,08 -0,7859 -0,7494 0,5889
12 11 37,00 0,5116 0,4995 0,2555
13 12 41,95 0,6969 0,8098 0,5644
14 2 11,66 -1,1566 -1,0892 1,2598
15 4 21,65 -0,7859 -0,4629 0,3638
16 4 17,89 -0,7859 -0,6986 0,549
17 20 69,00 2,1798 2,5057 5,4619
18 1 10,30 -1,342 -1,1744 1,5761
19 10 34,93 0,3262 0,3697 0,1206
20 15 46,59 1,253 1,1007 1,3792
21 15 44,88 1,253 0,9935 1,2449
22 16 54,12 1,4384 1,5728 2,2623
23 17 56,63 1,6237 1,7302 2,8093
24 6 22,13 -0,4152 -0,4328 0,1797
25 5 21,15 -0,6005 -0,4942 0,2968
Total 206 725,82 23,5635
rerata 8,24 29,0328
9818
,
0
1
25
5635
,
23
1
'
'
=
−
=
−
•
=
n
Y
X
rxy
1067
,
29
1
25
5600
,
698
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
x
xx
n
i
i
x
s
n
S
n
x
x
s
4144
,
254
1
25
9447
,
6105
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=

=
y
yy
n
i
i
y
s
n
S
n
y
y
s
y
i
i
x
i
i
s
x
y
y
s
x
x
x
−
=
−
= '
'

Data Integration: Chi-Square Test
Chi-square test merupakan uji independensi dua
(atau lebih) metode klasifikasi yang terpetakan dalam
tabel kontingensi dua arah (atau lebih). Jika statistik
uji chi-square lebih besar dari batas kritis, maka
disimpulkan tiada independensi alias ada interaksi
antara kedua metode klasifikasi.
89

 
= =
= =
−
=
=
r
i
c
j ij
ij
ij
r
i
c
j
ij
ij
ij
E
E
O
n
O
O
E
1 1
2
2
1 1
)
(

where
Oij: observed frequency
Eij: expected fequency
r : number of rows
c : number of columns

Reduksi Data
(Data Reduction)
94

Latar Belakang
 Basisdata menyimpan data berukuran terabyte.
 Analisis data yang kompleks akan membutuhkan waktu yang sangat
lama untuk dijalankan pada kumpulan data yang lengkap.
 Lebih banyak atribut tidak berarti lebih sukses dalam proses
penambangan data.
 Bekerja dengan atribut yang lebih sedikit mengurangi kerumitan
masalah dan waktu pengerjaan.
 Dengan atribut yang lebih sedikit, kemampuan generalisasi meningkat.
 Nilai untuk atribut tertentu mungkin sulit dan mahal untuk didapatkan.
95

Data Reduction
Data reduction
Obtains a reduced representation of the data set that is much
smaller in volume but yet produces the same (or almost the same)
analytical results
Data reduction strategies
Data cube aggregation
Dimensionality reduction
Numerosity reduction
Data compression
96

Data Cube Aggregation
98
Complete
Set of
Features
Empty
Set of
Features

99
{}
{1} {2} {3} {4}
{1,3} {2,3} {1,4} {2,4}
{1,2} {3,4}
{1,2,3} {1,2,4} {1,3,4} {2,3,4}
{1,2,3,4}

Level terrendah aggregation di data cube
Data ter-aggregate untuk entitas individu yang diamati
misalnya, pelanggan dalam data warehouse tentang panggilan
telepon.
Level jamak aggregation di data cube
Mengurangi lebih lanjut ukuran data yang perlu ditangani
Merujuk level yang sesuai
Menggunakan representasi terkecil yang cukup untuk
menyelesaikan tugas
Queries berdasarkan informasi ter-aggregate dengan data
cube jika memungkinkan
101

Dimensionality Reduction
 Problem dimensionality
 Ketika dimensionality bertambah, data di setiap dimensi semakin jarang
 Kerapatan dan jarak antar data points, yang kritis dalam clustering, menyebabkan
analisis outlier menjadi kurang berarti
 Kombinasi subgrup yang memungkinkan bertambah tumbuh secara eksponensial
 Dimensionality reduction
 Mengurangi problem dimensionality
 Mengeliminasi fitur/atribut yang tidak relevan dan mereduksi noise
 Mereduksi waktu dan ruang yang diperlukan dalam penambangan data
 Mempermudah visualization
102

 Teknik dimensionality reduction
 Wavelet transforms
 Principal Component Analysis
 Supervised and nonlinear techniques (e.g., feature selection)
 Heuristic methods:
 step-wise forward selection / step-wise best feature selection
 step-wise backward elimination / step-wise worst attribute elimination
 combining forward selection and backward elimination
 branch and bound elimination and backtracking
 decision-tree induction
103

104
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
A 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
B 0 0 0 0 1 1 1 1 0 0 0 0 1 1 1 1
C 0 0 1 1 0 0 1 1 0 0 1 1 0 0 1 1
D 0 1 0 1 0 1 0 1 0 1 0 1 0 1 0 1
E 0 1 0 0 0 1 1 0 1 1 0 0 0 0 1 0
F 1 1 1 0 1 1 0 0 1 0 1 0 0 1 0 0
V
ar. 5
V
ar. 1. V
ar. 13

Dimensionality Reduction: Feature Selection
 Feature selection (misalnya: seleksi atribut):
 Menyeleksi fitur minimal yang mungkin di mana distribusi probabilitas dengan
dengan fitur terbatas tersebut mempunyai nilai yang mendekati distribusi
probabilitas awal dengan fitur lengkap.
 Menemukan subset dari atribut/fitur/variabel dari kumpulan data yang
mengoptimalkan probabilitas keberhasilan dalam penambangan data.
 Mengurangi noise yang menimbulkan pola dalam pola, agar lebih mudah
dipahami
 Feature selection outcomes:
 Less data → algorithms could learn quickly
 Higher accuracy → the algorithm better generalizes
 Simpler results → easier to understand them
105

 Feature selection:
 Terdapat 2d sub-fitur yang mungkin dari fitur sebanyak d
 Dimulai dengan menghilangkan atribut yang tidak relevan (tidak bermanfaat untuk
model informasi dari insight ), atribut redundan (sebagian besar atau semua tuple
sama dengan atribut lainnya), serta atribut homogen (tidak mempunyai variabilitas
atau sedikit variabilitas).
 Feature selection:
 Filter. Goal Function mengevaluasi himpunan bagian berdasarkan informasi yang
dikandungnya. Ukuran separasi kelas, dependensi statistik, teori informasi,…
digunakan sebagai fungsi tujuan.
 Wrapper. Goal Function terdiri dari penerapan teknik pembelajaran yang sama
yang akan digunakan kembali pada data hasil pemilihan fitur. Nilai yang
dikembalikan biasanya sesuai tingkat akurasi dari klasifikasi yang terbangun.
106

Filter
 Advantages:
 Fast: They usually compute
frequencies, much quicker than training
a classifier.
 Generality: Due to they evaluate
intrinsic properties of the data and not
their interaction with a classifier, they
can be used in any problem.
 Drawbacks:
 Trend to include many variables:
Normally, it is due to the fact that there
are monotone features in the goal
function used.
Wrapper
 Advantages:
 Accuracy: generally, they are more
accurate than filters, due to the
interaction between the classifier used
in the goal function and the training
data set.
 Generalization capability: they
pose capacity to avoid overfitting due to
validation techniques employed.
 Drawbacks:
 Very costly: for each evaluation, it is
required to learn and validate a model.
It is prohibitive to complex classifiers.
 Ad-hoc solutions: The solutions are
skewed towards the used classifier.
107

108

Dimensionality Reduction: Decision-Tree Induction
109
Initial attribute set:
{A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 2
Class 1 Class 1 Class 2
> Reduced attribute set: {A1, A4, A6}

Dimensionality Reduction: Wavelet Transform
Mendekomposisi sinyal menjadi beberapa frequency
subbands yang berbeda. Diaplikasikan pada n-dimensional
signals.
Data ditransformasikan untuk mempertahankan jarak relatif
antar objek pada level resolusi yang berbeda.
Menggunakan klaster alami agar lebih mudah dibedakan
Digunakan untuk image compression
110

111
8000 points
2000 points
500 points

Wavelets: A math tool for space-efficient hierarchical
decomposition of functions
S = [2, 2, 0, 2, 3, 5, 4, 4] dapat ditransformasikan menjadi
S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0]
Compression: banyak koefisien detail kecil dapat diganti
dengan 0, dan hanya koefisien signifikan yang dipertahankan
112

113
2 2 0 2 3 5 4 4
-1.25
2.75
0.5 0
0 -1 0
-1
+
-
+
+
+ + +
+
+
- -
- - - -
+
-
+
+ -
+ -
+-
+-
-
+
+-
-1
-1
0.5
0
2.75
-1.25
0
0
Original frequency distribution
Hierarchical
decomposition
structure (a.k.a.
“error tree”)
Coefficient “Supports”

Dimensionality Reduction: PrincipalComponentAnalysis
Mencari proyeksi yang menangkap variasi data terbanyak
Data asli diproyeksikan pada ruang yang jauh lebih sempit
untuk menghasilkan dimensionality reduction. Menggunakan
eigenvectors dari covariance matrix untuk menentukan ruang
data yang baru
114

Dimensionality Reduction: PrincipalComponentAnalysis
 Berdasarkan N vektor data dari n-dimensi, mencari k (≤ n) vektor
ortogonal (sebagai principal components) yang dapat digunakan
merepresentasikan data.
 Menormalisasikan data input: Setiap atribut berada dalam rentang yang sama
 Menghitung k vektor ortogonal (sebagai principal components)
 Setiap data input (sebagai vektor) merupakan kombinasi linier dari k principal
component vectors
 Principal components diurutkan berdasarkan penurunan signifikansi
 Setelah principal components diurutkan, banyaknya data dapat dikurangi dengan
menghilangkan principal components yang lemah.
 Hanya dapat dipergunakan pada data numerik.
115

Numerosity Reduction
Mengurangi volume data dengan alternatif pemilihan untuk
menghasilkan representasi data yang lebih sedikit.
Parametric methods (e.g., regression)
Berasumsi data sesuai model tertentu, mengestimasikan parameter
model, menyimpan parameter dari model menggantikan data
Misalnya: regresi linier, regresi polinomial, regresi non-linier: log-
linear model, exponential model, power model, logistic model,
saturation growth model,
Non-parametric methods
Tanpa asumsi model tertentu
Menggunakan: histograms, clustering, sampling, …
116

Numerosity Reduction: Regression Analysis
Regression analysis: teknik analisis dan pemodelan data
numerik yang terdiri dari variabel terikat (dependent variable,
response variable or effect) dan variabel bebas (independent
variables, explanatory variables or predictors)
Mengestimasikan parameter untuk memperoleh model yang
paling mendekati deskripsi data
Metode yang paling umum digunakan mengevaluasi
kesesuaian model adalah least squares method. Meskipun
demikian kriteria lainnya juga terkadang digunakan
Digunakan untuk inferensi dan prediksi hubungan kausal
117

Regresi Linier : y = a0 + a1.x
Regresi Polinomial : y = a0 + a1.x + a2.x2 + a3.x3 + ...
Regresi Nonlinier
Regresi Berganda : y = a0 + a1.x1 + a2.x2 + a3.x3 + ...
Regresi model gabungan
118

119
x y
203 3267
222 3368
224 3459
232 3325
234 3561
248 3264
248 3232
254 3556
271 3893
280 3204
310 3414
319 3369
331 3409
347 3314
365 3346
365 3215
366 3219
371 3311
388 3159
389 3207
411 3176
414 2984
414 3110
416 3428
421 3330
427 3628
439 3588
466 3943
489 4553
498 4530
xmin xmax a0 a1
203 280 2862,817 2,2767
310 389 4304,515 -2,8392
411 498 -3577,94 16,3935
y = a0 + a1.x 30 tuples 2 attributes → 3 tuples 4 attributes
60 data → 12 data

Numerosity Reduction: Histogram
Mengelompokkan data dalam beberapa kelas, selanjutnya
menyimpan nilai acuan (mean, median, sum, boundary) dan
frekuensinya untuk setiap kelas
Aturan partisi pembagian kelas:
Equal-width: equal bucket range
Equal-frequency (or equal-depth)
120

Numerosity Reduction: Histogram
121
Class Freq
70 < x < 90 2
90 < x < 110 3
110 < x < 130 6
130 < x < 150 14
150 < x < 170 22
170 < x < 190 17
190 < x < 210 10
210 < x < 230 4
230 < x < 250 2
Xmin Xmax Fr
70 90 2
90 110 3
110 130 6
130 150 14
150 170 22
170 190 17
190 210 10
210 230 4
230 250 2
Mid Fr
80 2
100 3
120 6
140 14
160 22
180 17
200 10
220 4
240 2
80 data → 27 data
→ 18 data

Numerosity Reduction: Clustering
Mengelompokkan data dalam beberapa cluster berdasarkan
similarity, selanjutnya menyimpan representasi cluster
(misalnya titik pusat dan diameter)
Sangat efektif saat data terpolarisasi dalam beberapa cluster,
namun sangat susah saat data tersebar acak dan tercampur
Dapat menggunakan hierarchical clustering dan disimpan
dalam multi-dimensional index tree structures
Terdapat banyak metode dan
algoritma clustering
122

Numerosity Reduction: Clustering
123
x y
203 3326
203 3728
222 3896
250 2823
251 3709
261 4186
265 3035
274 3991
281 3470
295 3376
342 5808
347 5781
348 5441
351 6010
352 5563
359 5951
360 5749
365 5925
371 5635
375 5891
450 1741
467 460
469 502
533 1278
558 3670
572 2326
573 3986
614 2799
616 2589
638 4489
xcentroid ycentroid Δx Δy
251 3554 92 1363
357 5775 33 569
549 2384 188 4029
30 tuples 2 attributes → 3 tuples 4 attributes
60 data → 12 data

Numerosity Reduction: Sampling
Memilih secara acak sebagian data sejumlah n dari
keseluruhan data sebanyak N, selanjutnya menggunakannya
sebagai representasi.
Sampling tidak mengurangi data yang tersimpan di
basisdata, melainkan hanya memanggil sebagian data yang
terpilih sebagai sampel.
Disarankan menggunakan metode stratified sampling.
Terlebih dahulu data dikelompokkan dalam beberapa strata
berdasarkan kategori atau jenjang intervalnya, selanjutnya
diambil sampel acak dari setiap strata secara proporsional
atau nonproporsional
124

125
Sumber : Saunders, M, Lewis, P & Thornhill, A. (2009). Research Methods for business students, fifth edition (pp. 210-251).
Harlow England: Pearson Education.

126
Sumber : Smith, T. (2009). Critical Appraisal of Quantitative and Qualitative Research Literature, The Radiographer 56(3),
(pp. 6-10).Australian Institute of Radiography.

127

128

129

130

Numerosity Reduction: Prototype Selection
Prototype selection atau Instance based learning adalah
mengambil acak sebagian data yang relevan dengan
pemodelan untuk memperoleh hasil maksimum. Prototype
selection menggunakan algoritma penambangan data
Direction of the search: Incremental, decremental, batch,
hybrid or fixed.
Selection type: Condensation, Edition, Hybrid.
Evaluation type: Filter or wrapper.
131

132
Training
Data Set
(TR)
Test
Data Set
(TS)
Instances
Selected (S)
Prototype
Selection
Algorithm
Instance-based
Classifier

133

Data Compression
String compression
There are extensive theories and well-tuned algorithms
Typically lossless, but only limited manipulation is possible without
expansion
Audio/video compression
Typically lossy compression, with progressive refinement
Sometimes small fragments of signal can be reconstructed without
reconstructing the whole
Time sequence is not audio
Typically short and vary slowly with time
Dimensionality and numerosity reduction may also be
considered as forms of data compression
134

Data Compression
135
Original Data Compressed
Data
lossless
Original Data
Approximated

Transformasi Data
(Data Transformation)
136

Data Transformation
Data transformation
 Memetakan seluruh nilai awal atribut digantikan nilai baru atribut.
 Setiap nilai awal dapat teridentifikasi oleh satu nilai baru.
Data transformation methods:
Smoothing: menghilangkan noise dari data
Aggregation: ringkasan, rekapitulasi, konstruksi data cube
Generalization: dinaikkan ke hirarki konsep yang lebih tinggi
Normalization: memakai skala lebih kecil dalam rentang spesifik
➢min-max normalization : interpolation or extrapolation
➢z-score normalization : standardized normal distribution
➢normalization by decimal scaling : equivalent conversion [0,1]
Attribute/feature construction
➢Atribut baru terkonstruksi dengan aturan yang ditentukan
➢Linear transformations, quadratic, polynomial, …
137

Data Transformation
min-max normalization : interpolation or extrapolation
z-score normalization : standardized normal distribution
normalization by decimal scaling : equivalent conversion [0,1]
zero set to origin
zero set to minimum value
138
)
_
_
(
_
' min
new
max
new
min
max
min
v
min
new
v −
−
−
+
=


−
=
v
v'
j
v
v
10
'= Where j is the smallest integer such that Max(|ν’|) < 1
min
max
min
v
v
−
−
=
'

Data Transformation: min-max normalization
139
x y x' y'
203 3326 0,86 2,38
203 3728 0,86 2,66
222 3896 1,02 2,78
250 2823 1,25 2,02
251 3709 1,26 2,65
261 4186 1,34 2,99
265 3035 1,38 2,17
274 3991 1,45 2,85
281 3470 1,51 2,48
295 3376 1,63 2,41
342 5808 2,02 4,15
347 5781 2,06 4,13
348 5441 2,07 3,89
351 6010 2,09 4,29
352 5563 2,10 3,97
359 5951 2,16 4,25
360 5749 2,17 4,11
365 5925 2,21 4,23
371 5635 2,26 4,03
375 5891 2,29 4,21
450 1741 2,92 1,24
467 460 3,06 0,33
469 502 3,08 0,36
533 1278 3,61 0,91
558 3670 3,82 2,62
572 2326 3,93 1,66
573 3986 3,94 2,85
614 2799 4,28 2,00
616 2589 4,30 1,85
638 4489 4,48 3,21
nilai x :
min = 100 dan max = 700
min_new = 0 dan max_new = 5
nilai y :
min = 0 dan max = 7000
min_new = 0 dan max_new = 5
86
,
0
85833
,
0
'
)
0
5
(
100
700
100
203
0
'

=
−
−
−
+
=
x
x
38
,
2
37571
,
2
'
)
0
5
(
0
7000
0
3326
0
'

=
−
−
−
+
=
y
y

Data Transformation: z-score normalization
140
x y x' y'
203 3326 -1,38 -0,35
203 3728 -1,38 -0,11
222 3896 -1,23 -0,01
250 2823 -1,02 -0,66
251 3709 -1,02 -0,12
261 4186 -0,94 0,17
265 3035 -0,91 -0,53
274 3991 -0,84 0,05
281 3470 -0,79 -0,26
295 3376 -0,68 -0,32
342 5808 -0,33 1,15
347 5781 -0,29 1,14
348 5441 -0,28 0,93
351 6010 -0,26 1,28
352 5563 -0,25 1,00
359 5951 -0,20 1,24
360 5749 -0,19 1,12
365 5925 -0,15 1,22
371 5635 -0,11 1,05
375 5891 -0,08 1,20
450 1741 0,49 -1,31
467 460 0,62 -2,09
469 502 0,63 -2,06
533 1278 1,11 -1,59
558 3670 1,30 -0,14
572 2326 1,41 -0,96
573 3986 1,42 0,05
614 2799 1,72 -0,67
616 2589 1,74 -0,80
638 4489 1,91 0,35
nilai x :
mean = 385,5
std deviation = 132,466
nilai y :
mean = 3904,467
std deviation = 1651,079
38
,
1
37771
,
1
'
466
,
132
5
,
385
203
'
−

−
=
−
=
x
x
35
,
0
35036
,
0
'
079
,
1651
467
,
3904
3326
'
−

−
=
−
=
y
y

Data Transformation: decimal scaling
141
x y x' y'
203 3326 0,17 0,48
203 3728 0,17 0,53
222 3896 0,20 0,56
250 2823 0,25 0,40
251 3709 0,25 0,53
261 4186 0,27 0,60
265 3035 0,28 0,43
274 3991 0,29 0,57
281 3470 0,30 0,50
295 3376 0,33 0,48
342 5808 0,40 0,83
347 5781 0,41 0,83
348 5441 0,41 0,78
351 6010 0,42 0,86
352 5563 0,42 0,79
359 5951 0,43 0,85
360 5749 0,43 0,82
365 5925 0,44 0,85
371 5635 0,45 0,81
375 5891 0,46 0,84
450 1741 0,58 0,25
467 460 0,61 0,07
469 502 0,62 0,07
533 1278 0,72 0,18
558 3670 0,76 0,52
572 2326 0,79 0,33
573 3986 0,79 0,57
614 2799 0,86 0,40
616 2589 0,86 0,37
638 4489 0,90 0,64
nilai x :
min = 100 dan max = 700
nilai y :
min = 0 dan max = 7000
17
,
0
17167
,
0
'
100
700
100
203
'

=
−
−
=
x
x
48
,
0
47514
,
0
'
0
7000
0
3326
'

=
−
−
=
y
y

Diskritisasi Data
(Data Discretization)
142

Data Discretization
Discretization
Mengurangi banyaknya ragam nilai dari atribut, terutama data
kontinyu dengan memecahnya dalam beberapa interval.
Label interval dapat digunakan menggantikan nilai aktual atribut.
Menggunakan distribusi frekuensi untuk mengelompokkan nilai
kontinyu (atau diskrit rentang lebar) sesuai interval kelasnya
Klasifikasi nilai terklaster dalam kelas kategori nominal.
Concept hierarchy climbing
Mengurangi ragam nilai data dengan mengelompokkan dan
mengganti hirarki konsep rendah ke yang lebih tinggi.
143

Data Discretization
Discretization dikembangkan beberapa jalur sesuai kebutuhan:
Supervised vs. unsupervised: Apakah mempertimbangkan atribut
(field) sasaran?
Dinamical vs. Static: Apakah simultan saat model dibangun?
Local vs. Global: Apakah memperhatikan sebagian atau semua data
(tuple atau instance)?
Top-down vs. Bottom-up: Apakah daftar cut point dimulai dari
kosong (lalu ditambah satu persatu) atau banyak (lalu digabung
sebagian dan sebagian)?
Direct vs. Incremental: Apakah keputusan secara serentak bersama
atau satu persatu?
145

Data Discretization
Binning
Klasifikasi dan kategorisasi
Histogram atau distribusi frekuensi
Tabel kontingensi
Analisa klaster
Menaikkan hirarki konsep lebih tinggi
147

Data Discretization: Binning
Binning method:
 Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
 Partition into (equal-width) bins:
- Bin 1 (4<x<14) : 4, 8, 9
- Bin 2 (14<x<24): 15, 21, 21 → 1, 1, 1, 2, 2, 2, 3, 3, 3, 3, 3, 3
- Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34
 Partition into (equal-depth) bins:
- Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15
- Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25 → 1, 1, 1, 1, 2, 2, 2, 2, 3, 3, 3, 3
- Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34
148

Data Discretization: Classification
149

150

151
Klasifikasi usia sebagai berikut:
1) Masa Balita: 0–5 Tahun;
2) Masa Kanak-Kanak: 5–11 Tahun;
3) Masa Remaja: 12–25 Tahun;
4) Masa Dewasa: 26–45 Tahun;
5) Masa Lansia: 46–lebih Tahun

Data Discretization: Histogram
152
Class Fr
70 < x < 90 2
90 < x < 110 3
110 < x < 130 6
130 < x < 150 14
150 < x < 170 22
170 < x < 190 17
190 < x < 210 10
210 < x < 230 4
230 < x < 250 2
2 8 6 6 3 6 6 4
2 5 5 6 3 5 5 4
9 8 6 7 6 5 6 3
5 4 5 3 5 7 5 4
7 6 7 7 7 4 5 3
4 6 1 5 6 4 8 4
8 5 2 6 5 6 5 5
7 5 4 5 4 6 4 5
5 6 4 1 5 9 5 4
7 7 7 6 5 6 3 4
Class Fr
1 2
2 3
3 6
4 14
5 22
6 17
7 10
8 4
9 2

Data Discretization: Clustering
153
x y
203 3326
203 3728
222 3896
250 2823
251 3709
261 4186
265 3035
274 3991
281 3470
295 3376
342 5808
347 5781
348 5441
351 6010
352 5563
359 5951
360 5749
365 5925
371 5635
375 5891
450 1741
467 460
469 502
533 1278
558 3670
572 2326
573 3986
614 2799
616 2589
638 4489
xcentroid ycentroid Δx Δy
251 3554 92 1363
357 5775 33 569
549 2384 188 4029
Cluster
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3

Data Discretization: Contingency Table
154
row column label Fr
1 1 1 O11
1 2 2 O12
: : :
1 c c O1c
r c r X c Orc
row column label Fr
1 1 1 182
1 2 2 213
1 3 3 203
2 1 4 154
2 2 5 138
2 3 6 110

Data Discretization: Concept Hierarchy
Concept hierarchy mengatur nilai atribut berjenjang secara
hirarki dan biasanya terhubung dengan setiap dimensi di data
warehouse
Concept hierarchy memfasilitasi operasi drilling-down dan
rolling-up pada data warehouse untuk melihat data dengan
hirarki berbeda.
Concept hierarchy dapat ditentukan secara eksplisit oleh
domain experts dan/atau data warehouse designers
Concept hierarchy dapat berformat numerik atau
nominal/kategori.
155

156

Spesifikasi sesuai pengurutan sebagian/total atribut secara
eksplisit di schema level oleh pengguna atau expert
Address → street < city < province <country
Spesifikasi hirarki dari himpunan nilai atribut dengan data
grouping secara eksplisit.
Address → {Surabaya, Sidoarjo, Mojekorto} < East Java
Spesifikasi sesuai urutan sebagian dari set of attributes
Address → street < city , not others
Spesifikasi berdasarkan pembangkitan hierarchy dari analisis
banyaknya nilai yang berbeda di attribute level.
Address → a set of attributes: {street, city, province, country}
157

Beberapa hierarchy dapat dibangkitkan secara mudah
dengan membandingkan banyaknya ragam nilai per-atribut
dalam dataset
 Atribut yang mempunyai nilai lebih beragam (banyak ragam) ditempatkan di level
lebih rendah pada hierarchy
 Pengecualian misal: day, date, week, month, quarter, year
158
country
province
city
street
15 distinct values
365 distinct values
3567 distinct values
674,339 distinct values
year
quarter
month
date
2020 distinct values
4 distinct values
12 distinct values
31
distinct
values
week
day 7 distinct values
5 distinct values

159
Terima kasih ...
... Ada pertanyaan ???

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05

Recommended

Recommended

More Related Content

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05

Similar to Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05 (20)

More from Arif Rahman

More from Arif Rahman (20)

Recently uploaded

Recently uploaded (6)

Preparasi Data: Pembersihan dan Proses Awal Data - Modul Ajar Kuliah Analisis Data 05