8. Pembersihan dan Proses Awal Data
8
Penting memperhatikan
cara memperoleh
data yang akan diolah
Demikian pula
cara mengolah data
juga penting diperhatikan
9. Problem Data
Data yang dikumpulkan dari banyak sumber berbeda
dengan banyak metode akan menyebabkan problem:
Heterogeneity and Diversity, data dengan format
dan struktur yang beragam dan berantakan.
Data Quality, data yang tercemar noise, error, outlier,
missing value, bias, fake data, illegal data dan irrelevant data.
Scale, data yang berskala besar yang membutuhkan upaya
ekstra untuk mengolahnya.
9
13. Pembersihan dan Proses Awal Data
How do I detect and control noise?—Noise Discovering.
How do I clean up the data?—Data Cleaning.
How do I handle missing data?—Missing Data Imputation.
How do I provide accurate data and standard format?—Data Transformation.
How do I incorporate and adjust data?—Data Integration.
How do I unify and scale data?—Data Structure Normalization.
How do I reduce the dimensionality of data?—Feature Selection (FS).
How do I remove redundant and/or conflictive examples?—Instance Selection (IS).
How do I simplify the domain of an attribute?—Discretization.
How do I fill in gaps in data?—Feature Extraction and/or Instance Generation.
13
16. Noise
Untuk objek data, noise merupakan kejanggalan objek data yang
asing dan tak selaras dengan pola umum
Untuk atribut data, noise merupakan perubahan atau penyimpangan
dari nilai sesungguhnya
Contoh: distorsi suara penelepon ketika menggunakan telepon yang rusak, dan
suara lain dari lingkungan yang ikut tertangkap mikrofon.
Gambar di bawah menunjukkan dua gelombang sinus dengan amplitudo sama
namun frekuensi berbeda, gabungan kedua gelombang, dan gabungan kedua
gelombang sinus yang terdistorsi oleh random noise acak.
16
18. Noise
18
Examples of the interaction between classes: a) small disjuncts and
b) overlapping between classes
19. Outliers adalah objek data dengan karakteristik yang
sangat berbeda dari sebagian besar objek data
lainnya dalam dataset
Kasus 1: Outliers menjadi
noise yang mengganggu
analisis data
Kasus 2: Outliers menjadi
tujuan analisis data
➢ Credit card fraud
➢ Intrusion detection
Outliers
19
22. Missing Values
Latar belakang terjadinya missing values
Informasi tidak dapat diperoleh karena keengganan, penolakan,
kelalaian, kecurigaan atau kerahasiaan (misalnya responden tidak
bersedia menyampaikan usia atau berat badannya)
Atribut data yang tidak mungkin cocok untuk sebagian kasus
(misalnya gaji untuk anak-anak)
Kegagalan alat atau ketidak-sengajaan penghapusan.
Penanganan missing values
Mengeliminasi objek data atau variabel
Mengestimasi missing values
➢Misalnya dengan regresi atau interpolasi
➢Misalnya dengan pencocokan pola pemusatan dari sebaran yang mirip
Mengabaikan missing value selama analisis data
22
23. Duplicate Data
Dataset mungkin mengandung objek data yang redundansi
atau terduplikasi secara utuh atau sebagian.
Contoh: orang yang sama dengan alamat e-mail berbeda
Pengumpulan data dari beberapa sumber heterogen
mempunyai isu mayor memperoleh duplicate data.
Contoh: data identitas pribadi orang yang sama diperoleh dari
instansi kependudukan dan dari afiliasi pekerjaan
Penanganan duplicate data
Mengeliminasi duplicate data
Mencatat atau merekap frekuensi duplikasi
Mengumpulkan subset data yang menjadi data-child untuk
sebagian data berbeda
23
24. Operasi Dasar dalam Data Preprocessing
Data cleaning
Fill in missing values, smooth noisy data, identify or remove outliers, and resolve
inconsistencies
Data integration
Integration of multiple databases, data cubes, or files
Data reduction
Dimensionality reduction
Numerosity reduction
Data compression
Data transformation and data discretization
Normalization
Concept hierarchy generation
24
25. Data Cleaning
Data cleaning
fixes or removes incorrect, corrupted, incorrectly formatted,
duplicate, incomplete or missing data within a dataset.
Data cleaning tasks:
Data acquisition
Metadata and reformatting
Fill in missing values
Unified date format
Converting nominal to numeric
Identify outliers and smooth out noisy data
Correct inconsistent data
25
26. Data Integration
Data integration:
combines data from multiple sources into a coherent store
Schema integration
integrate metadata from different sources
Entity identification problem: identify real world entities from
multiple data sources, e.g., A.cust-id ≡ B.cust-#
Careful integration of the data from multiple sources may help
reduce/avoid redundancies and inconsistencies and improve
mining speed and quality
26
27. Data Reduction
Data reduction
Obtains a reduced representation of the data set that is much
smaller in volume but yet produces the same (or almost the same)
analytical results
Data reduction strategies
Data cube aggregation
Dimensionality reduction
Numerosity reduction
Data compression
27
28. Data Transformation
Data transformation
maps the entire set of values of an attribute to a new set of replacement values.
Each old value can be identified with one of the new values
Data transformation methods:
Smoothing: remove noise from data
Aggregation: summarization, data cube construction
Generalization: concept hierarchy climbing
Normalization: scaled to fall within a small, specified range
➢min-max normalization
➢z-score normalization
➢normalization by decimal scaling
Attribute/feature construction
➢New attributes constructed from the given ones
28
29. Data Discretization
Discretization
reduce the number of values for a given continuous attribute by
dividing the range of the attribute into intervals. Interval labels can
then be used to replace actual data values.
Discretization methods:
Divide the range of a continuous value into intervals
Classify the clustered value into categorical attributes.
Concept hierarchies
reduce the data by collecting and replacing low level concepts
(such as numeric values for the attribute age) by higher level
concepts (such as young, middle-aged, or senior).
29
31. Latar Belakang
Kualitas Data tidak baik karena kesalahan manusia, kegagalan instrumen,
gangguan transmisi atau lainnya
incomplete: data kosong (missing data), data terpotong (lacking value),
data simpulan umum (aggregate data)
noisy: terkacaukan (noise), salah (errors), menyimpang (outliers),
janggal (absurd)
inconsistent: berbeda nilai (discrepancies), berbeda standar pelabelan
(irregularities), berbeda field (deformities) misal usia vs tanggal lahir
Intentional: nilai baku bawaan (default value), pengganti data kosong
(disguised missing data)
31
32. Data Cleaning
Preemptive:
Process architecture (memeriksa integritas data)
Process management (mengendalikan data entry, data sharing,
data stewards)
Retrospective:
Cleaning focus (menghapus-menggabungkan duplikasi data,
mencocokkan-mengoreksi inkonsistensi data, memadukan-
membakukan keragaman format data, menerka-menggantikan
missing data)
Diagnostic focus (deteksi otomatis gangguan).
32
33. Data Cleaning Tasks
Data acquisition
Metadata and reformatting
Fill in missing values
Unified date format
Converting nominal to numeric
Identify outliers and smooth out noisy data
Correct inconsistent data
33
34. Data Cleaning: Data Acquisition
Data yang tersimpan dalam sistem basisdata
Protokol ODBC – JDBC – OLE DB
Data yang tersimpan dalam file arff (attribute-relation file
format), csv (comma-separated values), dan lainnya
Format dengan fixed-column
Pemisahan dengan pembatas (delimiters) : tabulasi, spasi ganda,
titik”.”, koma “,” , titik koma “;”, simbol, dll
Peringatan: hati-hati konversi pembatas (delimiters) dalam data
berformat strings
Verifikasi banyaknya atribut data (fields) sebelum dan
sesudah data cleaning
34
38. Data Cleaning: Metadata
Mengenali atribut data (field)
Tipe atribut data (field types):
➢binary, nominal (categorical), ordinal, numeric, …
➢Untuk data nominal: diperlukan table untuk menerjemahkan kode ke deskripsi
lengkap yang menjelaskan kategori/kelas
Pemanfaatan atribut data (field role):
➢input : inputs for modeling
➢target : output
➢id/auxiliary : keep, but not use for modeling
➢ignore : don’t use for modeling
➢weight : instance weight
➢…
Deskripsi dari atribut data (field descriptions)
Konversi dan perbaiki format data ke format baku seragam.
38
39. Data Cleaning: Missing Data
Ignore the tuple: biasanya dilakukan bila pendugaan sesuai
klasifikasi tidak mungkin dilakukan.
Fill in the missing value manually: jika data mentah tersedia dan
tidak merepotkan.
Use a global constant to fill in the missing value: misalnya
“nihil”, “kosong”, “tidak tahu”, atau lainnya
Imputation: menggunakan nilai mean atau modus
Use the most probable value: metode inferensia misalnya
Bayesian formula, decision tree, regression
39
40. Data Cleaning: Date Format
Terdapat banyak date format yang digunakan
misalnya “Sep 24, 2003” , 9/24/03, 24.09.03, 24-09-2003
Bahkan terkadang tersimpan dalam string format
Tersimpan dengan rincian data yang berbeda
Beberapa tersimpan dalam tahun (YY) atau (YYYY) saja
Sebagian juga menyimpan bulan tanpa tanggal spesifik
Namun juga mungkin menyimpan sangat rinci sampai jam
Mentransformasikan semua tanggal dalam date format yang
sama atau numeric format :
Banyak hari sejak 01-01-1960
Rasio tahun = tahun + (hari ke / banyak hari dalam setahun)
40
41. Data Cleaning: Nominal Conversion
Keterbatasan pemodelan data, karena banyak model data
yang mempersyaratkan input data numerik
Konversi data nominal ke numerik, kerapkali hanya
memberikan pelabelan untuk pembedaan tanpa
menunjukkan urutan (order), tingkat (level) ataupun jarak
(distance).
Terdapat beberapa strategi konversi data nominal:
Binary → Numeric
Ordered → Numeric
Multi-valued → Numeric
41
43. Data Cleaning: Noisy Data + Ouliers
Noise: deviasi atau variansi yang acak dari data pengukuran
Faktor penyebab penyimpangan nilai:
faulty data collection instruments
data entry problems
data transmission problems
technology limitation
inconsistency in naming convention
Masalah lain yang mempengaruhi noisy data:
duplicate records
incomplete data
inconsistent data
43
45. Data Cleaning: Noisy Data + Ouliers
Combined computer and human inspection
Mendeteksi dan memeriksa nilai data yang dicurigai
Binning method:
Mengurutkan data dan membagi data dalam beberapa bins
➢Equal-width (distance) partitioning
➢Equal-depth (frequency) partitioning
Memuluskan data dengan bin means atau bin median atau bin boundaries, dan
lain-lain.
Empirical distribution
Membuat pemetaan distribusi frekuensi dari data
Mendeteksi dan memeriksa posisi tiap objek data dengan:
➢Interquartile Range (batas Q1 dan Q3)
➢Confidence Interval dengan pendekatan distribusi normal
45
46. Data Cleaning: Noisy Data + Ouliers
Central tendency
Menghitung dan memeriksa jarak (distance) tiap objek data dengan titik
pemusatan data mean, modus atau median
Curve fitting, regression atau interpolation
Estimasi nilai dugaan data variabel terikat berbasis variabel bebasnya dengan
curve fitting, regression atau interpolation
Menghitung dan memeriksa jarak (distance) antara nilai aktual dengan nilai
dugaan tiap objek data
Clustering
Menentukan titik rujukan di tiap cluster
Menghitung dan memeriksa jarak (distance) tiap objek data dengan masing-
masing titik rujukan di tiap cluster
46
47. Data Cleaning: Noisy Data + Ouliers
Binning method:
47
Equal-width (distance) partitioning
Equal-depth (frequency) partitioning
48. Data Cleaning: Noisy Data + Ouliers
Binning method:
Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Partition into (equal-width) bins:
- Bin 1 (4<x<14) : 4, 8, 9
- Bin 2 (14<x<24): 15, 21, 21
- Bin 3 (24<x<34): 24, 25, 26, 28, 29, 34
Smoothing by bin means:
- Bin 1: 7, 7, 7
- Bin 2: 19, 19, 19
- Bin 3: 272/3, 272/3, 272/3, 272/3, 272/3, 272/3
Smoothing by bin boundaries:
- Bin 1: 4, 4, 14
- Bin 2: 14, 24, 24
- Bin 3: 24, 24, 24, 24, 34, 34
48
49. Data Cleaning: Noisy Data + Ouliers
Binning method:
Sorted data: 4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34
Partition into (equal-depth) bins:
- Bin 1 (1st, 2nd, 3rd, 4th): 4, 8, 9, 15
- Bin 2 (5th, 6th, 7th, 8th) : 21, 21, 24, 25
- Bin 3 (9th, 10th, 11th, 12th) : 26, 28, 29, 34
Smoothing by bin means:
- Bin 1: 9, 9, 9, 9
- Bin 2: 23, 23, 23, 23
- Bin 3: 29, 29, 29, 29
Smoothing by bin boundaries:
- Bin 1: 4, 4, 4, 15
- Bin 2: 21, 21, 25, 25
- Bin 3: 26, 26, 26, 34
49
54. Data Cleaning: Noisy Data + Ouliers
Central Tendency
54
A deviation
indicates the
distance of data
object from the
mean
Outliers are extreme values
that differ from the mean
Outliers affect the measure of central
tendency, especially the mean
57. Data Cleaning: Noisy Data + Ouliers
Regression
57
ε = y – ŷ
A residual or error
is the distance
between an
observed y and
the estimated ŷ
An outlier has extreme
residual, since it is far away
from the linear regression
approximation
59. Outliers
A distance represents the dissimilarity
each pair of data objects.
An outlier is
different from other
data objects. Most
its distances are
beyond the limit.
The data objects have high
similarity within a cluster and low
similarity between clusters
Data Cleaning: Noisy Data + Ouliers
Clustering
59
62. Data Integration
Data integration:
Menggabungkan data dari banyak sumber ke penyimpanan data
yang koheren (coherent datastore)
Schema integration
mengintegrasikan metadata dari berbagai sumber berbeda
Problem identifikasi entitas: mengenali entitas dari berbagai sumber
data, misal: A.cust-id ≡ B.cust-#
Integrasi data dari banyak sumber berbeda perlu dilakukan
dengan hati-hati untuk mencegah/mengurangi data redundan
dan tak konsisten, sekaligus memperbaiki kecepatan dan
kualitas penambangan data
62
63. Data Integration
Mendeteksi dan menangani konflik nilai data
Pada sumber berbeda, deskripsi entitas yang sama dirinci dalam
atribut (field) yang banyaknya dan macamnya berbeda.
Pada entitas yang sama pada atribut yang sama namun di sumber
berbeda mempunyai nilai data berbeda
Faktor perbedaan:
➢perbedaan sudut pandang, misal: usia vs tanggal lahir
➢perbedaan representasi, misal: alamat di satu field vs alamat di banyak field
➢perbedaan tipe data, misal: gender dalam string vs dalam nominal numerik
➢perbedaan skala, misal: skala british vs skala metrik
63
64. Data Integration
Data redundan sangat mungkin terjadi saat mengambil data
dengan mengintegrasikan banyak sumber berbeda
Object identification: objek data sama yang tersimpan di sumber
data berbeda dengan nama tabel (entity class) berbeda, nama
atribut (field) berbeda, tipe (data type) berbeda, dan nilai (value)
berbeda
Derivable data: Satu atribut mungkin juga menjadi atribut turunan
(derived attribute) di tabel lainnya
Data redundan mungkin dapat terdeteksi dengan:
correlation analysis
independence test
covariance analysis
64
65. Data Integration: Data Join or Algebra
65
Inner Join vs Outer Join
M
a b c #1
d e f #1
g h i #2
j k l #3
M
A B #1
C D #1
E F #2
G H #2
I J #4
M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
j k l #3
I J #4
Inner Join Outer Join
Atribut yang
dipergunakan
untuk
memeriksa
dugaan
redundansi
data
66. Data Integration: Data Join or Algebra
66
Natural Join vs Cross Join
M
a b c #1
d e f #1
g h i #2
j k l #3
M
A B #1
C D #1
E F #2
G H #2
I J #4
M
a b c A B #1
a b c C D #1
d e f A B #1
d e f C D #1
g h i E F #2
g h i G H #2
M
a b c A B #1
a b c C D #1
a b c E F
a b c G H
a b c I J
d e f A B #1
d e f C D #1
d e f E F
d e f G H
d e f I J
dan seterusnya
Natural Join Cross Join
Atribut yang
dipergunakan
untuk
memeriksa
dugaan
redundansi
data
76. Data Integration: Correlation Analysis
Sumber: M. Allen. The SAGE Encyclopedia of Communication Research
Methods. Sage Publishing, 2017
https://methods.sagepub.com/images/virtual/the-sage-encyclopedia-of-
communication-research-methods/10.4135_9781483381411-table7.jpg
76
77. Data Integration: Correlation Analysis
77
Linear increasing non-decreasing
Linear decreasing non-increasing
chaotic random
Sumber:
https://support.minitab.com/en-us/minitab-express/1/help-and-how-to/modeling-
statistics/regression/supporting-topics/basics/a-comparison-of-the-pearson-and-
spearman-correlation-methods/
78. Data Integration: Pearson Correlation
Pearson correlation mengukur hubungan linier antara
dua variabel. Pearson correlation merupakan ukuran
korelasi statistik yang paling umum. Kadang-kadang
disebut product-moment correlation, the simple linear
correlation, or the simple correlation coefficient.
78
yy
xx
xy
xy
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
i
xy
S
S
S
r
y
y
n
x
x
n
y
x
y
x
n
r
=
−
−
−
=
=
=
=
=
=
=
=
2
1
2
1
2
2
1
2
1
2
1
1
1
where
rxy: Pearson Correlation Coefficient
n : number of observations
xi : value of i-th x
yi : value of i-th y
79. Data Integration: Spearman Correlation
Spearman’s (rho) correlation adalah perhitungan
korelasi nonparametrik berdasarkan peringkat.
Kadang-kadang disebut dengan Spearman rank
correlation. Menjadi korelasi alternatif nonparametrik
untuk menggantikan Pearson correlation.
79
)
(
)
(
)
1
(
6
1 2
1
2
i
i
i
n
i
i
xy
y
R
x
R
d
n
n
d
−
=
−
−
=
=
where
ρxy: Spearman Correlation Coefficient
n : number of observations
di : the difference between the ranks of corresponding variables
R(xi): the ranks of i-th x
R(yi): the ranks of i-th y
80. Data Integration: Kendall Correlation
Kendall's (tau) correlation merupakan korelasi
nonparametrik yang mengukur kekuatan asosiasi
antara dua variabel berdasarkan kombinasi pasangan
data. Dihitung dengan membandingkan selisih
pasangan data yang concordant (searah) dan
discordant (berlawanan). Jika ukuran sampel adalah
n, maka banyaknya pasangan adalah n(n-1) / 2.
80
)
1
(
2
1
−
−
=
n
n
n
n d
c
xy
where
τxy: Kendall Correlation Coefficient
n : number of observations
nc : number of concordant
nd : number of discordant
81. Data Integration: Covariance
Pearson correlation yang mengukur hubungan linier
antara dua variabel juga dapat diperoleh dari
covariance dari X dan Y yang dibagi dengan
perkalian simpangan baku X dan Y.
81
( )
y
x
xy
n
i
i
i
s
s
Y
X
Cov
r
n
y
y
x
x
Y
Y
X
X
E
Y
X
Cov
)
,
(
1
)
)(
(
)
)(
(
)
,
( 1
=
−
−
−
=
−
−
=
=
where
rxy: Pearson Correlation Coefficient
n : number of observations
xi : value of i-th x
yi : value of i-th y
Cov(X,Y): covariance of x and y
82. Data Integration: Dot Product
Pearson correlation yang mengukur hubungan linier
antara dua variabel juga dapat diperoleh dari dot
product dari X' dengan Y' sebagai vektor. Di mana
X' dan Y' diperoleh dari normalisasi Z dari X dan Y.
82
1
'
'
'
'
−
•
=
−
=
−
=
n
Y
X
r
s
x
y
y
s
x
x
x
xy
y
i
i
x
i
i where
rxy: Pearson Correlation Coefficient
n : number of observations
xi' : value of i-th x
yi : value of i-th y
87. Kovarian
87
No x y δx δy δ2x δ2y δx.δy
1 2 9,95 -6,24 -19,08 38,9376 364,1533 119,0767
2 8 24,45 -0,24 -4,58 0,0576 21,0021 1,0999
3 11 31,75 2,76 2,72 7,6176 7,3832 7,4995
4 10 35,00 1,76 5,97 3,0976 35,6075 10,5023
5 8 25,02 -0,24 -4,01 0,0576 16,1026 0,9631
6 4 16,86 -4,24 -12,17 17,9776 148,1771 51,6127
7 2 14,38 -6,24 -14,65 38,9376 214,7045 91,4335
8 2 9,60 -6,24 -19,43 38,9376 377,6337 121,2607
9 9 24,35 0,76 -4,68 0,5776 21,9286 -3,5589
10 8 27,50 -0,24 -1,53 0,0576 2,3495 0,3679
11 4 17,08 -4,24 -11,95 17,9776 142,8694 50,6799
12 11 37,00 2,76 7,97 7,6176 63,4763 21,9895
13 12 41,95 3,76 12,92 14,1376 166,8541 48,5687
14 2 11,66 -6,24 -17,37 38,9376 301,8142 108,4063
15 4 21,65 -4,24 -7,38 17,9776 54,5057 31,3031
16 4 17,89 -4,24 -11,14 17,9776 124,1620 47,2455
17 20 69,00 11,76 39,97 138,2976 1597,3771 470,0143
18 1 10,30 -7,24 -18,73 52,4176 350,9178 135,6255
19 10 34,93 1,76 5,90 3,0976 34,7770 10,3791
20 15 46,59 6,76 17,56 45,6976 308,2553 118,6867
21 15 44,88 6,76 15,85 45,6976 251,1337 107,1271
22 16 54,12 7,76 25,09 60,2176 629,3676 194,6767
23 17 56,63 8,76 27,60 76,7376 761,6054 241,7515
24 6 22,13 -2,24 -6,90 5,0176 47,6486 15,4623
25 5 21,15 -3,24 -7,88 10,4976 62,1385 25,5403
Total 206 725,82 698,5600 6105,9447 2027,7132
rerata 8,24 29,0328
4881
,
84
1
25
7132
,
2027
)
,
(
1
1
)
)(
(
)
,
( 1
=
−
=
−
=
−
−
−
=
=
Y
X
Cov
n
S
n
y
y
x
x
Y
X
Cov
xy
n
i
i
i
1067
,
29
1
25
5600
,
698
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=
=
x
xx
n
i
i
x
s
n
S
n
x
x
s
4144
,
254
1
25
9447
,
6105
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=
=
y
yy
n
i
i
y
s
n
S
n
y
y
s
9818
,
0
4144
,
254
1067
,
29
4881
,
84
)
,
(
=
=
=
xy
y
x
xy
r
s
s
Y
X
Cov
r
88. Dot Product
88
No x y x' y' x'y'
1 2 9,95 -1,1566 -1,1964 1,3838
2 8 24,45 -0,0445 -0,2873 0,0128
3 11 31,75 0,5116 0,1704 0,0871
4 10 35,00 0,3262 0,3741 0,122
5 8 25,02 -0,0445 -0,2516 0,0112
6 4 16,86 -0,7859 -0,7632 0,5998
7 2 14,38 -1,1566 -0,9186 1,0625
8 2 9,60 -1,1566 -1,2183 1,4091
9 9 24,35 0,1409 -0,2936 -0,0414
10 8 27,50 -0,0445 -0,0961 0,0043
11 4 17,08 -0,7859 -0,7494 0,5889
12 11 37,00 0,5116 0,4995 0,2555
13 12 41,95 0,6969 0,8098 0,5644
14 2 11,66 -1,1566 -1,0892 1,2598
15 4 21,65 -0,7859 -0,4629 0,3638
16 4 17,89 -0,7859 -0,6986 0,549
17 20 69,00 2,1798 2,5057 5,4619
18 1 10,30 -1,342 -1,1744 1,5761
19 10 34,93 0,3262 0,3697 0,1206
20 15 46,59 1,253 1,1007 1,3792
21 15 44,88 1,253 0,9935 1,2449
22 16 54,12 1,4384 1,5728 2,2623
23 17 56,63 1,6237 1,7302 2,8093
24 6 22,13 -0,4152 -0,4328 0,1797
25 5 21,15 -0,6005 -0,4942 0,2968
Total 206 725,82 23,5635
rerata 8,24 29,0328
9818
,
0
1
25
5635
,
23
1
'
'
=
−
=
−
•
=
n
Y
X
rxy
1067
,
29
1
25
5600
,
698
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=
=
x
xx
n
i
i
x
s
n
S
n
x
x
s
4144
,
254
1
25
9447
,
6105
1
1
)
(
2
1
2
2
=
−
=
−
=
−
−
=
=
y
yy
n
i
i
y
s
n
S
n
y
y
s
y
i
i
x
i
i
s
x
y
y
s
x
x
x
−
=
−
= '
'
89. Data Integration: Chi-Square Test
Chi-square test merupakan uji independensi dua
(atau lebih) metode klasifikasi yang terpetakan dalam
tabel kontingensi dua arah (atau lebih). Jika statistik
uji chi-square lebih besar dari batas kritis, maka
disimpulkan tiada independensi alias ada interaksi
antara kedua metode klasifikasi.
89
= =
= =
−
=
=
r
i
c
j ij
ij
ij
r
i
c
j
ij
ij
ij
E
E
O
n
O
O
E
1 1
2
2
1 1
)
(
where
Oij: observed frequency
Eij: expected fequency
n : number of observations
r : number of rows
c : number of columns
95. Latar Belakang
Basisdata menyimpan data berukuran terabyte.
Analisis data yang kompleks akan membutuhkan waktu yang sangat
lama untuk dijalankan pada kumpulan data yang lengkap.
Lebih banyak atribut tidak berarti lebih sukses dalam proses
penambangan data.
Bekerja dengan atribut yang lebih sedikit mengurangi kerumitan
masalah dan waktu pengerjaan.
Dengan atribut yang lebih sedikit, kemampuan generalisasi meningkat.
Nilai untuk atribut tertentu mungkin sulit dan mahal untuk didapatkan.
95
96. Data Reduction
Data reduction
Obtains a reduced representation of the data set that is much
smaller in volume but yet produces the same (or almost the same)
analytical results
Data reduction strategies
Data cube aggregation
Dimensionality reduction
Numerosity reduction
Data compression
96
101. Data Cube Aggregation
Level terrendah aggregation di data cube
Data ter-aggregate untuk entitas individu yang diamati
misalnya, pelanggan dalam data warehouse tentang panggilan
telepon.
Level jamak aggregation di data cube
Mengurangi lebih lanjut ukuran data yang perlu ditangani
Merujuk level yang sesuai
Menggunakan representasi terkecil yang cukup untuk
menyelesaikan tugas
Queries berdasarkan informasi ter-aggregate dengan data
cube jika memungkinkan
101
102. Dimensionality Reduction
Problem dimensionality
Ketika dimensionality bertambah, data di setiap dimensi semakin jarang
Kerapatan dan jarak antar data points, yang kritis dalam clustering, menyebabkan
analisis outlier menjadi kurang berarti
Kombinasi subgrup yang memungkinkan bertambah tumbuh secara eksponensial
Dimensionality reduction
Mengurangi problem dimensionality
Mengeliminasi fitur/atribut yang tidak relevan dan mereduksi noise
Mereduksi waktu dan ruang yang diperlukan dalam penambangan data
Mempermudah visualization
102
103. Dimensionality Reduction
Teknik dimensionality reduction
Wavelet transforms
Principal Component Analysis
Supervised and nonlinear techniques (e.g., feature selection)
Heuristic methods:
step-wise forward selection / step-wise best feature selection
step-wise backward elimination / step-wise worst attribute elimination
combining forward selection and backward elimination
branch and bound elimination and backtracking
decision-tree induction
103
105. Dimensionality Reduction: Feature Selection
Feature selection (misalnya: seleksi atribut):
Menyeleksi fitur minimal yang mungkin di mana distribusi probabilitas dengan
dengan fitur terbatas tersebut mempunyai nilai yang mendekati distribusi
probabilitas awal dengan fitur lengkap.
Menemukan subset dari atribut/fitur/variabel dari kumpulan data yang
mengoptimalkan probabilitas keberhasilan dalam penambangan data.
Mengurangi noise yang menimbulkan pola dalam pola, agar lebih mudah
dipahami
Feature selection outcomes:
Less data → algorithms could learn quickly
Higher accuracy → the algorithm better generalizes
Simpler results → easier to understand them
105
106. Dimensionality Reduction: Feature Selection
Feature selection:
Terdapat 2d sub-fitur yang mungkin dari fitur sebanyak d
Dimulai dengan menghilangkan atribut yang tidak relevan (tidak bermanfaat untuk
model informasi dari insight ), atribut redundan (sebagian besar atau semua tuple
sama dengan atribut lainnya), serta atribut homogen (tidak mempunyai variabilitas
atau sedikit variabilitas).
Feature selection:
Filter. Goal Function mengevaluasi himpunan bagian berdasarkan informasi yang
dikandungnya. Ukuran separasi kelas, dependensi statistik, teori informasi,…
digunakan sebagai fungsi tujuan.
Wrapper. Goal Function terdiri dari penerapan teknik pembelajaran yang sama
yang akan digunakan kembali pada data hasil pemilihan fitur. Nilai yang
dikembalikan biasanya sesuai tingkat akurasi dari klasifikasi yang terbangun.
106
107. Dimensionality Reduction: Feature Selection
Filter
Advantages:
Fast: They usually compute
frequencies, much quicker than training
a classifier.
Generality: Due to they evaluate
intrinsic properties of the data and not
their interaction with a classifier, they
can be used in any problem.
Drawbacks:
Trend to include many variables:
Normally, it is due to the fact that there
are monotone features in the goal
function used.
Wrapper
Advantages:
Accuracy: generally, they are more
accurate than filters, due to the
interaction between the classifier used
in the goal function and the training
data set.
Generalization capability: they
pose capacity to avoid overfitting due to
validation techniques employed.
Drawbacks:
Very costly: for each evaluation, it is
required to learn and validate a model.
It is prohibitive to complex classifiers.
Ad-hoc solutions: The solutions are
skewed towards the used classifier.
107
109. Dimensionality Reduction: Decision-Tree Induction
109
Initial attribute set:
{A1, A2, A3, A4, A5, A6}
A4 ?
A1? A6?
Class 2
Class 1 Class 1 Class 2
> Reduced attribute set: {A1, A4, A6}
110. Dimensionality Reduction: Wavelet Transform
Mendekomposisi sinyal menjadi beberapa frequency
subbands yang berbeda. Diaplikasikan pada n-dimensional
signals.
Data ditransformasikan untuk mempertahankan jarak relatif
antar objek pada level resolusi yang berbeda.
Menggunakan klaster alami agar lebih mudah dibedakan
Digunakan untuk image compression
110
112. Dimensionality Reduction: Wavelet Transform
Wavelets: A math tool for space-efficient hierarchical
decomposition of functions
S = [2, 2, 0, 2, 3, 5, 4, 4] dapat ditransformasikan menjadi
S^ = [23/4, -11/4, 1/2, 0, 0, -1, -1, 0]
Compression: banyak koefisien detail kecil dapat diganti
dengan 0, dan hanya koefisien signifikan yang dipertahankan
112
114. Dimensionality Reduction: PrincipalComponentAnalysis
Mencari proyeksi yang menangkap variasi data terbanyak
Data asli diproyeksikan pada ruang yang jauh lebih sempit
untuk menghasilkan dimensionality reduction. Menggunakan
eigenvectors dari covariance matrix untuk menentukan ruang
data yang baru
114
115. Dimensionality Reduction: PrincipalComponentAnalysis
Berdasarkan N vektor data dari n-dimensi, mencari k (≤ n) vektor
ortogonal (sebagai principal components) yang dapat digunakan
merepresentasikan data.
Menormalisasikan data input: Setiap atribut berada dalam rentang yang sama
Menghitung k vektor ortogonal (sebagai principal components)
Setiap data input (sebagai vektor) merupakan kombinasi linier dari k principal
component vectors
Principal components diurutkan berdasarkan penurunan signifikansi
Setelah principal components diurutkan, banyaknya data dapat dikurangi dengan
menghilangkan principal components yang lemah.
Hanya dapat dipergunakan pada data numerik.
115
116. Numerosity Reduction
Mengurangi volume data dengan alternatif pemilihan untuk
menghasilkan representasi data yang lebih sedikit.
Parametric methods (e.g., regression)
Berasumsi data sesuai model tertentu, mengestimasikan parameter
model, menyimpan parameter dari model menggantikan data
Misalnya: regresi linier, regresi polinomial, regresi non-linier: log-
linear model, exponential model, power model, logistic model,
saturation growth model,
Non-parametric methods
Tanpa asumsi model tertentu
Menggunakan: histograms, clustering, sampling, …
116
117. Numerosity Reduction: Regression Analysis
Regression analysis: teknik analisis dan pemodelan data
numerik yang terdiri dari variabel terikat (dependent variable,
response variable or effect) dan variabel bebas (independent
variables, explanatory variables or predictors)
Mengestimasikan parameter untuk memperoleh model yang
paling mendekati deskripsi data
Metode yang paling umum digunakan mengevaluasi
kesesuaian model adalah least squares method. Meskipun
demikian kriteria lainnya juga terkadang digunakan
Digunakan untuk inferensi dan prediksi hubungan kausal
117
120. Numerosity Reduction: Histogram
Mengelompokkan data dalam beberapa kelas, selanjutnya
menyimpan nilai acuan (mean, median, sum, boundary) dan
frekuensinya untuk setiap kelas
Aturan partisi pembagian kelas:
Equal-width: equal bucket range
Equal-frequency (or equal-depth)
120
121. Numerosity Reduction: Histogram
121
Class Freq
70 < x < 90 2
90 < x < 110 3
110 < x < 130 6
130 < x < 150 14
150 < x < 170 22
170 < x < 190 17
190 < x < 210 10
210 < x < 230 4
230 < x < 250 2
Xmin Xmax Fr
70 90 2
90 110 3
110 130 6
130 150 14
150 170 22
170 190 17
190 210 10
210 230 4
230 250 2
Mid Fr
80 2
100 3
120 6
140 14
160 22
180 17
200 10
220 4
240 2
80 data → 27 data
→ 18 data
122. Numerosity Reduction: Clustering
Mengelompokkan data dalam beberapa cluster berdasarkan
similarity, selanjutnya menyimpan representasi cluster
(misalnya titik pusat dan diameter)
Sangat efektif saat data terpolarisasi dalam beberapa cluster,
namun sangat susah saat data tersebar acak dan tercampur
Dapat menggunakan hierarchical clustering dan disimpan
dalam multi-dimensional index tree structures
Terdapat banyak metode dan
algoritma clustering
122
124. Numerosity Reduction: Sampling
Memilih secara acak sebagian data sejumlah n dari
keseluruhan data sebanyak N, selanjutnya menggunakannya
sebagai representasi.
Sampling tidak mengurangi data yang tersimpan di
basisdata, melainkan hanya memanggil sebagian data yang
terpilih sebagai sampel.
Disarankan menggunakan metode stratified sampling.
Terlebih dahulu data dikelompokkan dalam beberapa strata
berdasarkan kategori atau jenjang intervalnya, selanjutnya
diambil sampel acak dari setiap strata secara proporsional
atau nonproporsional
124
125. Numerosity Reduction: Sampling
125
Sumber : Saunders, M, Lewis, P & Thornhill, A. (2009). Research Methods for business students, fifth edition (pp. 210-251).
Harlow England: Pearson Education.
126. Numerosity Reduction: Sampling
126
Sumber : Smith, T. (2009). Critical Appraisal of Quantitative and Qualitative Research Literature, The Radiographer 56(3),
(pp. 6-10).Australian Institute of Radiography.
131. Numerosity Reduction: Prototype Selection
Prototype selection atau Instance based learning adalah
mengambil acak sebagian data yang relevan dengan
pemodelan untuk memperoleh hasil maksimum. Prototype
selection menggunakan algoritma penambangan data
Direction of the search: Incremental, decremental, batch,
hybrid or fixed.
Selection type: Condensation, Edition, Hybrid.
Evaluation type: Filter or wrapper.
131
132. Numerosity Reduction: Prototype Selection
132
Training
Data Set
(TR)
Test
Data Set
(TS)
Instances
Selected (S)
Prototype
Selection
Algorithm
Instance-based
Classifier
134. Data Compression
String compression
There are extensive theories and well-tuned algorithms
Typically lossless, but only limited manipulation is possible without
expansion
Audio/video compression
Typically lossy compression, with progressive refinement
Sometimes small fragments of signal can be reconstructed without
reconstructing the whole
Time sequence is not audio
Typically short and vary slowly with time
Dimensionality and numerosity reduction may also be
considered as forms of data compression
134
137. Data Transformation
Data transformation
Memetakan seluruh nilai awal atribut digantikan nilai baru atribut.
Setiap nilai awal dapat teridentifikasi oleh satu nilai baru.
Data transformation methods:
Smoothing: menghilangkan noise dari data
Aggregation: ringkasan, rekapitulasi, konstruksi data cube
Generalization: dinaikkan ke hirarki konsep yang lebih tinggi
Normalization: memakai skala lebih kecil dalam rentang spesifik
➢min-max normalization : interpolation or extrapolation
➢z-score normalization : standardized normal distribution
➢normalization by decimal scaling : equivalent conversion [0,1]
Attribute/feature construction
➢Atribut baru terkonstruksi dengan aturan yang ditentukan
➢Linear transformations, quadratic, polynomial, …
137
138. Data Transformation
min-max normalization : interpolation or extrapolation
z-score normalization : standardized normal distribution
normalization by decimal scaling : equivalent conversion [0,1]
zero set to origin
zero set to minimum value
138
)
_
_
(
_
' min
new
max
new
min
max
min
v
min
new
v −
−
−
+
=
−
=
v
v'
j
v
v
10
'= Where j is the smallest integer such that Max(|ν’|) < 1
min
max
min
v
v
−
−
=
'
143. Data Discretization
Discretization
Mengurangi banyaknya ragam nilai dari atribut, terutama data
kontinyu dengan memecahnya dalam beberapa interval.
Label interval dapat digunakan menggantikan nilai aktual atribut.
Discretization methods:
Menggunakan distribusi frekuensi untuk mengelompokkan nilai
kontinyu (atau diskrit rentang lebar) sesuai interval kelasnya
Klasifikasi nilai terklaster dalam kelas kategori nominal.
Concept hierarchy climbing
Mengurangi ragam nilai data dengan mengelompokkan dan
mengganti hirarki konsep rendah ke yang lebih tinggi.
143
145. Data Discretization
Discretization dikembangkan beberapa jalur sesuai kebutuhan:
Supervised vs. unsupervised: Apakah mempertimbangkan atribut
(field) sasaran?
Dinamical vs. Static: Apakah simultan saat model dibangun?
Local vs. Global: Apakah memperhatikan sebagian atau semua data
(tuple atau instance)?
Top-down vs. Bottom-up: Apakah daftar cut point dimulai dari
kosong (lalu ditambah satu persatu) atau banyak (lalu digabung
sebagian dan sebagian)?
Direct vs. Incremental: Apakah keputusan secara serentak bersama
atau satu persatu?
145
151. Data Discretization: Classification
151
Klasifikasi usia sebagai berikut:
1) Masa Balita: 0–5 Tahun;
2) Masa Kanak-Kanak: 5–11 Tahun;
3) Masa Remaja: 12–25 Tahun;
4) Masa Dewasa: 26–45 Tahun;
5) Masa Lansia: 46–lebih Tahun
154. Data Discretization: Contingency Table
154
row column label Fr
1 1 1 O11
1 2 2 O12
: : :
1 c c O1c
r c r X c Orc
row column label Fr
1 1 1 182
1 2 2 213
1 3 3 203
2 1 4 154
2 2 5 138
2 3 6 110
155. Data Discretization: Concept Hierarchy
Concept hierarchy mengatur nilai atribut berjenjang secara
hirarki dan biasanya terhubung dengan setiap dimensi di data
warehouse
Concept hierarchy memfasilitasi operasi drilling-down dan
rolling-up pada data warehouse untuk melihat data dengan
hirarki berbeda.
Concept hierarchy dapat ditentukan secara eksplisit oleh
domain experts dan/atau data warehouse designers
Concept hierarchy dapat berformat numerik atau
nominal/kategori.
155
157. Data Discretization: Concept Hierarchy
Spesifikasi sesuai pengurutan sebagian/total atribut secara
eksplisit di schema level oleh pengguna atau expert
Address → street < city < province <country
Spesifikasi hirarki dari himpunan nilai atribut dengan data
grouping secara eksplisit.
Address → {Surabaya, Sidoarjo, Mojekorto} < East Java
Spesifikasi sesuai urutan sebagian dari set of attributes
Address → street < city , not others
Spesifikasi berdasarkan pembangkitan hierarchy dari analisis
banyaknya nilai yang berbeda di attribute level.
Address → a set of attributes: {street, city, province, country}
157
158. Data Discretization: Concept Hierarchy
Beberapa hierarchy dapat dibangkitkan secara mudah
dengan membandingkan banyaknya ragam nilai per-atribut
dalam dataset
Atribut yang mempunyai nilai lebih beragam (banyak ragam) ditempatkan di level
lebih rendah pada hierarchy
Pengecualian misal: day, date, week, month, quarter, year
158
country
province
city
street
15 distinct values
365 distinct values
3567 distinct values
674,339 distinct values
year
quarter
month
date
2020 distinct values
4 distinct values
12 distinct values
31
distinct
values
week
day 7 distinct values
5 distinct values