5. Deskripsi Mata Kuliah
Mahasiswa mempelajari beberapa teknik pengelolaan data teks untuk menemukan kembali
informasi (Information Retrieval) pada data berbentuk teks yang meliputi
• pengolahan awal (preprocessing),
• ekstraksi fitur (fitur extraction),
• perhitungan tingkat kemiripan teks sesuai masukan query,
• dan menampilkan hasil pencarian.
Serta teknik lanjut tentang
• relevance feedback,
• Klasifikasi,
• dan Klasterisasi teks,
untuk membantu pengguna dalam pencarian.
Mahasiswa akan merancang, menganalisis dan mengimplementasikan metode IR (Information
Retrieval ) pada berbagai permasalahan baik secara mandiri maupun kelompok.
6. Apa itu IR ?
IR is finding material (usually documents) of an unstructured
nature (usually text) that satisfies information need from within
large collections (usually stored on computer) (Manning, 2009)
Proses mencari kembali informasi yang berada pada kumpulan
dokumen yang besar (biasanya berbentuk teks), dan disimpan
dalam computer.
7. Tujuan IR
• Sistem Temu Kembali Informasi (Information Retrieval) digunakan
untuk menemukan kembali informasi-informasi yang relevan
terhadap kebutuhan pengguna dari suatu kumpulan informasi secara
otomatis.
• Salah satu aplikasi umum dari IR adalah search-engine atau mesin
pencari yang terdapat di internet.
9. Tidak Terstruktur
• Terdiri dari berbagai tipe
• Tidak mementingkan suatu format ataupun urutan tertentu
• Tidak mengikuti aturan tertentu
• Tidak bisa diprediksi
• Dapat meliputi text, video, image, audio
• Contohnya: jurnal, artikel, postingan socmed, blog, e-book, dll
10. Terstruktur
• Entitas serupa dikelompokkan bersama (relations or classes)
• Entitas dalam grup yang sama memiliki deskripsi yang sama
(attributes)
• Contoh: Relational Database, data Excel
11. Semi Terstruktur
• Text memiliki heading, paragraph, footnote
• IR juga memfasilitasi pencarian pada semi structured data, missal
pencarian teks/kalimat yang mengandung suatu kata tertentu.
12. Database vs IR
Perbedaan Database dengan Information Retrieval:
1. Data pada database terstruktur, sedangkan IR tidak terstruktur. Struktur
dalam arti memiliki table, field, record, entity, dan lain-lain.
2. File pada database clear semantic (satu kesatuan, menyeluruh),
sedangkan IR tidak ada field.
3. Query pada database dapat dijelaskan (contoh: SQL), sedangkan IR
merupakan teks bebas seperti bahasa alami, bahasa manusia sehari-hari.
4. Ukuran kesamaannya pada database pasti, sedangkan IR butuh ukuran
keefektifan tertentu, partial (diambil ukuran kesamaan terbaik).
5. Model pada database deterministic, sedangkan IR non deterministic.
13. Contoh IR sederhana (Boolean query)
Boolean Retrieval Model (BRM) adalah salah satu contoh Information Retrieval
yang merupakan model proses pencarian informasi dari query yang menggunakan
ekspresi boolean. Dengan ekspresi boolean menggunakan operator logika AND, OR
dan NOT.
Sedangkan dalam menentukan hasil perhitungannya hanya berupa nilai binary (1
atau 0). Dengan hal itu, Boolean Retrieval Model (BRM) yang ada hanya dokumen
relevan atau tidak sama sekali. Sehingga keunggulan dari Boolean Retrieval Model
(BRM) tidak menghasilkan dokumen yang mirip.
14. Contoh IR sederhana (lanjutan)
Query adalah kombinasi dari indeks Boolean.
X AND Y : merupakan doc yang berisi X dan Y
X OR Y : merupakan dokumen yang berisi X atau Y
NOT X : mewakili dokumen yang tidak mengandung X
15. Contoh IR sederhana (lanjutan)
Sebagai contoh terdapat 5 dokumen berikut ini:
udb_1.txt yang berisi text:
Tutorial pemrograman web dan basis data
udb_2.txt yang berisi text:
Mata Kuliah basis data mysql
udb_3.txt yang berisi text:
Mysql adalah basis data
udb_4.txt yang berisi text:
Kuliah sistem temu kembali informasi
udb_5.txt yang berisi text
Mata Kuliah di Teknik informatika
16. Contoh IR sederhana (lanjutan)
Membuat Indeks Model Boolean:
Pertama-tama kita membuat matriks istilah yang mewakili daftar semua istilah yang berbeda dan
keberadaan mereka pada setiap dokumen/file. Jika dokumen berisi kata kunci maka bernilai 1 jika
tidak bernilai 0. Berikut ini matriknya:
17. Contoh IR sederhana (lanjutan)
Matrix: Istilah udb_1.txt udb_2.txt udb_3.txt udb_4.txt udb_5.txt
tutorial 1 0 0 0 0
pemrograman 1 0 0 0 0
web 1 0 0 0 0
dan 1 0 0 0 0
basis 1 1 1 0 0
data 1 1 1 0 0
mata 0 1 0 0 1
kuliah 0 1 0 1 1
mysql 0 1 1 0 0
adalah 0 0 1 0 0
sistem 0 0 0 1 0
temu 0 0 0 1 0
kembali 0 0 0 1 0
informasi 0 0 0 1 0
di 0 0 0 0 1
teknik 0 0 0 0 1
informatika 0 0 0 0 1
19. Contoh IR sederhana (lanjutan)
Penarikan kesimpulan:
Berdasarkan hasil query tersebut maka dokumen yang paling relevan
adalah file udb_5.txt
20. Perkembangan IR
IR Cerdas
• Memanfaatkan pengertian atau makna dari kata yang digunakan
• Melibatkan urutan kata di dalam query
• Beradaptasi dengan pengguna berdasarkan pada feedback, langsung
ataupun tidak
• Memperluas pencarian dengan term terkait
• Mengerjakan pemeriksaan ejaan/perbaikan tanda pengenal otomatis
21. Perkembangan IR
Macam-macam IR
• Klasifikasi Dokumen
• Klusterisasi Dokumen
• Peringkasan Teks
• Question Answering System
• SEO
22. Perkembangan IR - Klasifikasi Dokumen
Dokumen A
Dokumen B
Dokumen C
Dokumen D
Positif
Negatif
23. Perkembangan IR - Klusterisasi Dokumen
Dokumen A
Dokumen B
Dokumen C
Dokumen D
Positif Negatif
24. Perkembangan IR - Peringkasan Teks
Lorem ipsum dolor sit amet, consectetur adipiscing elit.
Quisque porta, mi et elementum blandit, magna massa
hendrerit nisl, at cursus est tellus sit amet mi. Nullam
convallis pretium tellus non aliquet. Ut pellentesque velit
vitae pharetra tristique. Cras at odio non purus scelerisque
semper. Nam eu ornare enim, sed vehicula nibh. Ut sed
neque sapien. Vivamus sodales lacus sed pretium ultricies.
Mauris euismod semper sem, eu aliquam dolor pharetra a.
Sed a semper elit. Mauris vitae sagittis enim. Donec
tristique convallis mauris a interdum. Phasellus at magna sit
amet mauris efficitur commodo. Nullam ultricies ultrices
cursus. Aliquam interdum sagittis tincidunt.
Lorem ipsum dolor sit
amet, consectetur adipiscing
elit. Quisque porta, mi et
elementum blandit, magna massa
hendrerit nisl, at cursus est tellus sit
amet mi. Mauris euismod semper
sem, eu aliquam dolor pharetra
a. Mauris vitae sagittis enim.
Donec tristique convallis mauris a
interdum. Phasellus at magna sit
amet mauris efficitur commodo.