Oretan Nining Ummu Ghazi: Sistem Temu Balik Informasi (Bagian I)

BAB I

Boolean retrieval (pengenalan pencarian informasi)

1. Pengertian

Temu balik Informasi (IR) dapat di definisikan sebagai penemuan atau pencarian bahan (biasanya dokumen) dari alam yang tidak terstruktur (biasanya teks) yang memenuhi kebutuhan informasi dari dalam koleksi besar (biasanya disimpan dalam komputer).

IR juga mencakup jenis data dan informasi masalah seperti dijelaskan dalam inti definisi di atas. Istilah "data tidak terstruktur" mengacu pada data yang tidak memiliki kejelasan, terbuka secara semantik, mudah untuk sebuah struktur komputer. Ini adalah kebalikan dari data terstruktur, contoh kanonik dari data terstruktur adalah database relasional, perusahaan kecil biasanya menggunakannya untuk menjaga produk persediaan dan catatan pribadi. Pada kenyataannya, hampir tidak ada data yang benar-benar "terstruktur". Kenyataannya hampir tidak ada data teks yang benar-benar "tidak terstruktur". IR juga digunakan untuk memfasilitasi pencarian "semistructured" seperti mencari judul dokumen di mana mengandung bahasa Java dan threading.

Bidang temu balik Informasi juga mencakup
mendukung users saat browsing atau melakukan penyaringan koleksi dokumen atau pengolahan lebih lanjut terhadap satu set dokumen. Mengingat satu set dokumen, clustering merupakan pengelompokan dokumen yang baik berdasarkan isinya. Hal ini mirip dengan mengatur buku-buku di rak buku sesuai dengan topic. temu balik Informasi juga dapat dibedakan oleh skala dimana mereka beroperasi, dan itu berguna untuk membedakan tiga skala terkemuka. Dalam pencarian web, sistem harus menyediakan pencarian lebih dari milyaran dokumen tersimpan pada jutaan komputer.

2. Contoh masalah temu balik informasi
Dalam bentuk yang paling sederhana adalah temu balik dokumen untuk komputer agar computer melakukan semacam linear scan melalui dokumen. Proses ini biasanya disebut sebagai grepping melalui teks, setelah perintah grep Unix, yang melakukan proses ini. Grepping melalui teks dapat menjadi proses yang sangat efektif,
terutama mengingat kecepatan komputer modern, dan seringkali memungkinkan berguna untuk pencocokan wildcard melalui penggunaan kalimat biasa.
Dengan komputer modern, untuk query sederhana koleksi sederhana, Anda benar-benar membutuhkannya lagi. Tapi untuk berbagai tujuan, Anda perlu lebih banyak :
1. Untuk memproses koleksi dokumen yang besar dengan cepat.
2. Untuk memungkinkan operasi pencocokan lebih fleksibel. Sebagai contoh, adalah tidak praktis melakukan query NEAR dengan grep, di mana NEAR dapat didefinisikan sebagai "dalam 5 kata" atau "dalam kalimat yang sama".
3. Untuk memungkinkan pengambilan peringkat(rating). Contoh:

Dari gambar penjelasan diatas telah diurutkan sesuai abjad dan masing-masing daftar posting dokumen diurutkan menurut ID. Kita akan melihat mengapa hal ini berguna dalam memanfaat kecepatan pengambilan pengindeksan pada waktu, kita harus membangun indeks di muka. Langkah-langkah utama dalam hal ini adalah:
• pengambilan pertama saat membangun indeks terbalik
1. Mengumpulkan dokumen untuk diindeks
2. Tokenize teks, mengubah setiap dokumen menjadi daftar token
3. Lakukan proses linguistik, menghasilkan daftar dinormalkan. .
4. Mengindeks dokumen yang terjadi pada setiap istilah dengan menciptakan indeks terbalik, terdiri dari sebuah kamus dan posting.

3. Query Pengolahan Boolean
Perpotongan operasi adalah penting: kita harus melakukan berpotongan daftar posting yang efisien sehingga dapat dengan cepat menemukan dokumen yang mengandung kedua
istilah.

4. Perpanjangan Model Boolean versus ranked retrieval
Boolean retrieval model berbeda dengan pengambilan model peringkat Retrieval seperti model ruang vektor di mana sebagian besar pengguna menggunakan query teks bebas, queries yaitu hanya mengetik satu atau lebih kata-kata daripada menggunakan bahasa yang tepat dengan operator untuk membangun query ekspresi, dan sistem memutuskan query dokumen mana yang paling memuaskan. Model pencarian utama atau pilihan pencarian yang disediakan oleh penyedia informasi komersial yang besar selama tiga dasawarsa sampai awal 1990-an (kira-kira tanggal kedatangan dari World Wide Web).

5 Referensi dan bahan bacaan lebih lanjut
Cara praktis pengambilan informasi komputerisasi dimulai pada akhir 1940 (Cleverdon 1991, Liddy 2005). Peningkatan yang cukup besar dalam produksi literatur ilmiah, banyak dalam bentuk laporan teknis agak tidak terlalu formal daripada artikel jurnal tradisional, ditambah dengan ketersediaan komputer, menyebabkan minat dalam pengambilan dokumen otomatis. Namun, pada masa itu, dokumen pengambilan selalu didasarkan pada penulis, judul, dan kata kunci.
Artikel Bush (1945) memberikan inspirasi yang langgeng untuk bidang baru: "Pertimbangkan perangkat masa depan bagi setiap pengguna yang merupakan semacam mesin file swasta dan perpustakaan. Diperlukan sebuah nama dan satu koin pada pengacakan, 'memex' akan melakukannya. Sebuah memex adalah perangkat di mana seorang individu menyimpan semua buku-bukunya, catatan, dan komunikasi mekanik sehingga dapat berkonsultasi dengan melebihi kecepatan dan fleksibilitas. Ini adalah hasil pembesaran suplemen intim ingatannya. " Istilah Information Retrieval diciptakan oleh Calvin Mooers di 1948/1950 (Mooers 1950). Pada tahun 1958, surat kabar banyak perhatian diberikan pada demonstrasi di sebuah konferensi (Taube andWooster 1958) dari IBM "auto-pengindeksan" mesin. Kepentingan komersial mudah tertarik terhadap sistem pencarian Boolean, tetapi tahun-tahun awal melihat sebuah perdebatan sengit lewat berbagai teknologi berbeda untuk sistem pencarian. Sebagai contoh Mooers (1961) berpendapat: "Ini merupakan kekeliruan umum, pada tanggal ini ditanggung oleh investasi beberapa juta dolar dalam pengambilan berbagai perangkat keras, bahwa aljabar dari George Boole (1847) adalah formalisme yang tepat untuk pengambilan rancangan sistem. Pandangan ini tidak diterima karena dinilai tidak kritis karena salah.

Selasa, 09 Maret 2010

Sistem Temu Balik Informasi (Bagian I)

1 komentar: