Oretan Nining Ummu Ghazi: Sistem Temu Balik Informasi (Bagian II)

BAB II

Istilah kosakata dan daftar posting

Dalam bab ini pertama-tama kita secara singkat menyebutkan bagaimana unit dasar dari suatu dokumen dapat ditentukan dan bagaimana karakter itu terdiri dari urutan yang ditentukan.

Tokenization adalah proses memotong aliran karakter menjadi bukti, sementara linguistik preprocessing kemudian berkaitan dengan bangunan kelas kesetaraan token yang merupakan kumpulan istilah yang diindeks. Mengingat langkah-langkah utama dalam indeks terbalik konstruksi adalah sebagai berikut:

1. Mengumpulkan dokumen untuk diindeks.

2. Tokenize teks.

3. Apakah token preprocessing linguistik.

4. Mengindeks dokumen yang terjadi setiap istilah masuk .

2. 1 Dokumen penggambaran dan decoding urutan karakter

2.1.1 Mendapatkan urutan karakter dalam dokumen

Dokumen digital yang di input ke sebuah proses pengindeksan tipe byte di file atau di web server. Langkah pertama pengolahan adalah untuk mengubah karakter
urutan byte ke urutan linear. Untuk kasus bahasa Inggris teks dalam pengkodean ASCII, hal ini sepele. Tetapi bisa jadi lebih kompleks. Urutan karakter dapat dikodekan oleh salah satu dari berbagai byte tunggal atau skema pengkodean multi byte, seperti Unicode UTF-8 atau berbagai standar khusus vendor. Kita perlu menentukan encoding yang benar. Ini dapat dianggap sebagai masalah klasifikasi pembelajaran mesin. Setelah encoding ditentukan, kita decode urutan byte ke urutan karakter. Sekali lagi, kita harus menentukan format dokumen, dan kemudian yang sesuai decoder harus digunakan. Bahkan bagi dokumen teks biasa, decoding tambahan mungkin perlu dilakukan. Dalam dokumen XML, karakter entitas, seperti &, perlu diterjemahkan untuk memberikan karakter yang benar, yaitu & untuk &. Akhirnya, tekstual bagian dari dokumen mungkin perlu dapat diekstraksi dari bahan lain yang tidak akan diproses. Ini mungkin penanganan yang dikehendaki untuk XML file, jika markup akan diabaikan; kami hampir pasti ingin melakukan ini dengan postscript atau file PDF. Produk komersial biasanya perlu untuk mendukung berbagai tipe dokumen dan encoding, karena pengguna ingin semuanya hanya bekerja dengan data mereka apa adanya. Sering kali, mereka hanya berpikir dokumen sebagai teks dalam aplikasi dan bahkan tidak menyadari bagaimana dikodekan pada disk.

2.1.2 Memilih unit dokumen
Tahap berikutnya adalah untuk menentukan apa yang dilakukan dokumen unit untuk mengindeks. Jadi Sejauh ini kita telah mengasumsikan bahwa dokumen tetap unit untuk keperluan pengindeksan. Sebagai contoh, kita mengambil setiap file dalam folder tersebut sebagai sebuah dokumen. Tapi ada banyak kasus di mana Anda mungkin lesu, banyak kasus di mana Anda mungkin ingin melakukan sesuatu yang berbeda. Tradisional Unix (mbox-format) menyimpan file email rangkaian pesan email (folder email) dalam satu file, tapi Anda mungkin ingin menganggap setiap pesan emailsebagai dokumen terpisah. Banyak pesan email sekarang berisi terlampirdokumen, dan Anda mungkin kemudian ingin menganggap pesan email dan masing-masing berisi lampiran sebagai dokumen terpisah. Jika pesan email memiliki terlampir file zip, Anda mungkin ingin men-decode file zip dan menganggap setiap file yang berisi sebagai dokumen terpisah.

2. 2 Menentukan kosakata istilah
2.2.1 Tokenization
Diberi urutan karakter dan dokumen yang ditetapkan unit, tokenization adalah
tugas memotong itu menjadi potongan-potongan yang disebut token, mungkin pada saat yang sama membuang karakter tertentu, seperti tanda baca. Berikut adalah contoh dari tokenization:
Input: Friends, Roman, Countrymen, lend me your ears
Output: Friends, Roman, Countrymen, lend me your ears
Token ini seringkali disebut sebagai istilah atau kata-kata, tetapi kadang-kadang
penting untuk membuat suatu jenis / perbedaan token. Sebuah token adalah sebuah contoh dari urutan karakter dalam dokumen tertentu yang dikelompokkanbersama sebagai unit semantik yang berguna untuk diproses. Suatu jenis kelas dari semua token berisi urutan karakter yang sama. Suatu istilah yang (mungkin dinormalkan) jenis yang disertakan dalam sistem kamus IR.

2.2.2 Menjatuhkan istilah umum: kata-kata henti
Terkadang, beberapa kata yang sangat umum akan tampak dari nilai kecil dalam membantu memilih dokumen sesuai kebutuhan pengguna dikecualikan dari kosakata. Kata-kata ini disebut kata-kata henti. Umum strategi untuk menentukan daftar berhenti untuk menyortir istilah oleh frekuensi pengumpulan (jumlah total kali setiap istilah muncul dalam koleksi dokumen), dan kemudian mengambil istilah yang paling sering, sering tangan-disaring untuk semantik konten relatif terhadap domain dari dokumen-dokumen yang diindeks, sebagai daftar berhenti, para anggota yang kemudian dibuang selama pengindeksan.

2.2.3 Normalisasi (kesetaraan mengklasifikasikan istilah)
Setelah putus dokumen kita (dan juga permintaan kami) ke dalam token, yang mudah
kasus adalah jika bukti dalam pencarian tanda hanya cocok dalam daftar token dokumen.Namun, ada banyak kasus ketika dua karakter sekuens yang tidak persis sama tetapi Anda akan seperti sebuah pertandingan terjadi.

2.2.4 Berasal dan lemmatization
Untuk alasan tata bahasa, dokumen akan menggunakan bentuk yang berbeda dari sebuahkata, seperti mengorganisir, mengatur, dan mengorganisir. Selain itu, ada keluargadari derivationally relatedwordswith similarmeanings, seperti demokrasi,demokratis, dan demokratisasi. Dalam banyak situasi, tampaknya seolah-olah itu akan berguna untuk mencari salah satu dari kata-kata ini untuk mengembalikan dokumen yang berisikata lain dalam himpunan tersebut.

Selasa, 09 Maret 2010

Sistem Temu Balik Informasi (Bagian II)

Tidak ada komentar: