Pembangunan taksonomi dari teks Melayu menggunakan algoritma kunang-kunang pembahagi dua sama

Mohd Zakree Ahmad Nazri, and Kurniawan, Tri Basuki and Abdul Razak Hamdan, and Salwani Abdullah, and Mohammed Azlan Mis, (2018) Pembangunan taksonomi dari teks Melayu menggunakan algoritma kunang-kunang pembahagi dua sama. GEMA: Online Journal of Language Studies, 18 (2). pp. 182-201. ISSN 1675-8021

[img]
Preview
PDF
704kB

Official URL: http://ejournal.ukm.my/gema/issue/view/1087

Abstract

Taksonomi digunakan untuk menerangkan bahawa haiwan boleh dikelaskan kepada beberapa kategori seperti mamalia, reptilia dan buaya. Taksonomi biologi ini membolehkan persamaan, perbezaan malah hubungan antara haiwan ditakrifkan. Konsep dan fungsi taksonomi biologi ini ‘dipinjam’ oleh saintis dan jurutera Internet dalam membangunkan taksonomi untuk Internet. Seperti taksonomi biologi, membangunkan taksonomi untuk Internet secara manual bukanlah suatu yang mudah dan murah. Tugas ini mengambil masa dan memerlukan kepintaran dalam bidang. Justeru saintis komputer telah menggunakan pendekatan kecerdasan buatan untuk membangunkan taksonomi secara automatik dari teks. Algoritma pembelajaran mesin dicipta untuk membolehkan mesin ‘membaca’ teks dan kemudiannya ‘belajar’ untuk membina taksonomi dari konteks yang diperolehi dari teks. Objektif utama kajian ini adalah untuk membangunkan algoritma pembelajaran taksonomi dari Bahasa Melayu yang lebih berkesan dari algoritma sedia ada menggunakan kaedah penghibridan. Makalah ini menyiasat keberkesanan algoritma hibrid antara Algoritma Kunang-Kunang (AKK) dengan Algoritma K-Min Pembahagi Dua Sama (PDS) yang dipanggil Algoritma Kunang-Kunang Pembahagi Dua Sama (AKK-PD). Kajian empirikal ini mengumpul data dari eksperimen yang dijalankan ke atas tiga teks Bahasa Melayu dari bidang Fekah, Biokimia dan Teknologi Maklumat. Perbandingan data ketepatan berasaskan ukuran-F menunjukkan algoritma hybrid AKK-PD membina taksonomi yang lebih tepat berbanding menggunakan algoritma sedia ada. AKK-PD didapati lebih berkesan dan mantap berbanding algoritma bandingan apabila mengendalikan masalah kejarangan data . Walau bagaimanapun, kajian penerokaan ini perlu diteruskan kepada korpus Bahasa Melayu yang lebih besar untuk menguji ketahanan algoritma ini apabila berhadapan dengan korpus yang lebih umum sifatnya berbanding korpus teks yang teknikal dan menjurus kepada suatu bidang sahaja. Teknik pengekstrakan ciri berasakan kebergantungan sintaksis juga perlu dipertingkatkan kerana jelas teknik telah menghasilkan konteks yang mengalami masalah kejarangan data yang serius. Justeru memberi cabaran baharu untuk penyelidikan pembelajaran taksonomi dari teks Melayu.

Item Type:Article
Keywords:Pembelajaran mesin; Pembelajaran taksonomi; Algoritma Kunang-Kunang; Ciri; Teks bahasa Melayu
Journal:GEMA ; Online Journal of Language Studies
ID Code:13779
Deposited By: ms aida -
Deposited On:06 Dec 2019 01:49
Last Modified:09 Dec 2019 23:24

Repository Staff Only: item control page