Perbandingan kemiripan naskah dokumen teks dengan metode exact match
HERIYANTO, Drs. Agus Harjoko, M.Sc., Ph.D
2010 | Tesis | S2 Ilmu KomputerData teks banyak dijumpai dalam kehidupan sehari-hari hampir setiap saat selalu berhubungan dengan naskah data teks, namun yang menjadi permasalahan adalah banyaknya dijumpai naskah teks yang di ambil atau di kutip di dalam acuan penulisan buku tidak menyebutkan sumbernya. Pada prinsipnya selama pengutipan naskah dicantumkan menjadi tidak masalah, namun menjadi masalah pencuplikan naskah atau dokumen dari kutipan tidak menyertakan nama sumber yang pada akhirnya adalah penjiplakan. Perbadingan kemiripan untuk menguji beberapa dokumen yang diambil untuk mengetahui seberapa persis dari naskah tersebut mirip ataukah tidak dengan algoritma yang efektif dan efisiensi. Sistem yang dibuat dan dirancang untuk melakukan pengujian kedua naskah baik naskah sumber teks 1 dan naskah sumber teks 2 (target) dalam bentuk penyimpanan databases yang telah diindeks, dengan prediksi apabila ada kemiripan dari teks 1 dan teks 2 maka mendekati sama atau tidak sama. Secara garis besar sistem terdiri dari tiga proses yaitu proses awal (praprocessing with index), proses pencarian (searching) dan proses perhitungan presisi dengan penandaan dan exact match. Analisa yang dilakukan berupa pengecekan : pertama kesamaan kata dan letak berbeda, kedua kesamaan kata dan letak sama, dan ketiga kesamaan kata berdasarkan padanan kata. Kesamaan berdasarkan padanan kata akan di padukan pula dengan kesamaan kata dan letak berbeda, dipadukan juga dengan kesamaan kata dan letak sama. Kemiripan naskah dilakukan dengan metode Exact Match dan fungsi similarity. Fungsi Similarity merupakan proses penanda yang dilakukan dengan Exact Match pengecekan kata apabila ketemu sama persis maka dikatakan tepat sama dengan nilai 1 (true) dan tidak sama maka 0 (false). Kemiripan naskah sumber dan target berdasarkan analisa exact match tidak memperdulikan stemming sehingga apabila ada awalan dan akhiran tidak termasuk sama, sehingga kata dasar ditambah dengan awalan dan akhiran akan berarti kata yang berbeda-beda sehingga penulis menganggap tidak perlu dilakukan steam karena pada akhir dan awalan memang kebanyakan kata selalu mempunyai arti berbeda. Analisa yang dilakukan semakin mendekati angka 1 maka naskah target dinyatakan semakin mirip tetap sebaliknya jika mendekati angka 0 maka semakin tidak mirip. Jika terletak ditengah-tengah 0.5 setengah mirip setengah tidak.
In everyday life of text data often found almost everytime using text, some becoming problems is to often found by text copy which is taking or citing in reference writing of book do not mention its source, in principle during in reference of copy mentioned becoming not problem, but become problem citattion of document do not mentioned in the name of source which is on finally is plagiarism. comparison of resemblance document text to know how precisely from its source resemblance or do not with efficient and effective algorithm. Made system and designed to do examination both of source of text 1 and source of text 2 (goals) with prediksi if there is resemblance from text 1 and text 2 more near or not. In generally system consist of three process that is process early (praprocessing with index), seeking process (process and searching with index) calculation of presisi with sign and match exact. analysis in the form of checking : the first equality of word with word location differ, second equality of word with is same word location, and third equality of word equivalent. Equality of word equivalent combine also with equality of word with word location differ, and combine equality of word with is same word location. Resemblance used analys with Exact Match method and similarity function. Function Similarity represent process with Exact Match checking of word if precisely is equal to value 1 (true) and not equal to value 0 (false). Resemblance of source and goals base analysis match exact without used steam although there is suffix and prefix that is difference word, so added with suffix and prefix will mean word which different. Because writer assume needn't be steam because by the prefix dand suffix most word always have meaning differ. The Finally, Analysis come near number 1 is similarity and near number 0 didn’t similary. If the number 0.5 or a half that mean half similarity.
Kata Kunci : Indek,Teks,Similarity,Exact,Match,Searching,Sumber,Target,Dokumen ; indexing, text, similarity, exact, match, searching, source, goal, document