Penerapan Metode Eucliean Distance Untuk Ekstraksi Ciri Dokumen dan Kemiripan Dokumen

Yessi Yunitasari

Abstract


Ekstraksi ciri merupakan sebuah proses untuk mendapatkan fitur-fitur yang terkandung dalam dokumen untuk proses text minning. Fitur-fitur yang dimiliki berfungsi untuk membedakan satu pola dengan pola yang lain. Metode ekstraksi fitur yang digunakan pada penelitian ini adalah metode TF-IDF. Metode TF-IDF (Term Frequency Inverse Document Frequency) adalah metode yang umum digunakan dalam proses kategorisasi teks. TF-IDF memiliki dua buah komponen. Komponen pertama adalah term-frequency dan komponen kedua adalah inverse document frequency. Setelah proses ekstraksi fitur kemudian dilakukan perhitungan kemiripan dokumen yang didasari dari fitur-fitur yang telah diekstraksi dari sejumlah dokumen-dokumen yang akan diperiksa kemiripannya. Ada banyak metode yang dipakai untuk menghitung kemiripan dokumen seperti euclidean distance dan cosine-similarity. Metode yang dipilih dalam program adalah euclidean distance. Pada penelitian ini akan dilakukan penerapan metode Eucliean Distance untuk ekstraksi ciri dokumen dan kemiripan dokumen.



Keywords


Ekstraksi Ciri, TF-IDF, Eucliean Distance, Kemiripan Dokumen (Similiaritas)

Full Text:

PDF

References


Feinerer, Ingo, Kurt Hornik, and David Meyer. 2008. “Text Mining Infrastructure in R.” Journal Of Statistical Software 25(5): 1–54.

Haddi, Emma, Xiaohui Liu, and Yong Shi. 2013. “The Role of Text Pre-Processing in Sentiment Analysis.” Procedia Computer Science 17: 26–32.

Manning, Raghavan, dan Schutze, H., 2009, Introduction to Information Retrieval, Cambridge University Press.

Miner, G., Delen, D., Elder, J., Fast, A., dan Nisbet, R., 2012, Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications, Elsevier Inc.

Siqueira, H., dan Barros, F., 2010, A Feature Extraction Process for Sentiment Analysis of Opinions on Services, Proceedings of International Workshop on Web and Text Intelligence.

Sutoyo, S.Si., M.Kom,dkk. 2009 Pengolahan Citra Digital , Yogyakarta, Andi Offset.

Wurdianarto,dkk. 2014 Perbandingan Euclidean Distance Dengan Canberra Distance Pada Face Recognition, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang.

Yamamoto, M., dan Church, 2001, Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in A Corpus, Computational Linguistics, 27(1), 1-30.


Article Metrics

Abstract has been read : 1034 times
PDF file viewed/downloaded: 0 times


DOI: http://doi.org/10.25273/doubleclick.v3i1.4911

Refbacks

  • There are currently no refbacks.


Copyright (c) 2019 DOUBLECLICK: Journal of Computer and Information Technology

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Indexed By.

 

   

   

 

Kantor Sekertariat:
Program Studi Informatika, Fakultas Teknik
Universitas PGRI Madiun
Jl. Auri No. 14-16  Kota Madiun 63118
E-mail :  doubleclick@unipma.ac.id
 
 

Lisensi Creative Commons
Ciptaan disebarluaskan di bawah Lisensi Creative Commons Atribusi-BerbagiSerupa 4.0 Internasional.

View My Stats