Penerapan Metode Eucliean Distance Untuk Ekstraksi Ciri Dokumen dan Kemiripan Dokumen

Yessi Yunitasari

doi:10.25273/doubleclick.v3i1.4911

Penerapan Metode Eucliean Distance Untuk Ekstraksi Ciri Dokumen dan Kemiripan Dokumen

Yessi Yunitasari

Abstract

Ekstraksi ciri merupakan sebuah proses untuk mendapatkan fitur-fitur yang terkandung dalam dokumen untuk proses text minning. Fitur-fitur yang dimiliki berfungsi untuk membedakan satu pola dengan pola yang lain. Metode ekstraksi fitur yang digunakan pada penelitian ini adalah metode TF-IDF. Metode TF-IDF (Term Frequency Inverse Document Frequency) adalah metode yang umum digunakan dalam proses kategorisasi teks. TF-IDF memiliki dua buah komponen. Komponen pertama adalah term-frequency dan komponen kedua adalah inverse document frequency. Setelah proses ekstraksi fitur kemudian dilakukan perhitungan kemiripan dokumen yang didasari dari fitur-fitur yang telah diekstraksi dari sejumlah dokumen-dokumen yang akan diperiksa kemiripannya. Ada banyak metode yang dipakai untuk menghitung kemiripan dokumen seperti euclidean distance dan cosine-similarity. Metode yang dipilih dalam program adalah euclidean distance. Pada penelitian ini akan dilakukan penerapan metode Eucliean Distance untuk ekstraksi ciri dokumen dan kemiripan dokumen.

Keywords

Ekstraksi Ciri, TF-IDF, Eucliean Distance, Kemiripan Dokumen (Similiaritas)

Full Text:

PDF

References

Feinerer, Ingo, Kurt Hornik, and David Meyer. 2008. “Text Mining Infrastructure in R.” Journal Of Statistical Software 25(5): 1–54.

Haddi, Emma, Xiaohui Liu, and Yong Shi. 2013. “The Role of Text Pre-Processing in Sentiment Analysis.” Procedia Computer Science 17: 26–32.

Manning, Raghavan, dan Schutze, H., 2009, Introduction to Information Retrieval, Cambridge University Press.

Miner, G., Delen, D., Elder, J., Fast, A., dan Nisbet, R., 2012, Practical Text Mining and Statistical Analysis for Non-Structured Text Data Applications, Elsevier Inc.

Siqueira, H., dan Barros, F., 2010, A Feature Extraction Process for Sentiment Analysis of Opinions on Services, Proceedings of International Workshop on Web and Text Intelligence.

Sutoyo, S.Si., M.Kom,dkk. 2009 Pengolahan Citra Digital , Yogyakarta, Andi Offset.

Wurdianarto,dkk. 2014 Perbandingan Euclidean Distance Dengan Canberra Distance Pada Face Recognition, Fakultas Ilmu Komputer, Universitas Dian Nuswantoro Semarang.

Yamamoto, M., dan Church, 2001, Using Suffix Arrays to Compute Term Frequency and Document Frequency for All Substrings in A Corpus, Computational Linguistics, 27(1), 1-30.