Perbandingan Skenario Balancing Oversampling dan Undersampling dalam Klasifikasi Resiko Kambuh Kanker Tiroid menggunakan Algoritma SVM Linear
Abstract
Tujuan. Klasifikasi adalah proses penting dalam analisis data yang bertujuan untuk membagi objek ke dalam kategori tertentu berdasarkan karakteristik yang dimilikinya, namun salah satu tantangan utama dalam proses ini adalah ketika data yang digunakan tidak seimbang. Ketidakseimbangan dataset terjadi saat jumlah sampel dalam satu kelas jauh lebih besar dibandingkan kelas lainnya. Kondisi ini membuat model klasifikasi lebih cenderung mengenali kelas yang dominan, sementara kelas minoritas sering kali diabaikan, dalam dunia kesehatan, masalah ini menjadi sangat krusial karena akurasi prediksi bisa memengaruhi keputusan medis yang vital. Penelitian ini bertujuan untuk membandingkan tiga skenario dalam menangani ketidakseimbangan data pada klasifikasi risiko kambuhnya kanker tiroid menggunakan algoritma SVM Linear.
Material dan Metode. Penelitian ini menggunakan pendekatan metodologi SEMMA dalam proses eksplorasi, transformasi, pemodelan, dan evaluasi data, yang selanjutnya dilakukan penyeimbangan data menggunakan tiga skenario yaitu non balance data, balance oversampling dan balance undersampling. Hasil setiap skenario penyeimbangan data akan diklasifikasi menggunakan algoritma SVM Linear untuk diperoleh nilai akurasi risiko kambuhnya kanker tiroid.
Hasil. Hasil classification report menunjukkan bahwa model pada non-balanced data memiliki accuracy 88%, recall 85%, precision 86%, dan f1-score 86%, dengan performa yang dipengaruhi ketidakseimbangan data. Pada balanced data menggunakan oversampling SMOTE, semua metrik meningkat hingga 91%, menunjukkan bahwa oversampling efektif dalam menangani ketidakseimbangan. Sementara itu, balanced data dengan undersampling memberikan accuracy 89%, recall 88%, precision 89%, dan f1-score 88%, sedikit lebih rendah karena pengurangan data kelas mayoritas. Oversampling terbukti memberikan hasil terbaik dalam skenario ini
Kesimpulan. Hasil penelitian ini juga menunjukkan bahwa skenario dengan oversampling menggunakan SMOTE memberikan performa terbaik dibandingkan dua pendekatan lainnya. Model skenario oversampling mencapai akurasi hingga 91%, dengan presisi, recall, dan F1-score yang juga berada di angka 91%. Sebaliknya, model pada skenario undersampling meskipun memberikan hasil yang lebih baik dibandingkan non-balanced data, menunjukkan penurunan performa dengan akurasi sebesar 89%
Downloads
References
Annur, H. (2018). KLASIFIKASI MASYARAKAT MISKIN MENGGUNAKAN METODE NAÏVE BAYES. ILKOM, 10(2). https://doi.org/10.33096/ilkom.v10i2.303.160-165
Azzahra, S. P., Apriyanto, Y. A., & Wijaya, A. (2023). ANALISIS SENTIMEN ULASAN APLIKASI DEEPL PADA GOOGLE PLAY DENGAN METODE SUPPORT VECTOR MACHINE (SVM). Jurnal Sistem Informasi (JUSIN), 4(2), 59–66. https://doi.org/https://doi.org/10.32546/jusin.v4i2.2368
Borzooei, S., Briganti, G., Golparian, M., Lechien, J. R., & Tarokhian, A. (2024). Machine learning for risk stratification of thyroid cancer patients: a 15-year cohort study. European Archives of Oto-Rhino-Laryngology, 281(4), 2095–2104. https://doi.org/10.1007/s00405-023-08299-w
Borzooei, S., & Tarokhian, A. (2023). Differentiated Thyroid Cancer Recurrence [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5632J
Budi Utomo, P., Aswi Ramadhani, R., & Kurniawan, H. (2024). Deteksi Gerak Tangan sebagai Pengenal Bahasa Isyarat menggunakan Mediapipe dan Long-Short Term Memory. Jurnal SIMETRIS, 15(1).
Fadhilla Ramdhania, K., Fitrianto Hidayat, D., & Salkiawati, R. (2024). Implementasi Metode Naïve Bayes dan Support Vector Machine (SVM) untuk Menganalisis Sentimen Pengguna Twitter terhadap Transjakarta. JMPM: Jurnal Matematika Dan Pendidikan Matematika, 9(1), 1–14. https://doi.org/https://dx.doi.org/10.26594/jmpm.v9i1.4494.
Faruqziddan, M., Aulia, E. H. S., Azzahra, S. D., Ristyawan, A., & Daniati, E. (2024). Klasifikasi Risiko Kambuhnya Kanker Tiroid Menggunakan Algoritma Random Forest. In Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi), 8(1), 63–74.
Hamami, F., & Dahlan, I. A. (2022). Klasifikasi Cuaca Provinsi Dki Jakarta Menggunakan Algoritma Random Forest Dengan Teknik Oversampling. Jurnal Teknoinfo, 16(1), 87. https://doi.org/10.33365/jti.v16i1.1533
Imama Sabilla, W., & Bella Vista, C. (2021). Implementasi SMOTE dan Under Sampling pada Imbalanced Dataset untuk Prediksi Kebangkrutan Perusahaan. Jurnal Politeknik Caltex Riau, 7(2), 329–339. https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwjZh8GyzL-KAxWb1DgGHXKxLycQFnoECEQQAQ&url=https%3A%2F%2Fjurnal.pcr.ac.id%2Findex.php%2Fjkt%2Farticle%2Fview%2F5027%2F1747&usg=AOvVaw1mJCFXq3AeYh4QB1uOR0H-&opi=89978449
Indrawati, A. (2021). Penerapan Teknik Kombinasi Oversampling Dan Undersampling Untuk Mengatasi Permasalahan Imbalanced Dataset. JIKO (Jurnal Informatika Dan Komputer), 4(1), 38–43. https://doi.org/10.33387/jiko.v4i1.2561
Kasanah, A. N., Muladi, M., & Pujianto, U. (2019). Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 3(2), 196–201. https://doi.org/10.29207/resti.v3i2.945
Nur, A., Santosa, A., & Siti Komariyah, A. (2023). KARAKTERISTIK KANKER TIROID DI MALUKU UTARA TAHUN 2017-2020. Jurnal Endurance : Kajian Ilmiah Problema Kesehatan, 8(2), 246–252. https://doi.org/10.22216/jen.v8i2.2161
Nurdin, Hamdhana, D., & Iqbal, M. (2018). Aplikasi Quick Count Pilkada Dengan Menggunakan Metode Random Sampling Berbasis Android. E-Journal Techsi Teknik Informasi, 10(1), 141–154.
Nurhopipah, A., & Magnolia, C. (2023). PERBANDINGAN METODE RESAMPLING PADA IMBALANCED DATASET UNTUK KLASIFIKASI KOMENTAR PROGRAM MBKM. Jurnal Publikasi Ilmu Komputer Dan Multimedia , 2(1), 9–22. https://doi.org/https://doi.org/10.55606/jupikom.v2i1.862
Putri, N. B., & Wijayanto, A. W. (2022). Analisis Komparasi Algoritma Klasifikasi Data Mining Dalam Klasifikasi Website Phishing. Komputika : Jurnal Sistem Komputer, 11(1), 59–66. https://doi.org/10.34010/komputika.v11i1.4350
Rahman Isnain, A., Indra Sakti, A., Alita, D., & Satya Marga, N. (2021). SENTIMEN ANALISIS PUBLIK TERHADAP KEBIJAKAN LOCKDOWN PEMERINTAH JAKARTA MENGGUNAKAN ALGORITMA SVM. JDMSI, 2(1), 31–37. https://t.co/NfhnfMjtXw
Sabatini, T., & Itan, V. (2024). Implementasi Support Vector Machine untuk Klasifikasi Kasus Monkeypox: Pendekatan Oversampling dan Undersampling untuk Mengatasi Ketidakseimbangan Kelas. Journal of Digital Ecosystem for Natural Sustainability (JoDENS), 4(1), 38–43. https://www.kaggle.com/datasets/muhammad4hmed/monke
Saputro, E., & Rosiyadi, D. (2022). Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes. Bianglala Informatika, 10(1), 42–47. https://doi.org/https://doi.org/10.31294/bi.v10i1.11739
Shalih, M. G., Utami, M. R., Adam, M. I., & Shadrina, J. A. (2023). Edukasi Hormon Tiroid dan Antitiroid Terhadap Penyakit Gondok di SMK Wirasaba Karawang. Jurnal Dorkes (Dedikasi Olahraga Dan Kesehatan), 1(2), 50–57.
Siboro, O., Pricilia Banjarnahor, Y., Gultom, A., Antonius Siagian, N., & Silitonga, P. D. (2024). Penanganan Data Ketidakseimbangan dalam Pendekatan SMOTE Guna Meningkatkan akurasi Algoritma K-NN. SNISTIK : Seminar Nasional Inovasi Sains Teknologi Informasi Komputer, 1(Mei), 473–478. https://doi.org/https://doi.org/10.54367
Suwitono, Y. A., & Kaunang, F. J. (2022). Implementasi Algoritma Convolutional Neural Network (CNN) Untuk Klasifikasi Daun Dengan Metode Data Mining SEMMA Menggunakan Keras. Jurnal Komtika (Komputasi Dan Informatika), 6(2), 109–121. https://doi.org/10.31603/komtika.v6i2.8054
Syahwaluddin, R., & Alita, D. (2024). Penerapan Oversampling Pada Klasifikasi Ujaran Kebencian Menggunakan Bidirectional Encoder Representations from Transformers. The Indonesian Journal of Computer Science, 13(4). https://doi.org/10.33022/ijcs.v13i4.4295
Copyright (c) 2025 Prabowo Budi Utomo; Muhammad Faruqziddan, Ewanda Herdika Septa Aulia; Salsabilla Dini Azzahra
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.
Authors who publish with this journal agree to the following terms:
1. Copyright on any article is retained by the author(s).
2. The author grants the journal, right of first publication with the work simultaneously licensed under a Creative Commons Attribution License that allows others to share the work with an acknowledgment of the work’s authorship and initial publication in this journal.
3. Authors are able to enter into separate, additional contractual arrangements for the non-exclusive distribution of the journal’s published version of the work (e.g., post it to an institutional repository or publish it in a book), with an acknowledgment of its initial publication in this journal.
4. Authors are permitted and encouraged to post their work online (e.g., in institutional repositories or on their website) prior to and during the submission process, as it can lead to productive exchanges, as well as earlier and greater citation of published work.
5. The article and any associated published material is distributed under the Creative Commons Attribution-ShareAlike 4.0 International License