Perbandingan Skenario Balancing Oversampling dan Undersampling dalam Klasifikasi Resiko Kambuh Kanker Tiroid menggunakan Algoritma SVM Linear

  • Prabowo Budi Utomo AKN Putra Sang Fajar Blitar
  • Muhammad Faruqziddan Universitas Nusantara PGRI Kediri
  • Ewanda Herdika Septa Aulia Universitas Nusantara PGRI Kediri
  • Salsabilla Dini Azzahra Universitas Nusantara PGRI Kediri
Abstract views: 0 , PDF downloads: 0
Keywords: Kanker Tiroid, oversampling, undersampling, SVM

Abstract

Tujuan. Klasifikasi adalah proses penting dalam analisis data yang bertujuan untuk membagi objek ke dalam kategori tertentu berdasarkan karakteristik yang dimilikinya, namun salah satu tantangan utama dalam proses ini adalah ketika data yang digunakan tidak seimbang. Ketidakseimbangan dataset terjadi saat jumlah sampel dalam satu kelas jauh lebih besar dibandingkan kelas lainnya. Kondisi ini membuat model klasifikasi lebih cenderung mengenali kelas yang dominan, sementara kelas minoritas sering kali diabaikan, dalam dunia kesehatan, masalah ini menjadi sangat krusial karena akurasi prediksi bisa memengaruhi keputusan medis yang vital. Penelitian ini bertujuan untuk membandingkan tiga skenario dalam menangani ketidakseimbangan data pada klasifikasi risiko kambuhnya kanker tiroid menggunakan algoritma SVM Linear.

Material dan Metode. Penelitian ini menggunakan pendekatan metodologi SEMMA dalam proses eksplorasi, transformasi, pemodelan, dan evaluasi data, yang selanjutnya dilakukan penyeimbangan data menggunakan tiga skenario yaitu non balance data, balance oversampling dan balance undersampling. Hasil setiap skenario penyeimbangan data akan diklasifikasi menggunakan algoritma SVM Linear untuk diperoleh nilai akurasi risiko kambuhnya kanker tiroid.

Hasil. Hasil classification report menunjukkan bahwa model pada non-balanced data memiliki accuracy 88%, recall 85%, precision 86%, dan f1-score 86%, dengan performa yang dipengaruhi ketidakseimbangan data. Pada balanced data menggunakan oversampling SMOTE, semua metrik meningkat hingga 91%, menunjukkan bahwa oversampling efektif dalam menangani ketidakseimbangan. Sementara itu, balanced data dengan undersampling memberikan accuracy 89%, recall 88%, precision 89%, dan f1-score 88%, sedikit lebih rendah karena pengurangan data kelas mayoritas. Oversampling terbukti memberikan hasil terbaik dalam skenario ini

Kesimpulan. Hasil penelitian ini juga menunjukkan bahwa skenario dengan oversampling menggunakan SMOTE memberikan performa terbaik dibandingkan dua pendekatan lainnya. Model skenario oversampling mencapai akurasi hingga 91%, dengan presisi, recall, dan F1-score yang juga berada di angka 91%. Sebaliknya, model pada skenario undersampling meskipun memberikan hasil yang lebih baik dibandingkan non-balanced data, menunjukkan penurunan performa dengan akurasi sebesar 89%

Downloads

Download data is not yet available.

References

Andrade-Arenas, L., Rubio-Paucar, I., & Yactayo-Arias, C. (2024). Predictive models in Alzheimer’s disease: an evaluation based on data mining techniques. International Journal of Electrical and Computer Engineering, 14(3), 2988–3002. https://doi.org/10.11591/ijece.v14i3.pp2988-3002
Annur, H. (2018). KLASIFIKASI MASYARAKAT MISKIN MENGGUNAKAN METODE NAÏVE BAYES. ILKOM, 10(2). https://doi.org/10.33096/ilkom.v10i2.303.160-165
Azzahra, S. P., Apriyanto, Y. A., & Wijaya, A. (2023). ANALISIS SENTIMEN ULASAN APLIKASI DEEPL PADA GOOGLE PLAY DENGAN METODE SUPPORT VECTOR MACHINE (SVM). Jurnal Sistem Informasi (JUSIN), 4(2), 59–66. https://doi.org/https://doi.org/10.32546/jusin.v4i2.2368
Borzooei, S., Briganti, G., Golparian, M., Lechien, J. R., & Tarokhian, A. (2024). Machine learning for risk stratification of thyroid cancer patients: a 15-year cohort study. European Archives of Oto-Rhino-Laryngology, 281(4), 2095–2104. https://doi.org/10.1007/s00405-023-08299-w
Borzooei, S., & Tarokhian, A. (2023). Differentiated Thyroid Cancer Recurrence [Dataset]. UCI Machine Learning Repository. https://doi.org/10.24432/C5632J
Budi Utomo, P., Aswi Ramadhani, R., & Kurniawan, H. (2024). Deteksi Gerak Tangan sebagai Pengenal Bahasa Isyarat menggunakan Mediapipe dan Long-Short Term Memory. Jurnal SIMETRIS, 15(1).
Fadhilla Ramdhania, K., Fitrianto Hidayat, D., & Salkiawati, R. (2024). Implementasi Metode Naïve Bayes dan Support Vector Machine (SVM) untuk Menganalisis Sentimen Pengguna Twitter terhadap Transjakarta. JMPM: Jurnal Matematika Dan Pendidikan Matematika, 9(1), 1–14. https://doi.org/https://dx.doi.org/10.26594/jmpm.v9i1.4494.
Faruqziddan, M., Aulia, E. H. S., Azzahra, S. D., Ristyawan, A., & Daniati, E. (2024). Klasifikasi Risiko Kambuhnya Kanker Tiroid Menggunakan Algoritma Random Forest. In Prosiding SEMNAS INOTEK (Seminar Nasional Inovasi Teknologi), 8(1), 63–74.
Hamami, F., & Dahlan, I. A. (2022). Klasifikasi Cuaca Provinsi Dki Jakarta Menggunakan Algoritma Random Forest Dengan Teknik Oversampling. Jurnal Teknoinfo, 16(1), 87. https://doi.org/10.33365/jti.v16i1.1533
Imama Sabilla, W., & Bella Vista, C. (2021). Implementasi SMOTE dan Under Sampling pada Imbalanced Dataset untuk Prediksi Kebangkrutan Perusahaan. Jurnal Politeknik Caltex Riau, 7(2), 329–339. https://www.google.com/url?sa=t&rct=j&q=&esrc=s&source=web&cd=&cad=rja&uact=8&ved=2ahUKEwjZh8GyzL-KAxWb1DgGHXKxLycQFnoECEQQAQ&url=https%3A%2F%2Fjurnal.pcr.ac.id%2Findex.php%2Fjkt%2Farticle%2Fview%2F5027%2F1747&usg=AOvVaw1mJCFXq3AeYh4QB1uOR0H-&opi=89978449
Indrawati, A. (2021). Penerapan Teknik Kombinasi Oversampling Dan Undersampling Untuk Mengatasi Permasalahan Imbalanced Dataset. JIKO (Jurnal Informatika Dan Komputer), 4(1), 38–43. https://doi.org/10.33387/jiko.v4i1.2561
Kasanah, A. N., Muladi, M., & Pujianto, U. (2019). Penerapan Teknik SMOTE untuk Mengatasi Imbalance Class dalam Klasifikasi Objektivitas Berita Online Menggunakan Algoritma KNN. Jurnal RESTI (Rekayasa Sistem Dan Teknologi Informasi), 3(2), 196–201. https://doi.org/10.29207/resti.v3i2.945
Nur, A., Santosa, A., & Siti Komariyah, A. (2023). KARAKTERISTIK KANKER TIROID DI MALUKU UTARA TAHUN 2017-2020. Jurnal Endurance : Kajian Ilmiah Problema Kesehatan, 8(2), 246–252. https://doi.org/10.22216/jen.v8i2.2161
Nurdin, Hamdhana, D., & Iqbal, M. (2018). Aplikasi Quick Count Pilkada Dengan Menggunakan Metode Random Sampling Berbasis Android. E-Journal Techsi Teknik Informasi, 10(1), 141–154.
Nurhopipah, A., & Magnolia, C. (2023). PERBANDINGAN METODE RESAMPLING PADA IMBALANCED DATASET UNTUK KLASIFIKASI KOMENTAR PROGRAM MBKM. Jurnal Publikasi Ilmu Komputer Dan Multimedia , 2(1), 9–22. https://doi.org/https://doi.org/10.55606/jupikom.v2i1.862
Putri, N. B., & Wijayanto, A. W. (2022). Analisis Komparasi Algoritma Klasifikasi Data Mining Dalam Klasifikasi Website Phishing. Komputika : Jurnal Sistem Komputer, 11(1), 59–66. https://doi.org/10.34010/komputika.v11i1.4350
Rahman Isnain, A., Indra Sakti, A., Alita, D., & Satya Marga, N. (2021). SENTIMEN ANALISIS PUBLIK TERHADAP KEBIJAKAN LOCKDOWN PEMERINTAH JAKARTA MENGGUNAKAN ALGORITMA SVM. JDMSI, 2(1), 31–37. https://t.co/NfhnfMjtXw
Sabatini, T., & Itan, V. (2024). Implementasi Support Vector Machine untuk Klasifikasi Kasus Monkeypox: Pendekatan Oversampling dan Undersampling untuk Mengatasi Ketidakseimbangan Kelas. Journal of Digital Ecosystem for Natural Sustainability (JoDENS), 4(1), 38–43. https://www.kaggle.com/datasets/muhammad4hmed/monke
Saputro, E., & Rosiyadi, D. (2022). Penerapan Metode Random Over-Under Sampling Pada Algoritma Klasifikasi Penentuan Penyakit Diabetes. Bianglala Informatika, 10(1), 42–47. https://doi.org/https://doi.org/10.31294/bi.v10i1.11739
Shalih, M. G., Utami, M. R., Adam, M. I., & Shadrina, J. A. (2023). Edukasi Hormon Tiroid dan Antitiroid Terhadap Penyakit Gondok di SMK Wirasaba Karawang. Jurnal Dorkes (Dedikasi Olahraga Dan Kesehatan), 1(2), 50–57.
Siboro, O., Pricilia Banjarnahor, Y., Gultom, A., Antonius Siagian, N., & Silitonga, P. D. (2024). Penanganan Data Ketidakseimbangan dalam Pendekatan SMOTE Guna Meningkatkan akurasi Algoritma K-NN. SNISTIK : Seminar Nasional Inovasi Sains Teknologi Informasi Komputer, 1(Mei), 473–478. https://doi.org/https://doi.org/10.54367
Suwitono, Y. A., & Kaunang, F. J. (2022). Implementasi Algoritma Convolutional Neural Network (CNN) Untuk Klasifikasi Daun Dengan Metode Data Mining SEMMA Menggunakan Keras. Jurnal Komtika (Komputasi Dan Informatika), 6(2), 109–121. https://doi.org/10.31603/komtika.v6i2.8054
Syahwaluddin, R., & Alita, D. (2024). Penerapan Oversampling Pada Klasifikasi Ujaran Kebencian Menggunakan Bidirectional Encoder Representations from Transformers. The Indonesian Journal of Computer Science, 13(4). https://doi.org/10.33022/ijcs.v13i4.4295
Published
2024-12-31

PlumX Metrics

How to Cite
Budi Utomo, P., Faruqziddan, M., Herdika Septa Aulia, E., & Dini Azzahra, S. (2024). Perbandingan Skenario Balancing Oversampling dan Undersampling dalam Klasifikasi Resiko Kambuh Kanker Tiroid menggunakan Algoritma SVM Linear. JAMI: Jurnal Ahli Muda Indonesia, 5(2), 172 - 182. https://doi.org/10.46510/jami.v5i2.320

Most read articles by the same author(s)