Voice Phishing; Data Augmentation; Back-Translation; SMOTE; Imbalanced Dataset; Natural Language Processing; Cybersecurity; Korean Language

Korean Voice Phishing Detection Dataset with Multilingual Back-Translation and SMOTE Augmentations

This dataset contains original and augmented versions of the Korean Call Content Vishing (KorCCVi v2) dataset used in the study titled, "Enhancing Voice Phishing Detection Using Multilingual Back-Translation and SMOTE: An Empirical Study." The dataset addresses challenges of data imbalance and asymmetry in Korean voice phishing detection, leveraging data augmentation techniques such as multilingual back-translation (BT) with English, Chinese, and Japanese as intermediate languages, and Synthetic Minority Oversampling Technique (SMOTE).

Categories:: Artificial Intelligence
Machine Learning
Security
Computational Intelligence

603 Views