Analisis Teknologi Speech Emotion Recognition (SER): Pendekatan Fitur Akustik, Klasifikasi, Keamanan Dan Implementasi Pada Sistem Portabel
DOI:
https://doi.org/10.56995/sintek.v5i2.167Keywords:
Speech Emotion Recognition (SER), MFCC, CNN, deep learningAbstract
Speech Emotion Recognition (SER) merupakan teknologi yang bertujuan untuk mengenali kondisi emosional seseorang berdasarkan sinyal suara. Seiring dengan kemajuan dalam bidang machine learning dan deep learning, akurasi dan efisiensi sistem SER semakin meningkat melalui penggunaan fitur akustik canggih seperti MFCC, GFCC, BFCC, Cochleagram, dan Hilbert Spectrum. Penelitian ini menganalisis pendekatan teknis yang digunakan dalam pengembangan SER berdasarkan studi literatur dari lima artikel ilmiah terpilih. Hasil kajian menunjukkan bahwa kombinasi CNN dengan attention mechanism, serta penerapan auto-encoder untuk reduksi dimensi, mampu meningkatkan performa klasifikasi emosi secara signifikan. Selain itu, implementasi sistem SER pada perangkat portabel seperti Raspberry Pi menunjukkan potensi besar dalam pemantauan psikologis berbasis suara. Namun, aspek keamanan masih menjadi tantangan serius, terutama dalam mendeteksi suara palsu atau hasil sintesis. Oleh karena itu, pengembangan SER masa depan perlu memperhatikan integrasi antara akurasi teknis, efisiensi komputasi, keamanan digital, serta aspek etika dan privasi pengguna.
Downloads
References
S. Madanian, T. Chen, O. Adeleye, J. M. Templeton, C. Poellabauer, D. Parry, and S. L. Schneider, "Speech emotion recognition using machine learning—A systematic review," Intelligent Systems with Applications, vol. 20, p. 200266, 2023.
A. S. Alluhaidan, O. Saidani, R. Jahangir, M. A. Nauman, and O. S. Neffati, "Speech emotion recognition through hybrid features and convolutional neural network," Applied Sciences, vol. 13, no. 8, p. 4750, 2023.
K. Mountzouris, I. Perikos, and I. Hatzilygeroudis, "Speech emotion recognition using convolutional neural networks with attention mechanism," Electronics, vol. 12, no. 20, p. 4376, 2023.
D. Rafiqo, Y. Suyanto, and C. Atmaji, "Klasifikasi Suara Paru-Paru Berdasarkan Ciri MFCC," IJEIS (Indonesian Journal of Electronics and Instrumentation Systems), vol. 12, no. 1, pp. 1–12, 2022.
I. Gurowiec and N. Nissim, "Speech emotion recognition systems and their security aspects," Artificial Intelligence Review, vol. 57, no. 6, p. 148, 2024.
M. B. Er, "A Novel Approach for Classification of Speech Emotions Based on Deep and Acoustic Features," in IEEE Access, vol. 8, pp. 221640-221653, 2020, doi: 10.1109/ACCESS.2020.3043201
B. H. Prasetio, L. O. A. Hazmar, D. Syauqy, and E. R. Widasari, "Gammatone-Frequency Cepstral Coefficients Based Fear Emotion Level Recognition System," Revista Mexicana de Ingeniería Biomédica, vol. 45, no. 2, pp. 6–22, 2024.
A. A. Yusuf, S. K. Wijaya, and P. Prajitno, "EEG-based human emotion recognition using k-NN machine learning," in AIP Conference Proceedings, vol. 2168, no. 1, AIP Publishing, Nov. 2019.
J. Wang, M. Xue, R. Culhane, E. Diao, J. Ding, and V. Tarokh, "Speech emotion recognition with dual-sequence LSTM architecture," in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP), May 2020, pp. 6474–6478.
M. N. Dar, M. U. Akram, S. G. Khawaja, and A. N. Pujari, "CNN and LSTM-based emotion charting using physiological signals," Sensors, vol. 20, no. 16, p. 4551, 2020.

















