Analisis Teknologi Speech Emotion Recognition (SER): Pendekatan Fitur Akustik, Klasifikasi, Keamanan Dan Implementasi Pada Sistem Portabel

Ahmad Roihan; Rainy Zein; Maulidya Reva Aprianti; Fina Nailatul Izzah; Aghnia Luthfunnisa

doi:10.56995/sintek.v5i2.167

Authors

Ahmad Roihan Universitas Raharja
Rainy Zein Universitas Raharja
Maulidya Reva Aprianti Universitas Raharja
Fina Nailatul Izzah Universitas Raharja
Aghnia Luthfunnisa Universitas Raharja

DOI:

https://doi.org/10.56995/sintek.v5i2.167

Keywords:

Speech Emotion Recognition (SER), MFCC, CNN, deep learning

Abstract

Speech Emotion Recognition (SER) merupakan teknologi yang bertujuan untuk mengenali kondisi emosional seseorang berdasarkan sinyal suara. Seiring dengan kemajuan dalam bidang machine learning dan deep learning, akurasi dan efisiensi sistem SER semakin meningkat melalui penggunaan fitur akustik canggih seperti MFCC, GFCC, BFCC, Cochleagram, dan Hilbert Spectrum. Penelitian ini menganalisis pendekatan teknis yang digunakan dalam pengembangan SER berdasarkan studi literatur dari lima artikel ilmiah terpilih. Hasil kajian menunjukkan bahwa kombinasi CNN dengan attention mechanism, serta penerapan auto-encoder untuk reduksi dimensi, mampu meningkatkan performa klasifikasi emosi secara signifikan. Selain itu, implementasi sistem SER pada perangkat portabel seperti Raspberry Pi menunjukkan potensi besar dalam pemantauan psikologis berbasis suara. Namun, aspek keamanan masih menjadi tantangan serius, terutama dalam mendeteksi suara palsu atau hasil sintesis. Oleh karena itu, pengembangan SER masa depan perlu memperhatikan integrasi antara akurasi teknis, efisiensi komputasi, keamanan digital, serta aspek etika dan privasi pengguna.

Downloads

Download data is not yet available.

References

S. Madanian, T. Chen, O. Adeleye, J. M. Templeton, C. Poellabauer, D. Parry, and S. L. Schneider, "Speech emotion recognition using machine learning—A systematic review," Intelligent Systems with Applications, vol. 20, p. 200266, 2023.

A. S. Alluhaidan, O. Saidani, R. Jahangir, M. A. Nauman, and O. S. Neffati, "Speech emotion recognition through hybrid features and convolutional neural network," Applied Sciences, vol. 13, no. 8, p. 4750, 2023.

K. Mountzouris, I. Perikos, and I. Hatzilygeroudis, "Speech emotion recognition using convolutional neural networks with attention mechanism," Electronics, vol. 12, no. 20, p. 4376, 2023.

D. Rafiqo, Y. Suyanto, and C. Atmaji, "Klasifikasi Suara Paru-Paru Berdasarkan Ciri MFCC," IJEIS (Indonesian Journal of Electronics and Instrumentation Systems), vol. 12, no. 1, pp. 1–12, 2022.

I. Gurowiec and N. Nissim, "Speech emotion recognition systems and their security aspects," Artificial Intelligence Review, vol. 57, no. 6, p. 148, 2024.

M. B. Er, "A Novel Approach for Classification of Speech Emotions Based on Deep and Acoustic Features," in IEEE Access, vol. 8, pp. 221640-221653, 2020, doi: 10.1109/ACCESS.2020.3043201

B. H. Prasetio, L. O. A. Hazmar, D. Syauqy, and E. R. Widasari, "Gammatone-Frequency Cepstral Coefficients Based Fear Emotion Level Recognition System," Revista Mexicana de Ingeniería Biomédica, vol. 45, no. 2, pp. 6–22, 2024.

A. A. Yusuf, S. K. Wijaya, and P. Prajitno, "EEG-based human emotion recognition using k-NN machine learning," in AIP Conference Proceedings, vol. 2168, no. 1, AIP Publishing, Nov. 2019.

J. Wang, M. Xue, R. Culhane, E. Diao, J. Ding, and V. Tarokh, "Speech emotion recognition with dual-sequence LSTM architecture," in Proc. IEEE Int. Conf. Acoustics, Speech and Signal Processing (ICASSP), May 2020, pp. 6474–6478.

M. N. Dar, M. U. Akram, S. G. Khawaja, and A. N. Pujari, "CNN and LSTM-based emotion charting using physiological signals," Sensors, vol. 20, no. 16, p. 4551, 2020.