scispace - formally typeset
Open Access

Simulasi Dan Analisis Speaker Recognition Menggunakan Metode Mel Frequency Cepstrum Coefficient (mfcc) Dan Gaussian Mixture Model (gmm)

TLDR
Tugas akhir in this paper membahas mengenai pengenalan pembicara (speaker recognition), yaitu mekanisme pengenealan identitas subjek berdasarkan ciri suaranya.
Abstract
Tugas akhir ini membahas mengenai pengenalan pembicara (speaker recognition), yaitu mekanisme pengenalan identitas subjek berdasarkan ciri suaranya. Pertama, sinyal suara subjek yang diuji diekstraksi cirinya menggunakan metode MFCC (Mel Frequency Cepstrum Coefficient). Tahapan di dalam MFCC termasuk diantaranya adalah pre-emphasis, framing, windowing, FFT (Fast Fourier Transform), mel scaling dan DCT (Discrete Cosine Transform), yang mana keluaran MFCC adalah feature vector yang dinamakan cepstrum. Selanjutnya, cepstrum dari masing-masing subjek akan dimodelkan menggunakan metode GMM (Gaussian Mixture Model). Tahapan di dalam GMM termasuk diantaranya adalah Expectation-step dan Maximization-step, yang mana keluaran GMM adalah distribusi Gaussian dengan parameter mean (µ) dan variance ( ) yang unik untuk masingmasing subjek. Proses klasifikasi dilakukan dengan membandingkan parameter distribusi Gaussian antara data latih dan data uji. Pada penelitian internasional sebelumnya oleh kelompok mahasiswa di Preston University dan Jinnah Women University, Pakistan, dengan judul “Speaker Identification Using GMM with MFCC” diperoleh akurasi sebesar 87.5% dengan metode ekstraksi ciri MFCC, metode clustering K-Means, metode modelling GMM dan diklasifikasikan menggunakan log probability. Pada tugas akhir ini, kita akan melewatkan tahap clustering dan tahap klasifikasi dilakukan dengan melakukan perbandingan pada distribusi Gaussian memanfaatkan parameter mean (µ) dan variance ( ), dimana merupakan cara paling cepat dan mudah. Pada tugas akhir ini, diusahakan akurasi yang didapat mampu mendekati penelitian yang sudah ada mengingat tahap klasifikasi yang digunakan bisa dikatakan cara ‘kasar’ dalam penggunaan Gaussian Mixture Model (GMM) sehingga tidak bisa diekspektasikan lebih baik, meskipun banyak faktor lain yang bisa mempengaruhi akurasi simulasi. Kata kunci: Speaker recognition, Mel Frequency Cepstrum Coefficient (MFCC), Gaussian Mixture Model (GMM), Expectation Maximization (EM)

read more

Content maybe subject to copyright    Report

Citations
More filters
Proceedings ArticleDOI

Speaker Recognition For Digital Forensic Audio Analysis Using Learning Vector Quantization Method

TL;DR: This project will be done speaker recognition technique (Speaker Recognition) to be able to classify the speaker’s voice in the evidence and the voice of the suspect, using the Learning Vector Quantization Neural Network method.

Pengenalan Jenis Kelamin Manusia Berbasis Suara Menggunakan MFCC dan GMM

TL;DR: This study used the Mel Frequency Cepstrum Coefficients (MFCC) method to extract human voice features and Gaussian Mixture Models for the classification of female or male voice data and showed that the system built was able to detect human gender through biometric voice data with an accuracy of 81.18%.
Dissertation

Perancangan speech recognition pada humanoid robot untuk komunikasi dua arah dan voice biometric berbasis raspberry pi 3 model b

TL;DR: The robot designed in this study is a humanoid robot which has a combination of speech recognition and voice biometric, which is designed to be able to make movements according to limited orders through speech recognition using a servo motor.
Proceedings ArticleDOI

Speaker Recognition for Device Controlling using MFCC and GMM Algorithm

TL;DR: In this article, a sound control system that can identify one speaker's voice with other speakers registered on the system to control smart home devices and reject commands from foreign speakers who are not registered on a system to secure a voice control system is formed.