Proses Produksi Suara Manusia
Proses produksi suara
pada manusia dapat dibagi menjadi tiga buah proses fisiologis, yaitu :
pembentukan aliran udara dari paru-paru, perubahan aliran udara dari
paru-paru menjadi suara, baik voiced, maupun unvoiced yang dikenal dengan istilah phonation, dan artikulasi yaitu proses modulasi/ pengaturan suara menjadi bunyi yang spesifik.
Organ tubuh yang terlibat pada proses produksi suara adalah : paru-paru, tenggorokan (trachea), laring (larynx), faring (pharynx), pita suara (vocal cord), rongga mulut (oral cavity), rongga hidung (nasal cavity), lidah (tongue), dan bibir (lips), seperti dapat dilihat pada gambar diatas!
Organ tubuh ini dapat dikelompokkan menjadi tiga bagian utama, yaitu : vocal tract (berawal di awal bukaan pita suara atau glottis, dan berakhir di bibir), nasal tract (dari velum sampai nostril), dan source generator (terdiri dari paru-paru, tenggorokan, dan larynx). Ukuran vocal tract
bervariasi untuk setiap individu, namun untuk laki-laki dewasa
rata-rata panjangnya sekitar 17 cm. Luas dari vocal tract juga
bervariasi antara 0 (ketika seluruhnya tertutup) hingga sekitar 20 cm2.
Ketika velum, organ yang memiliki fungsi sebagai pintu penghubung antara vocal tract dengan nasal tract, terbuka, maka secara akustik nasal tract akan bergandengan dengan vocal tract untuk menghasilkan suara nasal.
Aliran
udara yang dihasilkan dorongan otot paru-paru bersifat konstan. Ketika
pita suara dalam keadaan berkontraksi, aliran udara yang lewat
membuatnya bergetar. Aliran udara tersebut dipotong-potong oleh gerakan
pita suara menjadi sinyal pulsa yang bersifat quasi-periodik. Sinyal pulsa tersebut kemudian mengalami modulasi frekuensi ketika melewati pharynx, rongga mulut ataupun pada rongga hidung. Sinyal suara yang dihasilkan pada proses ini dinamakan sinyal voiced.
Namun, apabila pita suara dalam keadaan relaksasi, maka aliran udara
akan berusaha melewati celah sempit pada permulaan vocal tract sehingga
alirannya menjadi turbulen, proses ini akan menghasilkan sinyal unvoiced. Ketika sumber suara melalui vocal tract, kandungan frekuensinya mengalami modulasi sehingga terjadi resonansi pada vocal tract yang disebut formants. Apabila sinyal suara yang dihasilkan adalah sinyal voiced, terutama vokal, maka pada selang waktu yang singkat bentuk vocal tract relative konstan (berubah secara lambat) sehingga bentuk vocal tract dapat diperkirakan dari bentuk spektral sinyal voiced.
Aliran udara yang melewati pita suara dapat dibedakan menjadi phonation, bisikan, frication, kompresi, vibrasi ataupun kombinasi diantaranya. Phonated excitation terjadi bila aliran udara dimodulasi oleh pita suara. Whispered excitation dihasilkan oleh aliran udara yang bergerak cepat masuk ke dalam lorong bukaan segitiga kecil antara arytenoids cartilage di belakang pita suara yang hampir tertutup. Frication excitation dihasilkan oleh desakan di vocal tract. Compression excitation dihasilkan akibat pelepasan udara melalui vocal tract yang tertutup dengan tekanan tinggi. Vibration excitation disebabkan oleh udara yang dipaksa memasuki rusang selain pita suara, khususnya lidah. Suara yang dihasilkan oleh Phonated excitation disebut voiced. Suara yang dihasilkan oleh Phonated excitation ditambah frication disebut mixed voiced, sedangkan yang dihasilkan oleh selain itu disebut unvoiced. Karakteristik suara tiap individu bersifat unik karena terdapat perbedaan dalam hal panjang maupun bentuk vocal tract.
Pengenalan Suara pada Manusia
Pada
sistem pengenalan suara oleh manusia terdapat tiga organ penting yang
saling berhubungan yaitu : telinga yang berperan sebagai transduser
dengan menerima sinyal masukan suara dan mengubahnya menjadi sinyal
syaraf, jaringan syaraf yang berfungsi mentransmisikan sinyal ke otak,
dan otak yang akan mengklasifikasi dan mengidentifikasi informasi yang
terkandung dalam sinyal masukan.
Karakteristik Telinga
Telinga terbagi menjadi tiga bagian, yaitu bagian luar, tengah, dan dalam.
Pinna, sebagai bagian luar telinga, berfungsi sebagai corong, untuk mengumpulkan sinyal suara menuju auditory canal sehingga dapat memberikan kesan arah sinyal suara yang diterima.
Auditory canal adalah
struktur berbentuk pipa lurus sepanjang 2,7 cm, dengan diameter
sekitar 0,7 cm, yang pada bagian ujungnya terdapat selaput membrane,
yaitu gendang telinga. Membran ini merupakan pintu masuk telinga
bagian tengah, yaitu ruangan berisi udara dengan volume sebesar 2 cm3, yang terdiri dari tiga buah tulang, yaitu malleus (martil), incus (landasan), dan stapes (sanggurdi). Bagian ini terhubung dengan tenggorokan melalui Eustachian tube. Getaran pada gendang telinga ditransmisikan ke malleus melalui incus, dan stapes, yaitu membentuk oval window.
Telinga bagian dalam (labyrinth) memiliki tiga bagian, yaitu vestibule (ruang pintu masuk), semicular canal, dan cochlea. Vestibule terhubung dengan telinga bagian tengah melalui dua jalur, yaitu oval window, dan round window. Keduanya tertutup untuk mencegah keluarnya cairan yang mengisi telinga telinga bagian dalam. Pada cochlea, yang berstruktur seperti rumah siput, terdapat syaraf pendengaran. Syaraf ini memanjang sampai ke basilar membrane. Pada bagian atas basilar membrane terdapat organ of corty yang memiliki empat baris sel rambut (sekitar 3 x 104 sel seluruhnya).
Proses pendengaran
Proses pendengaran pada telinga manusia dijelaskan sebagai berikut :
- Sinyal suara memasuki saluran telinga dan variasi tekanan yang dihasilkannya menekan gendang telinga. Karena sisi bagian dalam dari gendang telinga mempunyai tekanan yang nilainya dijaga konstan maka gendang telinga akan bergetar.
- Getaran dari gendang telinga disalurkan pada tiga rangkaian tulang yaitu; martil, incus dan stapes. Mekanisme ini dirancang untuk mengkopel variasi suara dari udara luar ke telinga bagian dalam. Karena luas permukaan penampang yang ditekan stapes lebih kecil dari luas penampang gendang telinga maka tekanan suara yang sampai ke telinga bagaian dalam bertambah besar.
- Cairan pada cochlea bergetar dengan frekuensi yang sama dengan gelombang yang datang. Basilar membrane kemudian memisahkan sinyal berdasarkan frekuensinya. Basilar membrane berstruktur kuat dan panjang di daerah sekitar oval window namun bersifat lentur pada bagian ujungnya. Frekuensi resonansi yang dihasilkan membrane tersebut berbeda sepanjang dimensi basilar membrane. Dimana resonansi frekuensi tinggi terjadi pada bagian bagian basilar membrane yang berada dekat dengan oval window, sedangkan resonansi frekuensi rendah terjadi pada daerah ujung lainnya. Syaraf yang berada pada mambran kemudian mendeteksi posisi terjadinya resonansi yang juga akan menentukan frekuensi suara yang datang. Ukuran dari basilar membrane rata-rata sekitar 35 mm. Dari ukuran panjang tersebut dapat dihasilkan 10 resolusi frekuensi, sehingga pada setiap 3.5 mm panjang membran terdapat 1 oktaf frekuensi resonansi.
Sinyal Suara Ucapan
Sinyal
suara ucapan manusia dapat dipandang sebagai sinyal yang berubah
lambat terhadap waktu (slowly time varying signal), jika diamati pada
selang waktu yang singkat yaitu 5-100 ms. Pada selang waktu tersebut,
katakteristik sinyal suara ucapan dapat dianggap stasioner. Untuk
selang waktu yang lebih panjang (dengan orde 0.2 detik atau lebih),
karakteristik sinyal berubah untuk merefleksikan suara berbeda yang
diucapkan.
Klasifikasi berdasarkan sinyal eksitasi
Berdasarkan
sinyal eksitasi yang dihasilkan pada proses produksi suara, sinyal
suara ucapan dapat dibagi menjadi tiga bagian yaitu silence, unvoiced,
dan voiced:
1. Sinyal silence
: sinyal pada saat tidak terjadi proses produksi suara ucapan, dan
sinyal yang diterima oleh pendengar dianggap sebagai bising latar
belakang.
2. Sinyal unvoiced : terjadi pada saat pita suara tidak bergetar, dimana sinyal eksitasi berupa sinyal random.
3. Sinyal voiced
: terjadi jika pita suara bergetar, yaitu pada saat sinyal eksitasi
berupa sinyal pulsa kuasi-periodik. Selama terjadinya sinyal voiced
ini, pita suara bergetar pada frekuensi fundamental – inilah yang
dikenal sebagai pitch dari suara tersebut.
Analisis Sinyal Ucapan
Informasi
yang terdapat di dalam sebuah sinyal ucapan dapat dianalisis dengan
berbagi cara. Beberapa peneliti telah membagi beberapa level pendekatan
untuk menggambarkan informasi tersebut, yaitu level akustik, fonetik,
fonologi, morfologi, sintatik, dan semantik.
1. Level Akustik
Sinyal
ucapan merupakan variasi tekanan udara yang dihasilkan oleh sistem
artikulasi. Untuk menganalisa aspek-aspek akustik dari sebuah sinyal
ucapan, dapat dilakukan dengan transformasi dari bentuk sinyal ucapan
menjadi sinyal listrik dengan menggunakan tranduser seperti microphone,
telepon, dan sebagainya. Setelah melalui berbagai pengolahan sinyal
digital, maka akan di peroleh informasi yang menunjukkan sifat-sifat
akustik dari sinyal ucapan tersebut yang meliputi frekuensi fundamental
(F0), intensitas, dan distribusi energi spektral.
2. Level Fonetik
Level ini menggambarkan bagaimana suatu sinyal suara diproduksi oleh organ-organ di dalam tubuh manusia.
3. Level Fonologi
Di
dalam level ini, dikenal istilah fonem yang merupakan unit terkecil
yang membentuk sebuah kalimat atau ucapan. Deskripsi ini memuat
informasi durasi, intensitas, dan pitch dari fonem-fonem yang membangun kalimat tersebut.
- Level Morfologi
Susunan
beberapa fonem akan menghasilkan kata. Morfologi menggambarkan
berbagai bentukan kata yang terdiri atas awalan (prefiks), sisipan
(infiks), dan akhiran (sufiks).
- Level Sintatik
Aspek sintatik berfungsi untuk mengatur susunan kata agar membentuk kalimat yang benar.
- Level Semantik
Sebuah
kalimat bisa jadi tidak mengandung makna sama sekali sehingga
seringkali harus dibuat aturan dasar dalam menyusun kalimat yang bisa
menghasilkan makna tertentu. Tujuan dari aspek semantik ini adalah
untuk meneliti makna kata tertentu di dalam kalimat dan kaitannya
satu sama lain.[5]
Pada
penelitian ini untuk level morfologi, sintatik, dan semantik diabaikan
karena penelitian ini hanya menekankan pada analisis karakter
suara yang berkaitan dengan parameter-parameter fisis seperti frekuensi
fundamental(F0), durasi fonem dan intensitas suara.
Intonasi Sebagai Aspek Akustik Sinyal Ucapan
Intonasi
(prosodi) sebagai aspek akustik sinyal suara sangat membantu di dalam
mengidentifikasi setiap segmen akustik dengan fonem. Setiap fonem
dihasilkan terutama oleh sistem vokal selama artikulasi yang
selanjutnya mempengaruhi dinamika spektrum spektral suara (dalam hal
ini formant). Pengucapan suatu kata dapat secara substansial bervariasi
di dalam intonasinya mempengaruhi idetitas kata. Fonem dapat menjadi
panjang atau pendek, keras atau lemah, dan memiliki pola pitch (nada) yang bervariasi.
Fenomena intonasi dapat direpresentasikan ke dalam beberapa level antara lain adalah sebagai berikut :
- Level Akustik
Terdiri atas beberapa komponen penting yaitu Frekuensi Fundamental (F0), amplitudo, dan durasi sinyal.
- Level Perseptual
Merepresentasikan fenomena intonasi sebagaimana yang didengar oleh pendengarnya. Beberapa komponennya antara lain pitch (nada), keras atau lemahnya suara, dan panjang atau pendeknya suara.
- Level Bahasa (Linguistik)
Merepresentasikan
fenomena prosodi ke dalam bentuk simbol atau tanda. Beberapa
komponennya antara lain bunyi (tone), intonasi, dan aspek tekanan.
Menonjolkan
suku kata yang mendapat tekanan terhadap suku kata yang lain yang
tidak mendapat tekanan adalah fungsi utama sebuah intonasi (prosodi).
Suku kata yang mendapat tekanan menjadi lebih panjang, lebih intens,
dan memiliki pola F0 yang menyebabkan mereka lebih menonjol
dibanding suku kata lainnya.
Parameter-parameter
yang diperlukan dalam
Pengidentifikasian
Suara Manusia
Pitch
Pitch digunakan sebagai standar tinggi-rendah dari sebuah tone
atau suara. Sinyal suara umumnya merupakan proses secara fisis yang
terdiri dari dua bagian: yaitu sebagai hasil dari sumber suara (pita
suara) dan sebagai hasil dari penyaringan (oleh lidah, bibir, dan gigi).
menganalisa pitch berarti mencoba untuk menangkap frekuensi
dasar sumber bunyi dari keseluruhan proses pengucapan suara. Frekuensi
dasar sendiri merupakan frekuensi yang dominan yang dikeluarkan oleh
sumber bunyi. Frekuensi dasar merupakan parameter paling kuat untuk
mengetahui korelasi bagaimana suatu suara diterima oleh pendengar
ditinjau dari segi intonasi dan tekanan suaranya.
Formant
Frekuensi
fundamental dikenal juga dengan F0 yang koheren dalam bentuk transisi
formant F1, F2, dan sebagainya. Komponen frekuensi dominan yang
mengkarakterisasi fonem-fonem yang berhubungan dengan komponen
frekuensi resonansi dari sistem vokal didefinisikan sebagai formant.
Suara yang terucapkan, secara khusus adalah vokal, biasanya memiliki 3
buah formant dan seringkali disebut sebagai formant kesatu, kedua, dan
ketiga, dimulai dengan komponen frekuensi terendah. Ketiganya
selalu dituliskan sebagai F1, F2, dan F3. formant 4 dan formant 5
dbutuhkan untuk mendapatkan nilai parameter formant yang lebih detail
karena bila sinyal suara yang kita olah hanya memiliki formant yang
kurang dari 3 buah, maka dapat dipastikan analisa terhadap data
tersebut akan gagal.
Durasi Fonem
Salah
satu komponen terpenting di dalam intonasi adalah durasi sinyal.
Setiap fonem yang memberikan kontribusi dalam menentukan pola intonasi
suatu kalimat. Durasi fonem ini sangat dipengaruhi oleh tekanan dan
kecepatan bicara. Durasi sebuah fonem vokal sangat dipengaruhi oleh
tekanan, sementara durasi sebuah konsonan umumnya memiliki variasi
tekanan yang lebih kecil.
Menurut Douglas O’Shugnessy(1.200) suatu ucapan dalam
percakapan melibatkan 150-250 kata permenit, termasuk jeda yang
masing-masing rata-rata sepanjang 6-50 ms. Durasi fonem bervariasi
karena faktor seperti gaya bicara (membaca atau bercakap-cakap). Durasi
suku kata umumnya sekitar 200ms dengan vokal yang mendapat tekanan
sekitar 130 ms dan fonem lain sekitar 70ms. Durasi fonem bermacam-macam
untuk fonem yang berbeda karakteristiknya.
Durasi dan Kekerasan Suara
Bagaimana
kekerasan suara dari sebuah suara yang bersifat impulsif menyamai
kekerasan suara dari suara yang diberikan secara kontinyu pada
tingkatan yang sama?. Beberapa eksperimen telah menetapkan bahwa
telinga merata-ratakan energi suara sekitar lebih dari 200ms, maka
kekerasan suara yang bersifat impulsif akan bertambah dengan
durasi hingga mencapai nilai tersebut. Dengan kata lain, tingkat
kekerasan suara akan bertambah 10 dB ketika durasi bertambah dengan
faktor 10. Dari sini dapat diketahui bahwa berapa lamanya durasi yang
dilakukan membantu dalam adaptasi pendengaran terhadap kekerasan suara,
terutama untuk suara yang sifatnya impulsif atau muncul tidak
kontinyu.
Durasi dan Pitch
Lamanya durasi dapat mempengaruhi persepsi pitch. Kebergantungan pitch
terhadap durasi mengikuti prinsip ketikpastian akustik! Berdasarkan
pengamatan yang dilakukan Rossing dan Houtsma pada tahun 1986, ketika
durasi pitch jatuh hingga di bawah 25 ms, pitch dirasakan berubah, walaupun batasan ini berbeda untuk beberapa pengamat.
Durasi dan Timbre
Durasi
dari sinyal suara membedakan panjang pendeknya sinyal suara dengan
domain waktu. Dalam timbre musikal, lamanya durasi dapat membagi nada
ke dalam dua jenis yaitu : nada kontinyu dan nada transien. Persepsi
timbre dalam suatu permainan musik yang melibatkan banyak alat musik
dipengaruhi oleh durasinya. Seorang pendengar yang diminta untuk
menebak jenis alat musik akan menebak dengan benar untuk alat musik
yang dimainkan dengan durasi yang lebih lama dibandingkan dengan alat
musik yang dimainkan hanya sesaat (transien).
Intensitas Suara
Intensitas bunyi menentukan keras lemahnya suara pada bagian tertentu dari suatu kalimat. Telinga kita sangat peka (sensitive) dan dapat mendeteksi intensitas-intensitas suara dalam orde 10-13 W/m2. Ini setara dengan gerakan selaput telinga sebesar 10-12 m. Intensitas suara minimum yang masih dapat didengar dinamakan ambang pendengaran (threshold of hearing). Intensitas suara biasanya dinyatakan dalam desibel di atas ambang pendengaran karena kekerasan suara (loudness)
kira-kira adalah sebanding dengan logaritma dari intensitas. Pedoman
nol desibel untuk intensitas suara sudah ditentukan standarnya yaitu
pada 10-12W/m2 pada 1000 Hz (yaitu ambang pendengaran pada 1000Hz). [6]
Spektogram
Spektogram
suara melukiskan variasi-variasi dalam batas yang pendek yaitu variasi
intensitas dan frekuensi dalam bentuk grafik. Variasi tersebut
memberikan banyak informasi yang bermanfaat tentang artikulasi suara.
Pola spektogram yang dihasilkan untuk setiap ucapan akan memiliki
perbedaan. Bahkan ketika dua orang mengucapkan kata yang sama
artikulasi mereka sama, namun tidak identik. Sehingga spektogram mereka
akan menunjukkan kemiripan juga perbedaan.
Metode Principal Component Analysis (PCA)
Principal Component Analysis
(PCA) merupakan suatu metode reduksi variabel-variabel dalam suatu
matrik. Data-data suara yang telah ditentukan nilai-nilai parameternya
dibentuk menjadi sebuah matrik. Metode ini digunakan untuk mencari
distribusi sinyal suara dan parameter fisis yang paling dominan pada
sinyal suara tersebut
Jaringan Syaraf Tiruan
Jaringan
syaraf tiruan (JST) adalah system pemroses informasi yang memiliki
karakteristik mirip dengan jaringan syaraf biologi. JST dibentuk
sebagai generalisasi model matematika dari jaringan syaraf biologi,
dengan asumsi bahwa:
- Pemrosesan informasi terjadi pada banyak elemen sederhana (neuron).
- Sinyal dikirim diantara neuron-neuron melalui penghubung-penghubung.
-
Penghubung antar neuron memiliki bobot yang akan memperkuat atau
memperlemah sinyal.
-
Untuk menentukan output, setiap neuron menggunakan fungsi aktivasi
(biasanya bukan fungsi linier) yang dikenakan pada jumlahan input yang
diterima. Besarnya output ini selanjutnya dibandingkan dengan suatu
batas ambang.
JST ditentukan oleh 3 hal, yaitu :
1. Pola hubungan antar neuron (arsitektur jaringan).
2. Metoda untuk menentukan bobot penghubung (algoritma)
3. Fungsi aktivasi.
Besarnya
impuls yang diterima oleh Y mengikuti fungsi aktifasi y = f(net).
Apabila nilai fungsi aktifasi cukup kuat, maka sinyal akan diteruskan.
Nilai fungsi aktifasi (keluaran model jaringan) juga dapat dipakai
sebagai dasar untuk merubah bobot.
Algoritma Belajar Pada Jaringan Syaraf Tiruan
Ide
dasar jaringan syaraf tiruan adalah konsep belajar. Jaringan-jaringan
belajar melakukan generalisasi karakteristik tingkah laku obyek. Jika
dilihat dari sudut pandang manusia, hal ini sama seperti bagaimana
manusia belajar sesuatu. Manusia mengenal obyek dengan mengatur otak
untuk menggolongkan atau melakukan generalisasi terhadap obyek-obyek
tersebut. Manusia menyimpan ilmu pengetahuannya ka dalam otak yang
berisikan synapsis, neuron, dan lainnya. Jaringan saraf menyimpan
ilmu pengetahuannya dalam nilai bobot sambungan (seperti synapsis
dalam otak manusia) dan elemen-elemen (neurons) yang menghasilkan
kaluaran.
Jaringan-jaringan saraf
membangun model-model system yang berubah-ubah, yang direpresentasikan
dengan proses stokastik peubah waktu melalui beberapa ruang vektor
(Rumelhart & Mc. Clelland, 1986). Oleh karena itu, untuk vektor
masukan, jaringan-jaringan merupakan pola-pola dari model setiap saat
dan vektor keluaran merupakan suatu aksi yang berhubungan, yang
ditunjukkan atau digolongkan oleh jaringan-jaringan tadi melalui
masukan.
Untuk dapat
menyelesaikan suatu permasalahan, jaringan saraf tiruan melakukan
algoritma belajar, yaitu bagaimana sebuah konfigurasi jaringan saraf
tiruan dapat dilatih untuk mempelajari data historis yang ada. Dengan
pelatihan ini, pengetahuan yang terdapat pada data dapat diserap dan
direpresentasikan oleh harga-harga bobot koneksinya. Berdasarkan cara
memodifikasi bobotnya, ada 2 macam pelatihan yang dikenal yaitu dengan
supervise (supervised) dan tanpa supervise.
Dalam
pelatihan dengan supervise, terdapat sejumlah pasangan data
(masukan-target keluaran) yang dipakai untuk melatih jaringan hingga
diperoleh bobot yang diinginkan. Pasangan data tersebut berfungsi
sebagai “guru” untuk melatih jaringan hingga diperoleh bentuk yang
terbaik. “Guru” akan memberikan informasi yang jelas tentang bagaimana
system harus mengubah dirinya untuk meningkatkan unjuk kerjanya.
Pada
setiap kali pelatihan, suatu input diberikan ke jaringan. Jaringan
akan memproses dan megeluarkan keluaran. Selisih antara keluaran
jaringan dengan target (keluaran yang diinginkan) merupakan kesalahan
yang terjadi. Jaringan akan memodifikasi bobot sesuai dengan kesalahan
tersebut. Propagasi balik merupakan salah satu model yang menggunakan
pelatihan dengan supervisi.
Sebagai
ilustrasi, pelatihan dengan supervise dapat diandaikan sebagai skripsi
yang dibimbing oleh seorang dosen. Pada setiap kali pengumpulan berkas
skripsi, dosen akan mengkritik, mengarahkan, dan meminta perbaikan
agar kualitas skripsi meningkat.
Sebaliknya, dalam pelatihan tanpa supervisi (unsupervised learning)
tidak ada “guru” yang akan mengarahkan proses pelatihan. Dalam
pelatihannya, perubahan bobot jaringan dilakukan berdasarkan parameter
tertentu dan jaringan dimodifikasi menurut ukuran parameter tersebut.
Sedangkan,
dalam pelatihan tanpa supervise dapat dibayangkan sebagai skripsi
tanpa dosen pembimbing. Mahasiswa mengerjakan skripsi sebaik-baiknya
berdasarkan ukuran tertentu (misal dibandingkan dengan skripsi yang
sudah ada sebelumnya atau dibandingkan dengan skripsi hasil temannya).
Model
pelatihan dengan supervisi lebih banyak digunakan dan terbukti cocok
dipakai dalam berbagai aplikasi. Akan tetapi kelemahan utama pelatihan
dengan supervisi adalah dalam hal pertumbuhan waktu komputasinya
yang berorder eksponensial. Ini berarti untuk data pelatihan yang cukup
banyak, prosesnya menjadi sangat lambat.
Arsitektur Propagasi Balik
Kelemahan
JST yang terdiri dari layar tunggal membuat perkembangan JST terhenti
pada sekitar tahun 1970-an. Penemuan propagasi balik yang terdiri dari
beberapa layar membuka kembali cakrawala. Terlebih setelah berhasil
ditemukannya berbagai aplikasi aplikasi yang dapat diselesaikan dengan
propagasi balik, membuat JST semakin diminati orang.
JST
dengan layar tunggal memiliki keterbatasaan dalam pengenalan pola.
Kelemahan ini bisa ditanggulangi dengan menambahkan satu/ beberapa
layar tersembunyi diantara layar masukan dan keluaran. Meskipun
penggunaan lebih dari satu layar tersembunyi memiliki kelebihan manfaat
untuk beberapa kasus, tetapi pelatihannya membutuhkan waktu yang lama.
Maka umumnya orang mulai mencoba dengan sebuah layar tersembunyi
dahulu.
Seperti halnya model JST
lain, propagasi balik melatih jaringan untuk mendapatkan keseimbangan
antara kemampuan jaringan untuk mengenali pola yang digunakan selama
pelatihan serta kemampuan jaringan untuk memberikan respon yang benar
terhadap pola masukan yang serupa (tetapi tidak sama) dengan pola yang
dipakai selama pelatihan.
Propagasi
Balik memiliki beberapa unit yang ada dalam satu atau lebih layar
tersembunyi. JST Propagasi Balik merupakan model JST yang paling banyak
digunakan dalam edukasi. Arsitektur dan proses belajar yang sederhana
sangat memudahkan untuk dipelajari.
Pelatihan Propagasi Balik
Pelatihan
propagasi balik meliputi 3 fase. Fase pertama adalah fase maju. Pola
masukan dihitung maju mulai dari layer masukan hingga layer keluaran
menggunakan fungsi aktivasi yang ditentukan. Fase kedua adalah fase
mundur. Selisih antara keluaran jaringan dengan target yang diinginkan
merupakan keslahan yang terjadi. Kesalahan tersebut dipropagasikan
mundur, dimulai dari garis yang berhubungan langsung dengan unit-unit
di layer keluaran. Fase ketiga adalah modifikasi bobot untuk menurunkan
keslahan yang terjadi.
Pelatihan
propagasi balik menggunakan metode pencarian titik minimum untuk
mencari bobot dengan error minimum. Dalam proses pencarian ini dikenal
dua macam metode yaitu metode incremental dan metode kelompok (batch).
Dalam metode incremental, bobot diubah setiap kali pola masukkan
diberikan ke jaringan. Sebaliknya dalam metode kelompok, bobot diubah
setelah semua pola masukkan diberikan ke jaringan. Error dan suku
perubahan perubahan bobot yang terjadi dalam setiap pola masukkan
dijumlahkan untuk menghasilkan bobot yang baru. Matlab menggunkan metode
pelatihan kelompok dalam iterasinya. Perubahan bobot dilakukan
per-epoch (per kala).
Tidak ada komentar:
Posting Komentar