Minggu, 07 November 2010

Speech Recognition

Pidato adalah suatu mode alami komunikasi bagi orang-orang. Kita mempelajari semua keterampilan yang relevan pada anak usia dini, tanpa instruksi, dan kami terus mengandalkan komunikasi pidato sepanjang hidup kita. Ia datang begitu alami bagi kita bahwa kita tidak menyadari betapa kompleks pidato fenomena ini. Saluran vokal manusia dan artikulator-artikulator adalah organ biologis dengan sifat nonlinear, yang operasi bukan hanya di bawah kendali kesadaran tetapi juga dipengaruhi oleh faktor mulai dari gender untuk pendidikan ke negara emosional. Akibatnya, vokalisasi bisa sangat bervariasi dalam hal aksen mereka, pengucapan, artikulasi, kekasaran, nasalitas, pitch, volume, dan kecepatan, apalagi, selama transmisi, pidato yang tidak teratur pola kami dapat lebih terdistorsi oleh kebisingan latar belakang dan gema, serta sebagai karakteristik listrik (jika telepon atau peralatan elektronik lainnya yang digunakan). Semua sumber-sumber variabilitas membuat pengenalan suara, bahkan lebih dari generasi speech, masalah yang sangat kompleks.
Apa yang membuat orang begitu baik mengenali pidato Menariknya, otak manusia diketahui kabel berbeda dari komputer konvensional, bahkan beroperasi di bawah paradigma komputasi yang berbeda secara radikal. Sementara komputer konvensional menggunakan & kompleks pusat prosesor yang cepat sangat dengan instruksi program eksplisit dan alamat memori lokal, sebaliknya otak manusia menggunakan paralel koleksi massal yang sederhana pengolahan elemen & lambat (neuron), padat dihubungkan dengan bobot (sinapsis) yang kekuatan adalah dimodifikasi dengan pengalaman, langsung mendukung integrasi beberapa kendala, dan menyediakan bentuk didistribusikan memori asosiatif.
Mengesankan superioritas otak di berbagai keterampilan kognitif, termasuk pengenalan suara, telah memotivasi penelitian paradigma komputasi novel sejak 1940-an, dengan asumsi bahwa model brainlike pada akhirnya dapat menyebabkan brainlike kinerja pada tugas-tugas kompleks. Daerah penelitian ini menarik adalah sekarang dikenal sebagai connectionism, atau studi tentang jaringan syaraf tiruan.
Apakah keadaan saat ini seni di speech recognition? Ini adalah pertanyaan yang kompleks, karena sistem akurasi tergantung pada kondisi-kondisi yang dievaluasi: dalam kondisi cukup sempit hampir semua sistem dapat mencapai-seperti akurasi manusia, tapi itu jauh lebih sulit untuk mencapai akurasi yang baik dalam kondisi umum. Kondisi evaluasi - dan karenanya keakuratan sistem apapun - dapat bervariasi sepanjang dimensi sebagai berikut:
• Kosakata ukuran dan confusability. Sebagai aturan umum, mudah untuk membedakan antara set kecil kata-kata, tetapi tingkat kesalahan alami peningkatan sebagai ukuran kosakata tumbuh. Misalnya, 10 digit "nol" menjadi "sembilan" dapat dikenali dasarnya sempurna, tetapi kosakata ukuran 200, 5000, atau 100000 mungkin memiliki tingkat kesalahan 3%, 7%, atau 45%. Di sisi lain, bahkan kosakata yang kecil akan sulit untuk mengenali jika mengandung kata-kata confusable. Sebagai contoh, 26 huruf dari abjad Inggris (diperlakukan sebagai 26 "kata") sangat sulit untuk membedakan confusable karena mengandung banyak kata sehingga (paling terkenal, E-set: "B, C, D, E, G, P, T, V, Z "); error rate% 8 dianggap baik untuk ini kosa kata
• Speaker ketergantungan vs kemerdekaan. Menurut definisi, sebuah sistem speaker dependent dimaksudkan untuk digunakan oleh seorang pembicara tunggal, melainkan sistem pengeras suara independen dimaksudkan untuk digunakan oleh pembicara apapun. Speaker kemerdekaan sulit dicapai karena sistem parameter a menjadi disetel ke speaker (s) bahwa itu dilatih, dan parameter-parameter ini cenderung sangat speaker-spesifik.
• Terisolasi, terputus-putus, atau bicara terus menerus. Terisolasi berarti kata-kata tunggal; ucapan terputus-putus berarti kalimat lengkap di mana kata-kata secara artifisial dipisahkan oleh keheningan, dan berbicara terus menerus berarti alami diucapkan kalimat diucapkan. Isolated pidato diskontinyu dan pengakuan relatif mudah karena batas kata yang terdeteksi dan kata-kata cenderung bersih.
• Tugas dan kendala bahasa. Bahkan dengan kosakata tetap, kinerja akan bervariasi dengan sifat kendala pada rangkaian kata yang diijinkan selama pengakuan. Beberapa kendala mungkin tugas-tergantung (misalnya, aplikasi airlinequerying dapat memberhentikan hipotesis "apel itu merah"); kendala lain mungkin semantik (menolak "Apel marah"), atau sintaksis (menolak "Merah adalah apel "). Kendala yang sering diwakili oleh tata bahasa, yang idealnya menyaring kalimat tidak masuk akal sehingga recognizer pidato mengevaluasi hanya kalimat yang masuk akal. Tata bahasa biasanya dinilai oleh kebingungan mereka, angka yang menunjukkan rata-rata tata bahasa pencabangan faktor (misalnya, jumlah kata yang bisa mengikuti kata apapun yang diberikan). Kesulitan tugas lebih andal diukur dengan kebingungan dibanding dengan ukuran kosa kata.
• Baca vs pidato spontan. Sistem dapat dievaluasi dalam sambutannya yang baik dibaca dari script siap, atau pidato yang diucapkan secara spontan. pidato spontan adalah jauh lebih sulit, karena cenderung dibumbui dengan disfluencies seperti "eh" "dan" um, mulai palsu, kalimat tidak lengkap, gagap, batuk, dan tawa, lagipula, kosakata pada dasarnya terbatas, sehingga sistem harus mampu menghadapi cerdas dengan kata-kata yang tidak diketahui (misalnya, mendeteksi dan lesu kehadiran mereka, dan menambahkan mereka ke kosa kata, yang mungkin memerlukan beberapa interaksi dengan pengguna).
• Adverse kondisi. sistem kinerja A juga dapat mengalami degradasi oleh berbagai kondisi yang merugikan. Ini termasuk kebisingan lingkungan (misalnya, kebisingan di dalam mobil atau pabrik); distorsi akustik (misalnya, gema, akustik ruang); mikrofon yang berbeda (misalnya, dekat berbahasa, omnidirectional, atau telepon); bandwidth frekuensi yang terbatas (dalam transmisi telepon) ; dan cara berbicara diubah (berteriak, merengek, berbicara cepat, dll).
Dalam rangka untuk mengevaluasi dan membandingkan sistem yang berbeda dalam kondisi yang ditentukan dengan baik, sejumlah database standar telah diciptakan dengan karakteristik tertentu. Misalnya, satu database yang telah banyak digunakan adalah DARPA Manajemen Sumberdaya database - kosa kata yang besar (1000 kata), speaker-independent, database pidato terus-menerus, yang terdiri dari 4000 kalimat pelatihan dalam bidang pengelolaan sumber daya laut, dibaca dari skrip dan dicatat dalam kondisi lingkungan yang jinak, pengujian biasanya dilakukan dengan menggunakan tata bahasa dengan sebuah bingung 60. Di bawah kondisi yang terkendali, state-of the-seni pertunjukan-adalah sekitar 97% akurasi pengenalan kata (atau kurang untuk sistem sederhana).
Dasar-dasar Pengakuan Pidato
pengenalan pembicaraan adalah tugas pengenalan pola multileveled, di mana sinyal akustik diperiksa dan terstruktur dalam hirarki unit subword (misalnya, fonem), kata, frasa, dan kalimat. Masing-masing level dapat memberikan kendala temporal tambahan, misalnya, pengucapan kata yang dikenal atau urutan kata hukum, yang dapat mengkompensasi kesalahan atau ketidakpastian di tingkat bawah. Hirarki ini kendala terbaik dapat dimanfaatkan dengan menggabungkan probalistik keputusan di semua tingkat yang lebih rendah, dan membuat keputusan diskrit hanya pada tingkat tertinggi.
Struktur dari sistem pengenalan suara standar diilustrasikan pada Gambar. Unsur-unsur adalah sebagai berikut:


Struktur sistem pengenalan pembicaraan standar.
• pidato baku adalah. Pidato biasanya sampel pada frekuensi tinggi, misalnya, 16 KHz melalui mikrofon atau 8 KHz melalui telepon. Hal ini menghasilkan urutan nilai amplitudo dari waktu ke waktu.
• Analisis Sinyal. pidato awalnya baku harus diubah dan dikompresi, untuk mempermudah pengolahan selanjutnya. Banyak teknik analisis sinyal yang tersedia yang dapat mengekstrak fitur yang berguna dan kompres data dengan faktor sepuluh tanpa kehilangan informasi penting. Di antara yang paling populer:
o analisis Fourier (FFT) menghasilkan frekuensi diskrit dari waktu ke waktu, yang dapat diinterpretasi secara visual. Frekuensi sering didistribusikan menggunakan skala Mel, yang linear pada rentang rendah tapi logaritmik dalam kisaran tinggi, sesuai dengan karakteristik fisiologis telinga manusia.
o Persepsi Linear Prediksi (PLP) juga fisiologis termotivasi, tetapi menghasilkan koefisien yang tidak dapat ditafsirkan secara visual.
o Linear Predictive Coding (LPC) menghasilkan koefisien persamaan linear yang mendekati sejarah nilai pidato mentah.
o analisis cepstral menghitung invers transformasi Fourier dari logaritma dari spektrum kekuatan sinyal.
Dalam praktek, itu membuat sedikit perbedaan yang teknik used1. Setelah itu, prosedur seperti Linear Diskriminan Analisis (LDA) opsional dapat diterapkan untuk lebih mengurangi dimensi representasi apapun, dan untuk decorrelate koefisien.


• Pidato frame. Hasil analisis sinyal adalah urutan frame pidato, biasanya pada interval 10 msec, dengan sekitar 16 koefisien per frame. Frame ini dapat ditambah dengan terlebih dahulu memiliki dan / atau kedua turunannya, memberikan informasi eksplisit tentang dinamika pidato, hal ini biasanya mengarah ke peningkatan performa analisis. Pidato frame digunakan untuk akustik.
• model Akustik. Dalam rangka untuk menganalisis frame pidato untuk konten akustik mereka, kita perlu satu set model akustik. Ada banyak jenis model akustik, yang bervariasi dalam perwakilan mereka, granularity, ketergantungan konteks, dan properti lainnya.



Akustik model: template dan negara representasi untuk "kata" kucing.
Gambar menunjukkan dua representasi populer untuk model akustik. Yang paling sederhana adalah template, yang hanya contoh yang disimpan dari unit pidato dimodelkan, misalnya, rekaman dari sebuah kata. Sebuah kata yang tidak diketahui dapat dikenali dengan hanya membandingkan melawan semua dikenal template, dan menemukan pertandingan terdekat. Template memiliki dua kelemahan utama: (1) mereka tidak dapat model variabilitas akustik, kecuali dengan cara yang kasar dengan menetapkan beberapa template untuk setiap kata, dan (2) dalam praktek mereka dibatasi untuk-kata model keseluruhan, karena sulit untuk merekam atau segmen contoh pendek dari kata - jadi template hanya berguna dalam sistem kecil yang mampu membayar kemewahan menggunakan-kata model keseluruhan. Sebuah representasi yang lebih fleksibel, yang digunakan dalam sistem yang lebih besar, didasarkan pada model akustik yang terlatih, atau negara. Dalam pendekatan ini, setiap kata dimodelkan oleh urutan negara dilatih, dan setiap negara menunjukkan suara yang mungkin terdengar dalam segmen kata, menggunakan distribusi probabilitas atas ruang akustik. Probabilitas distribusi dapat dimodelkan parametrically, dengan asumsi bahwa mereka memiliki bentuk sederhana (misalnya, distribusi Gaussian) dan kemudian mencoba untuk menemukan parameter yang menggambarkan hal itu; atau non-parametrically, dengan mewakili distribusi langsung (misalnya, dengan histogram atas suatu kuantisasi ruang akustik, atau, seperti yang akan kita lihat, dengan jaringan saraf).
Sumber : http://www.learnartificialneuralnetworks.com/speechrecognition.html

Tidak ada komentar:

Posting Komentar