Minggu, 31 Oktober 2010

SPEECH SYNTHESIS (PENGOLAHAN TEKS)

Sekilas pengolahan teks
Sebuah teks pidato system adalah terdiri dari dua bagian: sebuah front-end dan back-end . The front-end memiliki dua tugas utama. Pertama, mengkonversi teks mentah mengandung simbol seperti angka dan singkatan menjadi setara dengan kata-kata tertulis-out. Proses ini sering disebut teks normalisasi, pra-pengolahan, atau tokenization. The front-end kemudian memberikan transkripsi fonetik untuk setiap kata, dan membagi dan menandai teks ke unit prosodi , seperti frase , klausa , dan kalimat . Proses penempatan transkripsi fonetis kata-kata disebut teks-ke-fonem atau grafem ke-fonem konversi. transkripsi Fonetik dan informasi prosodi bersama-sama membentuk representasi linguistik simbolik yang output dengan front-end. Bagian belakang-end-sering disebut sebagai synthesizer-maka mengubah representasi bahasa simbolik menjadi suara. Dalam sistem tertentu, bagian ini meliputi perhitungan dari target prosodi (kontur pitch, durasi fonem), yang kemudian dikenakan pada pidato output.

teknologi Synthesizer
Yang penting kualitas sebagian besar sistem sintesis pidato yang alamiah dan dimengerti . Kealamian menggambarkan seberapa dekat output suara seperti ucapan manusia, sedangkan dimengerti adalah kemudahan dengan yang output dipahami. Synthesizer pidato yang ideal adalah baik alam dan dimengerti. sistem sintesis Pidato biasanya mencoba untuk memaksimalkan kedua karakteristik.
Dua teknologi utama untuk menghasilkan bentuk gelombang pidato sintetis sintesis concatenative dan forman sintesis. Setiap teknologi memiliki kekuatan dan kelemahan, dan menggunakan dimaksud sistem sintesis biasanya akan menentukan pendekatan mana yang digunakan.

sintesis Concatenative
Concatenative sintesis didasarkan pada rentetan (atau merangkai bersama-sama) dari segmen berbicara dicatat. Umumnya, sintesis concatenative menghasilkan pidato disintesis paling alami yang terdengar. Namun, perbedaan antara variasi alami dalam pidato dan sifat teknik otomatis untuk membagi bentuk gelombang kadang-kadang menyebabkan gangguan terdengar pada output.

sintesis Forman
Forman sintesis tidak menggunakan sampel suara manusia pada saat runtime. Sebaliknya, keluaran suara sintesis dibuat menggunakan aditif sintesis dan model akustik ( sintesis pemodelan fisik ). Parameter seperti frekuensi fundamental , menyuarakan , dan kebisingan tingkat bervariasi dari waktu ke waktu untuk membuat gelombang pidato buatan. Metode ini kadang-kadang disebut sintesis berbasis aturan, namun, sistem concatenative banyak juga memiliki komponen berbasis aturan. Banyak sistem yang didasarkan pada teknologi sintesis forman menghasilkan buatan, robot yang terdengar pidato yang tidak akan pernah salah untuk pidato manusia. Namun, kealamian maksimum tidak selalu tujuan sistem sintesis pidato, dan sistem sintesis forman memiliki keunggulan dibandingkan sistem concatenative. pidato forman-disintesis dapat diandalkan dimengerti, bahkan pada kecepatan yang sangat tinggi, menghindari Glitches akustik yang biasanya wabah sistem concatenative. kecepatan disintesis pidato-Tinggi digunakan oleh tunanetra untuk navigasi cepat komputer menggunakan pembaca layar . synthesizer forman adalah program biasanya lebih kecil dibandingkan dengan sistem concatenative karena mereka tidak memiliki database contoh pidato. Oleh karena itu mereka dapat digunakan dalam embedded system , di mana memori dan mikroprosesor kekuasaan sangat terbatas. Karena berbasis sistem forman memiliki kontrol penuh dari semua aspek pidato output, berbagai prosodies dan intonasi dapat menjadi output, tidak hanya menyampaikan pertanyaan dan pernyataan, tetapi berbagai emosi dan nada suara.
Contoh-non-real time tapi sangat akurat kontrol intonasi dalam sintesis forman meliputi pekerjaan yang dilakukan pada akhir tahun 1970 untuk Texas Instruments mainan Bicara & Eja , dan di awal 1980-an Sega arcade mesin. dan dalam banyak Atari, Inc . arcade games dengan menggunakan LPC TMS5220 Chips Menciptakan intonasi yang tepat untuk proyek ini adalah telaten, dan hasilnya masih harus dicocokkan dengan waktu text-to-speech interface nyata.

Sumber : http://en.wikipedia.org/wiki/Speech_synthesis

Tidak ada komentar:

Posting Komentar