研究計畫之背景及目的

現在我們針對一個語言發展一套語音辨識系統,所採用的觀念,是由資料驅動(data-driven),機器從資料中學習,例如常用的隱藏式馬可夫模型(hidden Markov model)與人工神經網路,而且這些演算方法都有公開的軟體可以使用。因此不一定需要懂得某個語言,只要對這個語言收集夠多的語音與語言資料,就可以建構一個自動語音辨識系統。這種完全由資料收集所建立的語音辨識系統,雖然能夠得到不錯的辨識正確率,但還是無法與人類辨識語音的能力相比,只能滿足某些特定的應用,而未能接近用戶的期待。

回顧早期的語音辨識研究,是依據語言學專家所知道的語言學知識,歸納出聲學與語言學的規則,以建立語音辨識的機制,可以說是以知識驅動(knowledge-driven)的解決方法。這個方法需要語言學知識,用以建立一個以規則為基礎的(rule-based)語音辨識系統,但是這種系統難以應付複雜的變化,可以說沒有強健性(robustness)的考慮。

到了八零年代末期,以資料驅動的學習方法逐漸成熟,許多由資料驅動的演算方法被提出來,例如向量量化 (vector quantization)、隱藏式馬可夫模型(HMM)、自組投射(self-organizing maps)、 人工神經網路(artificial neural network, ANN)等,而且都能證明有效。目前隱藏式馬可夫模型(HMM)是語音辨識技術的主流,運用統計的方式來趨近聲學(acoustic)、詞彙(lexicon)、句法(syntax)、語意(semantics)等語言學架構(linguistic structure),建構一個由HMM狀態、辭、文法節點(grammar nodes)、及連線所呈的有限狀態網路(finite state network),於是開發出大詞彙的連續語音辨識(large vocabulary continuous speech recognition, LVCSR)技術。動態規劃(dynamic programming)與啟發式搜尋(heuristic search)被用來找出最可能的聲學狀態序列(acoustic state sequence)與辭串(word string) ,其中最重要的兩個關鍵技術就是模型訓練(model training)與架構式搜尋(structural search) 。

以資料庫為基礎的(corpus-based)語音辨識系統,它是將語音視為一個隨機程序,套到一個統計模型。假設
一段語音的產生是對應一句話,X是代表此語音的一個向量,W是一串字構成的句子,自動語音辨識就是對所給的X,找出最可能而且文法上許可的W,這可以用下列數學式來描述:

 P(X|W)就是聲學模型(acoustic model),P(W)則是語言模型(language model)。 這兩個模型的細節無法知道,也難以精確描述,所以模型參數就依賴大型的語音與語言資料庫來估測。這個語音辨識的演算公式,集合了聲學、語音、語言、以及他們相互之間的關聯,無法知道個別的影響,而變成一個黑盒子,要瞭解整個問題變得很困難,因此成為初學者難以進入的一個障礙,也不容易找出改進的方法。  

 以資料庫為基礎的(corpus-based)法,可以說是用了一個忽略知識的模型(knowledge- ignorant modeling),能再改進之處有限。最近許多學者認為應該回頭將語音與語言的知識帶進來,建立一個以知識為基礎(knowledge-based)加上資料驅動的(data-driven)模式,開放測試平台,共享一個合作的設計與評量機制,將自動語音辨認推向下一個新世代。本研究計畫就是要在國內建立一個合作設計與評量的平台,由幾個在語音辨識研究上有經驗的學術與研究單位 開始,以整合型計畫展開新世代自動語音辨識技術的研究,並為建立共享平台做事先的設計。