廣播電視音頻監測技術研究

2013年09月16日未知瀏覽量：0

廣播電視的不問斷和安全播出始終是廣播電視機構要完成的首要任務。隨著基于電子管、晶體管等設備的退役和計算機軟硬件技術、微電子技術和數字化技術的應用普及，廣播電視設備的故障率已經降到了非常低的水平，在節目播出過程中由于設備故障造成的停播、錯播現象已很少發生。近年來，信號的安全播出問題，尤其是信號的被干擾、被破壞和被插播的現象屢見不鮮。廣播電視的安全監測技術逐漸成為廣播電視制播技術的研究焦點。本文將針對以上問題加以探討，并對解決問題所用到的關鍵技術和算法進行簡要的分析和論述。

1監測業務和技術的現狀及分類

目前國內大多數廣播電視臺站的自動監測系統都只針對音頻信號的質量好壞和信號的有無進行監測，而對于音頻信號的來源及內容等安全方面的監測任務則更多地采用循環播放、人工監聽的方式…。人工方式不僅效率低，而且不及時。應州于廣播電視安全監測系統的音頻信號監測技術從業務層面上可分為音頻的內容監測和音頻的質量監測。音頻的內容監測主要是對采集的信息的收集、整理、解析和應用等過程中所出現的錯誤、疏漏、不當及不和諧、敏感信息的檢查和把關，它關注的是音頻所表述的具體內容。音頻的質量監測主要是對已經制作完成的廣播電視節目在音頻信號的生成、處理、傳輸和收發過程中出現的干擾、噪聲、電平過低、中斷和信源突變等狀況所進行的實時監控和更正，它注重的是音頻信號的質量及來源的正確性。二者雖然針對的業務層面不同，卻彼此依賴相互聯系。音頻內容的好壞會直接影響到音頻質量的高低，音頻質量的高低也會直接影響終端聽眾對信息內容的獲取量和正確率。總之，對音頻內容和質量的監測都是為了保證聽眾能收到正確、優質和不間斷的音頻信號。目前，可應用于音頻信號監測任務的技術可分為音頻比對技術、音頻識別技術、數字水印技術這三大類。

2音頻比對技術

音頻比對技術是利用數字音頻的時域或頻域特征或屬性來分析兩段音頻序列的相似度，再相似度的大小來判斷這兩段音頻序列播放的是否是相同或相似的內容。其大概流程如圖1所示。首先，將要處理的2路音頻序列通過多路音頻采集卡采集到設備中，并進行濾波、增益補償等處理；其次，將得到的2路音頻信號進行模數轉換，再對得到的數字信號進行壓縮處理；然后，提取2路信號的特征參數或者屬性；最后，比較提取出來的參數或者屬性，得出2路音頻信號的相似度，再由相似度來判斷2路信號是否相同或者相似。濾波和增益補償等預處理是為了濾除音頻中的噪盧、干擾脈沖及平衡音頻的電平差等。

壓縮處理是為了減少音頻中相關性較低和不相關的參數，減少后續工作量，提高處理的實時性(目前比較流行的壓縮算法是利用小波函數壓縮)。參數和屬性的提取是從音頻流中以幀為單位提取出2路音頻的質心、均方根、Mel倒譜系數以及音高、振幅、帶寬、能量等。音頻比對是利用上一步提取的參數或屬性進行計算和比較，將比較結果同預先設定的閾值進行對比，得出最終結果。音頻比對技術在實現時不考慮音頻的具體內容，它只注重音頻序列的關鍵參數和屬性的相似度。目前對音頻技術的應用需求更多的還是涉及到音頻的語意和具體內容方面，這項技術的適用領域相對來說比較小，但是它基本上能滿足廣播電視的質量監測的任務需求。

3音頻識別技術

音頻識別技術主要以語音為研究對象，許多資料亦稱之為語音識別技術。它是指讓系統依據語音和人聲的特性、事先建立好的語音模板庫或人類的大腦神經系統的活動原理對人們發出的聲音或者保存的語音數據進行逐字逐句識別并轉化為文本、對語音的特征語意進行判斷和響應或者執行特定的命令任務的技術。從說話者異同方面，可以將語音識別系統分為特定人語音識別系統、非特定人語音識別系統和多人語音識別系統。從語音的產生和輸入的方式，可以將語音識別系統分為孤立詞語音識別系統、連接詞語音識別系統和連續語音識別系統。

從語音包含的詞匯量大小，可以將語音識別系統分為小詞匯量語音識別系統、中等詞匯量語音識別系統和大詞匯量語音識別系統。語音識別技術從方法和實現層面總體可以分為三種：基于語音基元的共有特性和聲學屬性的方法，基于模板的建立和匹配的方法，基于人工神經網絡的方法。聲學屬性的方法又細分為基于動態時間規整方法(DTW)的語音識別技術、基于隱馬爾可夫理論(HMM)的語音識別技術和基于矢量量化算法(VQ)的語音識別技術等。基于模板匹配的語音識別技術大致流程如圖2所示。其中自“參數屬性提取”之前的處理過程與上文介紹的音頻比對技術的過程基本相同，此處不再贅述。提取參數之后需要先使用一定的訓練算法對提取出來的參數進行訓練以建立聲學模板庫，有了聲學模板庫就可以對輸入的語音數據進行識別了。識別的過程就是將輸人的語音的特征或參數同模板庫進行計算和比較，得出最終結果。現在人們研究和使用的較多的語音識別的主流技術是基于隱馬爾可夫理論(HMM)的語音識別技術，它可以勝任大詞匯量、非特定人和連續的語音識別任務，并且識別準確率已基本達到了實用水平。相比之下，基于人工神經網絡的語音識別技術的應用前景則更被人們看好，但它是一門尚處于實驗探索階段的新興技術。音頻識別技術更注重于音頻的語義和內容，所以它基本上能滿足廣播電視的內容監測的任務需求。

4數字水印技術

數字水印技術是指在不影響質量和不易被發覺和篡改并且可以被授權者識別出來的要求下將水印(防偽)信息嵌入到圖像和音視頻等的原始數字數據中，以實現數字作品的版權確認和保護。數字水印技術隸屬于信息隱藏學，早期主要用于圖像處理技術，后來擴展到了文本和視頻領域，最近人們又開始研究將其應用到音頻信號中。數字水印技術一般包含嵌人過程和提取驗證過程，其大概的流程如圖3和圖4所示。數字水印在技術實現上通常分為可見水印(明文水印)技術和不可見水印(盲水印)技術。由于容易被察覺和受到攻擊，可見水印技術目前已經不再被人們看好。不可見水印技術有著不影響原始數據的質量和不易被察覺等的優點，正逐漸成為人們研究的熱點。不可見水印技術的實現方法大體可以分為在空間域中實現的方法和在變換域中實現的方法兩種。

在空間域中實現的方法是在時域內直接對信號的值進行修改并嵌入水印信息，這種方法有著計算簡單、計算量小和兼容有損壓縮的信號和濾波的信號等優點，但為了保持水印的隱蔽性，它能嵌入的水印的信息量極為有限。在變換域中實現的方法是先將信號進行一定的變換，如快速傅里葉變換、離散小波變換、Z變換和離散余弦變換等，然后再將水印嵌入變換后的信號中。與在空間域中實現的方法相比，這種方法有著隱蔽性強、容易結合、可嵌入的水印信息量大和兼容壓縮數據等優點；不足之處是計算復雜而且計算量大，不適用于大數據量和對實時性要求高的系統。

5小結

要實現廣播電視音頻的誤播、錯播和停播等緊急情況的及時響應處理，一個高效的方法是借助于計算機技術和數字音頻處理技術來實現。與人工方式相比，計算機處理具有高效率、高精度、及時性和速度快等優點。可應用于廣播電視安全監測系統的音頻信號監測的技術大致分為三類。從以上的分析可以看出，音頻比對技術更適用于廣播電視音頻的質量監測，數字水印技術和語音識別技術更適用于廣播電視音頻的內容監測。目前，音頻水印技術尚未完全成熟，語音識別技術中也只有基于模板的建立和匹配這一類方法進入了實用階段。一個適合于當前廣播電視音頻內容和質量監測系統的技術組合應該是音頻比對技術和語音識別技術中的基于模板的建立和匹配技術。