六大方言区重口音普通话语音识别数据库3000小时

發布日期:2015-09-28

 

重口音普通話數據庫的采集工作在中國六個方言地區完成。錄制地區、語種、時長、人數信息如下:

 

錄制地區

錄制語種

每地區數據庫時長

每地區

錄制人數

粵語地區(廣東?。?/p>

廣東口音普通話

500小時

500人

閩語地區(福建?。?/p>

福建口音普通話

500小時

500人

湖南官話(湖南?。?/p>

湖南口音普通話

500小時

500人

四川官話(四川?。?/p>

西南口音普通話

500小時

500人

吳語地區(浙江,江蘇,安徽等)

吳語口音普通話

500小時

500人

贛語地區(江西?。?/p>

江西口音普通話

500小時

500人

合計

3000小時

3000人

 

 

總共采集了3000人的語音數據,所有發音人具有明顯口音,朗讀自然流利。男女性別比接近1:1。

該數據庫總有效時長3000小時,數據采樣率為16K,采樣精度是16bit,為單通道錄音,并以PCM非壓縮文件格式存儲。

 

語音采集設備是智能手機,采用基于Android系統的多種品牌型號手機進行錄制;

錄音環境有室內、室外多種真實場景。

 

全部錄音數據與錄音文本均由標注團隊成員細心校對,保證句錯誤率低于2%。

 

該數據庫覆蓋全國主要方言區口音,數據庫規模大,數據標注質量高,可用于語音識別系統訓練、測試、語音分析、口音研究等多種用途。

    • 新聞標題
财神彩票群