粤语语音识别数据库1000小时

發布日期:2015-09-28

 

粵語數據庫的采集工作在粵語地區完成,覆蓋了廣東省多達110個行政區。根據不同地市在粵語方言區中的語言保存面貌及在語言學上數據采集的地位,

特將主要錄制任務定位在廣州、珠海、佛山、三水等粵語口音純正的地區,以經濟發達的城市為主。

因此,在數據采集方面能夠最大限度地保證數據的多樣性、真實性和有效性。

 

該數據庫總有效時長1000小時,數據采樣率為16K,采樣精度是16bit,為單通道錄音,并以PCM非壓縮文件格式存儲。

總共采集了1500人的語音數據,所有發音人均是廣東本地人,粵語發音純正,朗讀自然流利。男女性別比接近1:1。

 

語音采集設備是智能手機,采用基于Android、IOS兩種系統的多種品牌型號手機進行錄制;

錄音環境有室內、室外多種真實場景。

 

全部錄音數據與錄音文本均由標注團隊成員細心校對,保證句錯誤率低于2%。數據質量優于業內平均水平。

 

該數據庫全面展現粵語語音的特色,數據庫規模大,數據標注質量高,可用于語音識別系統訓練、測試、語音分析、粵語研究等多種用途。

    • 新聞標題
财神彩票群 平特肖规律原理公式 *明天涨停的股票 今天福彩开机号对应码 好玩的棋牌手机游戏 体彩黑龙江6+1 股票交流论坛 2020年六盒宝典大全 每天送的棋牌? 贵州麻将怎么打 宁夏11选五购买平台