siemens x
物聯(lián)網(wǎng)

快手基于Alveo優(yōu)化大規(guī)模網(wǎng)絡(luò)直播和短視頻自動(dòng)語音識(shí)別服務(wù)

2025China.cn   2021年12月21日

  快手成立于 2011年3月,總部位于北京,是全球用戶利用短視頻或者直播形式記錄和分享日常生活的領(lǐng)先內(nèi)容社區(qū)和社交平臺(tái),每天產(chǎn)生上千萬條原創(chuàng)新鮮視頻。

圖:快手 ASR 應(yīng)用場景

  項(xiàng)目概述

  自動(dòng)語音識(shí)別(ASR)是電子商務(wù)、短視頻、直播等眾多應(yīng)用的核心技術(shù)之一。ASR 在快手有許多的應(yīng)用場景,是快手 APP、直播、風(fēng)控、游戲等眾多業(yè)務(wù)的核心功能,尤其是在直播和短視頻應(yīng)用領(lǐng)域。 ASR流式自動(dòng)語音識(shí)別,已經(jīng)成為快手各種創(chuàng)新服務(wù)的核心技術(shù)之一。比如廣受主播們喜愛的直播間小快機(jī)器人 (語音助手),快手 APP 語音搜索、直播間語音輸入法、語音魔法表情、一甜相機(jī)實(shí)時(shí)字幕,以及最新上線的快影自動(dòng)字幕服務(wù)等等,為全球數(shù)億用戶帶來了前所未有的各種創(chuàng)新體驗(yàn)。

  作為全球最受歡迎的直播和短視頻應(yīng)用平臺(tái)之一,快手全球平均每天有 3 億活躍用戶通過各種終端在快手平臺(tái)記錄和分享他們的生活或體驗(yàn)。面對(duì)如此龐大的規(guī)模用戶和應(yīng)用場景,快手希望能夠優(yōu)化其 ASR 服務(wù),滿足不斷增長的客戶需求,并為他們提供更好的用戶體驗(yàn)。

  用戶體驗(yàn)最重要的性能指標(biāo),就是時(shí)延和并發(fā)路數(shù)。致力于“圍繞快手核心業(yè)務(wù)打造技術(shù)護(hù)城河”的快手異構(gòu)計(jì)算中心,借助賽靈思Alveo?及相關(guān)工具套件,大幅提升了ASR 整體服務(wù)性能和用戶滿意度,成為國內(nèi)大規(guī)模網(wǎng)絡(luò)直播和短視頻應(yīng)用場景的ASR 典范。

項(xiàng)目挑戰(zhàn)

  在快手之前基于CPU框架的處理流程中,特征提取等前處理模塊運(yùn)行時(shí)間占比約為 5%~10%, TDNN+LSTM 聲學(xué)模型運(yùn)行時(shí)間占比約為 60%~80%,而包含語言模型的解碼器部分運(yùn)行時(shí)間占比約為 15%~30%??焓之悩?gòu)計(jì)算中心,希望找到一個(gè)更合適的異構(gòu)底層器件,將最耗時(shí)的TDNN+LSTM 聲學(xué)模型轉(zhuǎn)移到這個(gè)器件上并進(jìn)行優(yōu)化。

  快手異構(gòu)計(jì)算中心團(tuán)隊(duì)認(rèn)為,以 TDNN+LSTM 為主結(jié)構(gòu)的流式聲學(xué)模型優(yōu)化的關(guān)鍵痛點(diǎn)有三個(gè),那就是時(shí)延(Latency)、實(shí)時(shí)率(RTF,Real Time Factor)和并發(fā)數(shù)(Concurrency),具體而言需要解決如下問題:

  ● 縮短時(shí)延,為用戶提供實(shí)時(shí)的流式語音識(shí)別ASR體驗(yàn);

  ● 提高并發(fā)數(shù),保障海量流式數(shù)據(jù)并發(fā)處理的帶寬需求;

  ● 提供靈活性及易用性,滿足現(xiàn)有多業(yè)務(wù)模型的特點(diǎn)。如可以同時(shí)運(yùn)行多個(gè)模型,可以多模型實(shí)時(shí)任意切換,且能滿足未來模型的升級(jí)換代;

  ● 降低單位算力成本,實(shí)現(xiàn)更低總擁有成本;

  ● 滿足AI 算法的高精度需求。

  此外,快手對(duì)GPU 進(jìn)行了評(píng)估,發(fā)現(xiàn)其硬件使用率 (Utilization) 比較低,不能滿足RTF需求,SRAM 容量也無法滿足TDNN+LSTM模型高并發(fā)性的需求。至于主流的 ASIC,除了以上介紹的硬件使用率問題外,還存在不支持 Kaldi 框架,定點(diǎn)實(shí)際只有 12bit 等問題,很難滿足ASR優(yōu)化在精度上的需求。

  綜上所述,快手技術(shù)團(tuán)隊(duì)認(rèn)為,滿足上述需求的理想的異構(gòu)器件平臺(tái),應(yīng)當(dāng)是一個(gè)可以全定制的專用平臺(tái),可以通過軟硬件協(xié)同設(shè)計(jì)確保精度符合各種不同業(yè)務(wù)的標(biāo)準(zhǔn)。

解決方案

  快手異構(gòu)計(jì)算中心經(jīng)過評(píng)估后,決定選用賽靈思的Alveo U50LV加速器卡來優(yōu)化 ASR 服務(wù)。

  Alveo U50 數(shù)據(jù)中心加速器卡基于賽靈思高性能 UltraScale+ 架構(gòu),采用了高效的 75 瓦小型封裝,而且配備了 100 Gbps 網(wǎng)絡(luò) I/O和高帶寬內(nèi)存。這些特性為快手的 ASR 解決方案提供了關(guān)鍵的低功耗、高帶寬、大 SRAM 內(nèi)存和小尺寸優(yōu)勢(shì)。而Alveo U50LV (Low Voltage)則是 U50 系列的低電壓版本,和標(biāo)準(zhǔn)電壓版本相比,功耗更低,散熱要求更少。

  “我們認(rèn)為理想的 ASR 加速解決方案,是可以支持高帶寬、大 SRAM 和定點(diǎn)推斷的硬件平臺(tái),”快手異構(gòu)計(jì)算中心總監(jiān)劉凌志博士表示:“賽靈思的 Alveo FPGA U50LV 完全符合我們的要求。”

圖:快手各種器件選型比較

  結(jié)合公司自研的定點(diǎn)通用推理框架和定點(diǎn) C 模型,快手基于Alveo U50LV 及賽靈思相關(guān) Vitis HLS 高層次綜合及 Vitis Design Flow,從算法、系統(tǒng)、軟件和硬件等多個(gè)關(guān)鍵層面對(duì)ASR 系統(tǒng)進(jìn)行了多方位的創(chuàng)新, 應(yīng)用了多項(xiàng)最先進(jìn)的優(yōu)化技術(shù):

圖: ASR系統(tǒng)整體架構(gòu)

  算法層面:采用圖融合、圖優(yōu)化、圖同構(gòu)、圖分割,以及不重訓(xùn)的高精度量化技術(shù),在保證精度的同時(shí),有效的壓縮了模型,使之更有利于FPGA 計(jì)算效率的發(fā)揮;

  系統(tǒng)層面:自研通用推理框架及適合FPGA的通用Host調(diào)度框架,支持多模型,模型可擴(kuò)展,自動(dòng)化部署,具有很強(qiáng)的易用性;

  軟件層面:設(shè)計(jì)Batch機(jī)制,基于OpenCL的任務(wù)調(diào)度及負(fù)載均衡策略,實(shí)現(xiàn)了任務(wù)級(jí)的數(shù)據(jù)傳輸、kernel 計(jì)算等高效并行處理;

  硬件層面:自定義基于超長指令字的指令集架構(gòu),設(shè)計(jì)編譯器,并基于 Vitis? HLS高層次綜合優(yōu)化技術(shù),快速完成了高效的FPGA底層設(shè)計(jì)。和直接采用硬件描述語言(如 Verilog HDL)相比,HLS 技術(shù)在更高的抽象層次上使用 C/C++ 的語法描述硬件行為,不僅達(dá)到了和 Verilog 接近的效果,而且加速了各種優(yōu)化技術(shù)的實(shí)現(xiàn),將開發(fā)時(shí)間從 3 個(gè)月縮短到 6 周。

  優(yōu)化后的系統(tǒng)整體架構(gòu)如圖三所示:調(diào)度加速引擎的代碼框架 ( Host )接收輸入的語音數(shù)據(jù),經(jīng)過前處理、神經(jīng)網(wǎng)絡(luò)推斷和后處理過程,生成識(shí)別后的文本。其中黃色部分的神經(jīng)網(wǎng)絡(luò)推斷過程是卸載到Alveo 加速卡上來完成的。

  成效

  借助賽靈思 Alveo 加速卡及相關(guān)設(shè)計(jì)工具,快手最終實(shí)現(xiàn)了針對(duì) TDNN+LSTM 聲學(xué)模型的全定點(diǎn)推理硬件加速方案,全面優(yōu)化了ASR 服務(wù),實(shí)現(xiàn)了:

  1. 大幅減輕了CPU 的工作負(fù)載,將單臺(tái)服務(wù)器業(yè)務(wù)處理能力提升7.5倍;

  2. 大幅降低了端到端時(shí)延,平均縮短達(dá)37.67%;

  3. 大幅縮減了系統(tǒng)總成本,降至0.29 (相當(dāng)于總成本銳減71% )。

  4. 大幅縮短了開發(fā)周期。通過采用OpenCL實(shí)現(xiàn)了與現(xiàn)有業(yè)務(wù)無縫集成,并借助 Vitis Design Flow將設(shè)計(jì)周期從3個(gè)月減少到6周。

  這是 FPGA 在國內(nèi)大規(guī)模直播及短視頻自動(dòng)語音識(shí)別場景落地的首個(gè)成功案例,展示了快手各種創(chuàng)新應(yīng)用背后技術(shù)團(tuán)隊(duì)強(qiáng)大的實(shí)力。2021年中以來,優(yōu)化的ASR 服務(wù)已經(jīng)在快手直播及短視頻應(yīng)用平臺(tái)廣泛部署,目前有數(shù)億用戶正在享受其所帶來的前所未有的語音識(shí)別體驗(yàn)。

(轉(zhuǎn)載)

標(biāo)簽:賽靈思 Alveo U50LV加速器卡 我要反饋 
2024世界人工智能大會(huì)專題
即刻點(diǎn)擊并下載ABB資料,好禮贏不停~
優(yōu)傲機(jī)器人下載中心
西克
2024全景工博會(huì)
專題報(bào)道
2024 工博會(huì) | 直播探館 · 全景解讀
2024 工博會(huì) | 直播探館 · 全景解讀

第二十四屆中國工博會(huì)于9月24日至28日在國家會(huì)展中心(上海)舉行,展會(huì)以“工業(yè)聚能 新質(zhì)領(lǐng)航”為全新主題。 [更多]

2024世界人工智能大會(huì)
2024世界人工智能大會(huì)

WAIC 2024將于7月在上海舉行,論壇時(shí)間7月4日-6日,展覽時(shí)間7月4日-7日。WAIC 2024將圍繞“以共商促... [更多]

2024漢諾威工業(yè)博覽會(huì)專題
2024漢諾威工業(yè)博覽會(huì)專題

2024 漢諾威工業(yè)博覽會(huì)將于4月22 - 26日在德國漢諾威展覽中心舉行。作為全球首屈一指的工業(yè)貿(mào)易展覽會(huì),本屆展覽會(huì)... [更多]