- 1靜音車廂來了!坐成渝高鐵可選...
- 2上司威脅下屬不加班就降薪?官方回應:勞動保障監察大隊已介入調查...
- 3成都大運會開幕式升旗儀式彩排 現場工作人員及媒體全體主動起立配合...
- 4國家防總辦公室、應急管理部再次緊急調運中央物資支援天津抗洪搶險...
- 5全過程人民民主重慶實踐...
- 6出境團隊游國家擴展至138個! 多家旅游平臺國慶出國跟團游咨詢量大漲...
- 7男子去4S店辦業務被罵“滾出去” 紅旗客服:非店內員工,門店正在協調中...
- 8廣州一大學錄取通知書現錯別字,招生辦:將重新寄出,并附致歉通知...
- 9長江入境游市場火熱 世紀游輪“重慶—上?!鼻锛竞骄€啟航...
- 10冬日西湖呈現“多彩畫卷”...
- 1:31“一帶一路”高峰論壇|我在馬耳他教中醫...
- 16:52費列羅巧克力有蛆蟲? 客服:先確認是否是正品,產品出廠前有檢驗消殺...
- 12:11砥礪四十載 奮進新征程 ——南磨房鄉開展建鄉40周年宣講比賽...
- 24:12臺風杜蘇芮將直撲閩粵沿海,廈門市民講述搶購物資過程:還有人搶窩窩頭...
- 4:12到2025年,智能算力占比達到35%,先進存儲容量占比達30%以上...
- 13:45八個月臨產孕婦急尋失聯丈夫后續:妻子稱丈夫已遇難,原因還在調查...
- 6:41點贊!姐弟二人小區垃圾桶內撿到30余部手機價值20余萬元全部歸還失主...
- 2:57成都大運會開幕式升旗儀式彩排 現場工作人員及媒體全體主動起立配合...
- 16:13CBME首次舉辦全國孕產服務大會,UPPAbaby即將驚艷亮相...
- 22:13堤壩加固、電力搶修……東北地區全力防范臺風卡努...
- 2:58海信B端業務海外布局再下一城:奪標老撾首都BRT市場...
- 1:37湘潭為462家科技型企業發放知識價值信用貸款16.748億元...
- 6:17太火爆!機票、酒店價格都漲瘋了,網友吐槽:月薪2萬住不起漢庭如家...
- 6:16冬日西湖呈現“多彩畫卷”...
- 24:35以技術攻堅輕量化設計,長城汽車為全球用戶提供更可靠性產品...
- 1:31中國人口學會副會長:中國社會已由“養小為主”轉為“養老為主”...
- 7:14八個月臨產孕婦急尋失聯丈夫后續:妻子稱丈夫已遇難,原因還在調查...
- 2:30密云水庫蓄水量突破30億立方米...
- 0:16FENDI CLUB啤酒:獨特之處彰顯時尚品味...
- 3:29湖島相映景色秀...
東西問丨徐在國:“安大簡”何以成為中華文明的“歷史拼圖”?
經濟觀察報記者 任曉寧 實習記者 陶思羽
賈磊身上的百度標簽看起來似乎并不在一個次元。
他是賈磊百度技術首席架構師,是拼語東西問丨徐在國:“安大簡”何以成為中華文明的“歷史拼圖”?國內稀缺的語音大模型帶頭人。與此同時,模型圍繞在他身上的走條另一組標簽,是百度中國互聯網行業首位“全國勞動模范”,在外界看來這是賈磊百度“狼性工作”的經典寫照。
賈磊在百度負責語音技術研發,拼語他剛來百度時,模型語音技術在百度處于開拓期,走條那段時間,百度他“每天只要睜開眼睛就是賈磊工作,連走路坐車的拼語時間都用來思考”,他一個人組建團隊,模型寫代碼、走條建模、搭系統,6 個月后,百度上線了自主研發的語音搜索系統,這套系統也意味著中國的語音搜索技術實現突破,從無到有地躋身世界前列。
在國內AI語音領域,賈磊都是帶頭人,2023年他獲得吳文俊人工智能科技進步獎特等獎。今年3月文心一言發布會上李彥宏展示的方言語音合成,以及文字生成視頻中的語音生成能力,都由賈磊團隊研發。
但最近他正在做一些更不一樣的事情。
攻克難題
“旁白:掌柜的是一名老者,他正坐在柜前喝著酒。廳前還有個女孩擦拭桌椅,她見沈況進來,便禮貌的東西問丨徐在國:“安大簡”何以成為中華文明的“歷史拼圖”?開口。
清脆女聲:客人吃飯還是住店。
少年男聲;住店。
旁白(伴隨著輕柔音樂):那女孩年歲不大,估摸著比沈況小了幾歲。見沈況進來,老者微微的睜了開眼。
老年男子聲音:哈哈,一把好劍!……”
賈磊向經濟觀察報記者展示了這段2分鐘的聲音,這是他帶領的百度語音團隊最新研究成果。這段合成聲音,展示的是混雜各種背景音及4個人的聲情并茂的對話聲音的一個小說對話過程。這段語音對話背后,是對互聯網音頻大數據的識別、理解、分析和合成的綜合應用。
語音大模型做好之后的效果大概是,你把一本小說喂給它,它能迅速生成電影質感音頻,不需要任何人工操作。
當下無論國內還是國外,無論是ChatGPT還是百度,人們使用最多、體驗最多的都是文生文、文生圖大模型,很少聽到語音大模型的進展。賈磊很坦然地承認,這一波AI技術新浪潮中,世界范圍內看,AI語音大模型技術的確慢了一步,“是人家圖文先實現了突破。”
不過對此,他覺得也正常,技術之路總是此消彼長,此起彼伏。在上一波由深度學習技術突破而帶來的AI浪潮中,就是語音技術先做了突破,然后圖文技術再跟上。
算上中科院自動化所博士學習的時間,賈磊在AI語音這條路上已經走了20年??吹疆斚麓竽P偷倪M展,他很感慨:技術變化真的太快了。
2021年至今,各種深度學習模型技術交替登場,賈磊所在的語音領域,也曾經嘗試使用自然語言處理的方法做預訓練和語音大模型,但是這比大語言模型更難。語音大模型在實際使用中,一直解決不了快速實時的模型計算問題。
最近在NLP領域的大模型技術發展的牽引下,賈磊打開了思路,通過對語音大模型的模型結構和訓練算法的創新,實現了語音在線服務中的模型體積增加幾十倍的突破,他告訴經濟觀察報記者,這個創新在世界范圍內十分領先。
技術改變中國人
采訪賈磊是在一個夏天的午后,他從百度科技園的辦公室匆匆走出來,會議室里聊了一個多小時后,他又匆匆趕回辦公室,道別時他特意為這種匆忙解釋:“我得回去工作了。”
做AI研發是一件枯燥又壓力極大的事情,對此賈磊并不諱言?,F在的他,每天時間都花在處理、調試模型,設計實驗,看論文,寫程序這些事情上。上班就是工作,下班回家就是睡覺,20年如一日,循環往復,他調侃自己:感覺人生就是同一種模式。
這種人生模式早在20年前,他在中科院讀博時就已經預知,但他樂此不疲。
賈磊選擇語音是興趣驅動的。賈磊碩士畢業后,考入中科院自動化所攻讀博士學學位。他最初的研發方向是圖像處理,涉獵了模式識別各學科方方面面的知識,也綜合比較了圖像、語音和NLP等學科的學科差異等。之后他逐漸開始對語音技術產生興趣。賈磊師從現任中科院自動化研究所所長徐波,做廣播語音識別、廣播語音翻譯,把電視節目經過語音識別翻譯成英語,由此踏上AI語音的20年之路。
現在回看,賈磊很感激中科院自動化所寬松的研究氛圍,帶他進入了一個美麗新世界,這個世界競爭激烈但又成就感滿滿,“有些東西別人都沒做出來,你做出來了,而且確實很有用,這種快樂其實是能超越很多事情的。”賈磊說。
更讓他感到快樂的,是他研發的技術改變了很多中國人的生活。這也是他放棄國外高薪,選擇回到國內的原因。賈磊在國外待過一段時間,他那時覺得,當地并沒有“做出一個東西讓大家都能用起來的氛圍。”國內則不同,尤其是近5年,AI落地速度明顯加快,他看到身邊親朋好友使用小度音箱對話,看到很多人用語音輸入文字、檢索信息,看到司機用自己喜歡的聲音做地圖導航……
或許使用技術的人感知并不明顯,但作為研發一線,從無到有實現技術突破的人,賈磊覺得,他的內心成就感比做其他行業要大很多,這不是金錢可以獲取的,這種成就感也是驅動他一直去從事AI工作最重要的原因。
講到這里時,他的語速明顯快了很多,雖然作為技術圈外人,很難準確理解技術成就感的沖擊力有多大,但你很容易被他感染,這是一種單純的技術人員看到技術進展后的快樂?,F在已經成為AI大拿的賈磊,仍保留技術人員的特色,簡單、純粹,用他的話說,“20年前吃什么、穿什么,現在還吃什么、穿什么”。
大模型的出現,讓賈磊的AI語音技術,得以加速發展和落地。他希望有朝一日,能夠實現人對著計算機說話,像跟人說話一樣自如。
他正在為此努力。
圖為賈磊 受訪者供圖
【對話】
語音大模型下一步
經濟觀察報:百度是國內首個推出大語言模型的互聯網大公司,您在其中做了什么?
賈磊:百度十幾年前就開始進行AI研究了,文心一言是我們多年技術積累和應用實踐的結果。文心大模型是一個體系,有很多成員,包括NLP大模型、語音大模型、圖像大模型、跨模態大模型、生物計算大模型等。語音相關的有語音識別大模型、語音合成大模型。我主要是負責語音大模型的一些研究和探索。
經濟觀察報:之前大家熟悉的人工智能應用更多是在智能音箱產品,但為什么取得突破的是圖文而不是語音?
賈磊:作為人類智化的幾個標志能力,語音、語言、視覺圖像能力都屬于基本的人工智能范疇,圖像跟語言都有大模型了,但語音大模型一直是難產的狀態,它有一定的技術障礙。我們當前的識別只能基于此時此刻的一句語音,沒有辦法利用提示,也沒有辦法利用上下文。
語音會有一個時間過程,比如隨著你說話,時間是在往后延續的。并且,你說話結束,語音識別結果立刻就要給出來。所以語音大模型的特點是,要瞬時地去做反饋,并且語音分幀計算使得語音模型加載量比圖像和語言大很多,這就使得計算機加載模型的壓力很大。
打個比方,大家現在開車去上班,如果你到了五環路,路很寬,就可以跑的很好。但是上到五環之前,大家從各個小區走出來的這些路很堵,導致你的車根本跑不到五環上去?,F在語音大模型就卡在跑去五環的路上了。
比如說3秒鐘的語音,語音模型加載到CPU進行計算的理論次數是300次,而對應這3秒語音的一張圖或者一句話的深度學習計算,只需要做1次模型加載。而且語音大模型加進去之后,完成計算的時間必須很快,否則造成用戶的過長等待和延遲。通常語音交互系統需要在0.4秒以內有反饋,否則用戶就會覺得這個設備反應速度很慢,不愿意和設備進行語音交互。這是語音大模型難產的核心原因。
經濟觀察報:未來是否有解決方案?
賈磊:計算機模型加載的限制問題,從硬件上看無法從根本上解決,除非是物理世界發生了重大的突破。舉一個例子,解決計算機的模型加載問題,類似于超導技術的突破,只有超導技術突破了,傳輸介質電阻很小或者近似為0,高壓傳輸才能做到無損。但在算法上,我們提出了一個特殊的模型結構,在smlta2模型的基礎上,把模型的循環加載變成一次性加載,訓練時候該算法不假設任何先驗,可以完全端到端訓練,最終使得在滿足在線語音服務延遲要求的前提下,語音語音大模型的參數量,比原先增加了幾十倍,極大的提升了語音識別系統的準確率和魯棒性。
大語言模型體現智能的一個重要表現,是當模型體積增加到一定規模后,涌現出很多原始訓練集合中沒有的新能力。語音大模型的智能化更多表現為多領域口語信息的準確識別能力、多口音的辨識能力。比如一個小區的名字,我說新興家園你知道是哪兩個字嗎?這種同音字如果沒有提示,你是無法知道是“新興”還是“欣星”。如果有語音大模型,這種歧義的、似是而非的信息都可以通過一個人的歷史軌跡得到提示。
我們這個模型結構,可能會改變語音領域的研究方向和研究方式,在語音大模型這個領域是領先的。
痛并快樂著
經濟觀察報:您在AI行業從業20年,您怎樣評價這一波人工智能浪潮?它是跟之前幾波浪潮會完全不一樣嗎?
賈磊:之前的AI是站在一個“我服務大家”的角度,未來AI可能站在“我服務你”的角度來做,我覺得這次還是非常令人興奮的。
經濟觀察報:在您看來,做AI是一種什么樣的體驗?會覺得有壓力或者很枯燥嗎?
賈磊:首先是競爭帶來壓力。因為AI領域是各個國家投入很大的領域,所以競爭十分激烈。但如果你能做的比別人更好,你能得到更多的快樂。
其次是廣泛應用帶來的成就感。AI正在越來越多的落地,也有大量產品出現在每個人生活中,看到這些進展我內心的成就感,比做其他的行業要大得多,這不是金錢可以獲取的,這種成就感是驅動我一直從事AI行業最重要原因。
做技術研究,枯燥是難以避免的,因為處理、調試模型,模型跑出來后設計實驗,這個周期很長,要根據中間的反饋做預判,做方案選擇,非常難。做這個事,說到底已經是生活的一部分,也已經習慣了。
經濟觀察報:您之前說過,要探求語音交互認知的本源?,F在看,這個本源是什么?
賈磊:其實我一直在想,為什么語音識別率不高?為什么人們不想使用語音?人為什么見一個人喜歡先說話而不是用文字表達?這背后內在的邏輯是什么?如果我做語音技術,我希望這個技術無處不在,那我該怎么樣做?單單一句話無法理解,它有上下文才行,怎么樣引入上下文?這些東西隨著我做語音技術的深入之后,我想的越來越多。我終極的夢想就是人們對著計算機說話,像對著人說話一樣自如,人和計算機說話獲得的信息量、獲得的滿足感,與和人說話也能一樣。語音解決的是交流的問題,NLP解決的是思考的問題,圖像解決的是視覺問題,機器人動起來,解決的是肢體支撐力的問題,等到這些問題都解決了,通用人工智能有可能就實現了。從事這個領域,我所做的一切,都是為了這一天的到來。