老羅數字人直播6小時背后,百度AI正在拉開差距
百度AI,又一次給行業制造驚喜。(雷峰網 (公眾號:雷峰網) 雷峰網雷峰網)
6月15日,羅永浩數字人在百度電商完成直播首秀,給出漂亮的成績單:開播僅26分鐘,超過羅永浩真人1小時的GMV,當晚GMV突破5500萬元,部分3C、食品等核心品類商品帶貨單量超羅永浩?5?月真人首秀同期數據,創下數字人直播帶貨新紀錄。
可以說,這場超6小時、近10萬字講解的數字人直播,是百度大模型多模態能力的又一次華麗“閱兵”。它的背后,是百度研制的多模協同的數字人技術的支撐,以保證數字人在長時間直播中,像真人一樣、形神音容高度協調、會思考決策、且能協作完成特定任務。
AI戰場硝煙彌漫,各方廝殺愈發激烈。不過,當行業還在卷“通用視頻生成模型”時,百度高舉的是“AI應用戰略”的大旗,聚焦在有實際需求的場景,發展模型能力。
羅永浩數字人直播,證明百度已經開始用AI創造GMV。顯然,百度的野心不止于此,而是要創造出越來越多“超級有用”的AI應用。
01 AI驅動GMV破5500萬,創行業新標桿
憑借極具個人魅力和傳播影響力,羅永浩在直播電商領域自有一席之位,其一舉一動都備受行業矚目。
這次,羅永浩與百度數字人直播合作,在數字人的技術驅動和羅永浩的IP效應帶動下,期待值早就被拉滿。
當晚直播間更是吸引超1300萬人次觀看,GMV?突破5500萬元,側面說明數字人直播技術的商業可行性。
早在今年4月份的Create AI開發者大會上,百度連發兩大模型:文心大模型4.5 Turbo和文心大模型X1 Turbo,其中高說服力數字人,正是多模態大模型的一個典型應用。
這些數字人不僅在神形音容上達到高度一致,更搭載有AI大腦,通過劇本模式和多智能體協同,數字人能夠在直播電商領域實現帶貨轉化。
本次羅永浩數字人首秀,在原有高說服力數字人基礎上,又創下多個首次。
比如,首次實現頭部主播用數字人直播帶貨,并突破AI視頻生成極限播出超6小時。
對于頭部主播來說,啟用數字人往往伴隨操作失誤等風險,但在這場數字人直播里,觀眾通過表情和動作,已經很難判斷不是真人。
這些都來自多模融合技術,實現了動作、表情、語調等多個維度與話術的完美統一,以及動作驅動技術,讓數字人擁有更長的待機時間,同時讓表情和動作更加自然,進一步增強數字人的真實感。比如,數字人老羅直播中,提到抬頭紋、法令紋、頸紋的時候,也配合手部動作指出相應位置,這也是業內首次實現多模高度融合的數字人。
首次突破多數字人互動直播,羅永浩與助播數字人配合自然、頻頻爆梗。
以往羅永浩直播間,通常都會有另一位主播朱蕭木做搭檔,這次百度AI技術也把朱蕭木的數字人搬來了,通過視覺大模型和語音大模型的全面升級,兩個數字人在直播間里一唱一和,默契互動,講解銜接自然,支持打斷和同時說話,高度還原了主播和助播的真實直播狀態,提升營銷轉化和C端體驗。
這些數字人不但能做出喝奶茶、拎可樂等細節動作,還能與直播間用戶彈幕進行實時互動。
在內容方面,得益于最新文心4.5Turbo的加持,大模型不再局限于簡單腳本生成,而是既懂創作更懂用戶,可以量身打造大師級劇本模式,讓數字人擁有羅永浩的強烈個人風格,“羅氏幽默”的話語更是張口就來。
面對多任務的復雜直播場景,整場直播AI調用知識庫?1.3?萬次,生成?9.7?萬字產品講解內容,雙數字人搭檔做出超8300個動作,并以3倍于真人直播間的互動次數,再次證明百度AI應用的強大控場力。
以上種種技術優勢的背后,全部依托于百度研制的多模協同的數字人技術,這是基于文心?4.5T?實現了融合多模規劃與深度思考的劇本生成,由劇本驅動數字人多模協同,實現動態決策的實時交互,再結合文本自控的語音合成大模型生成風格恰當、自然流暢的聲音,以及高一致性超擬真數字人長視頻生成,使數字人的“神、形、音、容、話”達到高度統一。
最終,呈現出一個具備高表現力、內容吸引人,且“人-物-場”可自由交互的超擬真數字人。
02 超6小時數字人直播背后,源于多模協同的數字人技術
數字人這一概念并非新詞,其發展階段也經歷了從探索到商業爆發的歷程。
數字人最初起源于20世紀末,早期受限于技術,主要應用于游戲和動畫。隨著圖形學和AI進步,虛擬助手和偶像開始出現,比如2007年初音未來的走紅;隨著AIGC技術的突破,大幅降低了數字人的制作成本和技術門檻,使其在直播電商、教育、金融等領域得到廣泛應用。
坦白講,要達到羅永浩數字人這樣的效果并非易事,需要具備出色的表現力、吸引人的內容、數字人與場景、物品的互動等。此前就有商家選擇AI主播,結果出現了內容模板化、缺乏創意、答非所問的狀況。
那么,百度高說服力數字人的“超能力”從何而來?答案是,劇本驅動的數字人多模協同、融合多模規劃與深度思考的劇本生成、動態決策的實時交互、文本自控的語音合成、高一致性超擬真數字人長視頻生成等五項創新技術組成的多模協同的數字人技術。
語言模型是這套數字人技術方案的核心引擎。由它生成的劇本,能夠精確指導語音和視覺系統,實現高度協同的多模態交互。這種協同作用最終塑造了數字人逼真的音容笑貌,使其整體表現更為自然流暢。
首先,最關鍵技術就是劇本生成。
數字人不管是直播,還是完成視頻內容的生產,第一個關鍵就是數字人本身講出來的內容——臺詞。臺詞包括多樣化風格、擬真化人設、吸引力內容。
有很多主播受到用戶的喜愛,原因是因為他們有非常鮮明的人設和獨特的語言風格。這些都需要模型在臺詞生成上建設相應的能力來實現。
基于大語言模型的劇本生成在生成臺詞時,同步生成數字人的動作、表情和語調等信息標簽,以及每個模態的對齊位置,實現多模協同工作。
簡單來說,新一代數字人技術不再只是“照本宣科”,而是以劇本驅動視頻和語音,在生成時進行多模態的內容匹配和位置對齊,實現更智能和自然的表現。
第三,動態交互是數字人能夠像真人一樣,與用戶互動的關鍵能力,也是體現數字人真實性的關鍵因素。百度研制的動態交互技術,讓數字人的互動能力媲美真人,并通過視頻斷點設計,讓動態視頻片段能夠在視頻流中順暢銜接。
在數字人場景的語音合成上,和以往熟悉的朗誦式語音合成也有很大的區別。
最主要的區別在于數字人需要語音的自然流暢,在講述不同東西的時候有抑揚頓挫感,在希望能夠更好地感染別人的時候有激情澎湃的感覺。
通過文本自控的語音合成大模型,實現字級別指令遵循的合成能力,控制聲音效果的平滑流暢,再結合直播文本及發音人信息,合成風格恰當、自然流暢的聲音。
羅永浩數字人還遇到了直播雙人聲音配合的難點,百度選擇采用對話上下文編碼器的方法,將對話歷史輸入和當前對話進行語音合成的統一推理計算,最終實現了老羅和朱蕭木兩人流暢、自然的對話效果。
最后,在高一致性超擬真數字人長視頻生成上,百度構建了一整套數字人形象生成和驅動技術,專門解決數字人面臨的高可控交互,高精度、長時間一致性保持等難點,保證數字人能夠長時間穩定運行,并具備高表現力和自由交互能力。
最終呈現在直播間里,就像是觀眾看到的羅永浩數字人一樣,是一個能夠理解用戶、并會多種表情和神態的智能體。
可以說,百度呈現的數字人直播是大模型技術的集大成應用,羅永浩數字人是基于文心大模型的最佳實踐。
03 提升應用落地效果,模型能力是關鍵
OpenAI首席執行官Sam Altman說過:“AI?的真正革命不在實驗室,而在普通人的指尖。”
理解了這句話,就能夠理解當下百度AI正在做的事情。
作為國內最早投入大模型產研的企業,百度在芯片、框架、模型、應用四層技術棧進行全面布局,AI大模型領域的技術創新優勢明顯。
今年上半年,百度連發4款基座大模型,文心大模型4.5/4.5T、文心大模型X1/X1 Turbo,其中文心4.5價格僅為GPT的1%,X1 Turbo在信通院評測中獲得最高評級。
就在今年百度Q1財報電話會議上,李彥宏表示,2025年將加速迭代文心系列模型,下一代文心大模型已在研發中,6月30日將開源最先進的文心4.5系列模型。
百度正以數字人、代碼智能體、無人駕駛等為切入點,全力推動AI應用落地。
當行業還在探索通用視頻生成模型時,百度已將AI應用落地,聚焦實際需求發展模型能力,率先用AI創造商業價值、提升GMV。
相較于通用的視頻生成模型,數字人聚焦特定垂直領域,具備更精準的模型優化、極致的人機交互體驗、實時互動能力等優勢,技術門檻相對較低,應用場景清晰,更易形成可復制的商業模式。
從這一點來看,此次羅永浩的數字人超長直播,正是百度大模型在多模態上的綜合應用的有力證明。
今年,百度上線無代碼生成工具“秒噠”,降低了應用開發的門檻,讓更多人有機會參與技術創新。同時,AI代碼輔助工具“文心快碼”也服務了數百萬開發者,在無人駕駛領域,百度旗下蘿卜快跑加速出海,在全球范圍內積累了超過1100萬次服務,積極推動無人駕駛技術的商業化應用。
從數字人、代碼智能體到無人駕駛......都預示著百度AI技術正加速滲透到各個領域。可以斷定,AI將不再是個遙遠的概念,它正加速在各行各業落地扎根。
正如百度創始人李彥宏一直強調的,“應用才是大模型真正價值所在”,從應用出發做模型,正在讓百度創造出越來越多“超級有用”的AI應用。
雷峰網原創文章,未經授權禁止轉載。詳情見 轉載須知 。