AI多模態驅動體驗升級,火山引擎重構交互新
在6月11日舉辦的FORCE原動力大會上,火山引擎正式發布豆包大模型1.6、豆包·視頻生成模型Seedance 1.0 pro、豆包·語音博客模型,同時豆包·實時語音模型在火山引擎全量上線。至此,豆包大模型家族已形成全模態、全尺寸、高性價比的領先模型矩陣。
隨著大模型技術的迭代演進,新一輪 科技 革命與產業變革正蓬勃興起,同時也重塑著新一代生活方式。在此進程中,AI多模態交互大模型的加速發展,正推動人機交互邁入全新時代。火山引擎助力智能終端廠商通過AI多模態交互大模型實現更具擬人化的互動體驗,使其能夠通過視覺、聽覺等多通道響應交互需求,充分還原人與人之間的交互模式,讓溝通更沉浸、讓交流更自然。
多模態交互,讓AI助理“人味兒”十足
人類通過視覺、嗅覺、聽覺、觸覺等多元感官認知世界,因此文字、照片、視頻、音樂等多元載體,成為日常記錄與交流的媒介。過去,用戶與AI助理的互動僅限于通過語音識別匹配指令,是基于“指令”進行的機械交互,無法理解和感知用戶的真實需求。這些真實需求有些是包含在上下文中,冗長的上下文帶有大量的近義表達方式;有些文字無法描述的,需要配合圖片、音樂旋律、視頻等多種方式讓終端感知并反饋。如今,隨著豆包大模型能力的持續進化與落地應用,火山引擎為智能終端注入全新交互動能,推動用戶體驗實現質的躍升。
當 手機 成為生活的全能助手,深刻融入并重塑著日常生活與工作方式,OPPO 與火山引擎攜手合作,引入豆包語音大模型,為用戶開啟了一段全新的智能交互之旅。在豆包語音大模型的支持下,即使用戶身處嘈雜環境或面對口音多樣化情形時,小布助手也能識別用戶語音并轉化為文本,確保語音輸入的準確性。同時,還能通過模擬多樣化的音色、語氣和語調,使用戶在接收信息時仿佛與真人交流。
新潮智能手機品牌努比亞在全場景接入多款豆包大模型后,成功打造了全鏈路多模態智能助手「小星」。借助豆包大模型的深度語義理解能力,「小星」能夠實現高效的交互體驗,用戶可以直接對屏幕上的圖片、地址、文字等信息進行語音提問,也可以通過“畫圈”方式圈選關鍵內容進行交互,真正做到“指哪搜哪”“即圈即用”。
AI技術升維,全場景交互使用更便捷
在 互聯網 、5G+及軟硬件技術的協同驅動下,手機正作為智慧終端成為工作生活中不可或缺的“智能伙伴”。依托豆包大模型的AI多模態交互能力,端內AI助理能在多種復雜交互場景中,實現精準響應,為用戶帶來更順暢的AI交互體驗,推動生活方式向高效便捷升級。
借助豆包大模型的理解能力,OPPO手機端側可實現精準信息召回。當用戶想要搜索信息時,AI意圖搜索將統一入口,支持模糊搜索與全局搜索,打破文檔、便簽、照片等界限,匯總并精煉相關內容。同時,利用火山引擎大模型聯網Agent,在小布助手內實現圖文并茂全新體驗,告別純文本回復。
借助豆包大模型及火山方舟平臺提供的內容插件,在三星 Galaxy Z 系列手機上,當用戶通過Bixby語音助手搜索旅行相關時,三星 Galaxy AI會搜索并結合優質內容源,為用戶提供優質且準確的聯網信息,并以短視頻內容卡片的形式展現給用戶,實現與用戶高質量的問答互動。
從早期的圖像識別、語音識別,到后續的自然語言處理技術突破,人機交互方式始終在迭代進化的軌道上持續前行。目前,全球Top10手機廠商中,有9家與火山引擎深度合作,豆包大模型已覆蓋4億終端設備。當AI與生活深度相融,火山引擎將以云+AI技術為核心,持續為智能終端市場注入創新動能,讓交互更有溫度,讓智能終端更“懂”用戶。