聯(lián)想控股參與“高質(zhì)量數(shù)據(jù)集煉金工坊”生態(tài)計劃
數(shù)據(jù)之于人工智能,猶如石油之于工業(yè)時代。高質(zhì)量數(shù)據(jù)集的建設(shè)是提升AI模型性能的關(guān)鍵,也是推動“人工智能+”行動落地的保障,標(biāo)志著人工智能發(fā)展正在進入“數(shù)據(jù)驅(qū)動”新階段。
在近日舉行的人工智能高質(zhì)量數(shù)據(jù)集暨數(shù)據(jù)標(biāo)注產(chǎn)業(yè)成果發(fā)布會上,依托中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟,聯(lián)想控股聯(lián)合中國信息通信研究院人工智能研究所、中國國家圖書館、高等教育出版社、中國科學(xué)院文獻情報中心、景德鎮(zhèn)陶瓷研究院、中國版權(quán)保護中心以及百度等單位共同發(fā)起“高質(zhì)量數(shù)據(jù)集煉金工坊”生態(tài)計劃。該計劃旨在打造一個人工智能與數(shù)據(jù)要素協(xié)同發(fā)展的可持續(xù)生態(tài)體系,將原始數(shù)據(jù)轉(zhuǎn)化為具有高價值的“數(shù)據(jù)黃金”,為人工智能的發(fā)展提供源源不斷的動力,讓數(shù)據(jù)從“沉默的礦藏”變?yōu)椤傲鲃拥狞S金”。
數(shù)據(jù)集,簡而言之,是由一系列相關(guān)數(shù)據(jù)整合而成的集合,具備明確的主題,且能夠被標(biāo)識與計算機化處理。作為機器學(xué)習(xí)和統(tǒng)計建模的基石,數(shù)據(jù)集為算法學(xué)習(xí)提供了關(guān)鍵的 “原料”,也是智能應(yīng)用背后的 “智慧之源”。無論是在助力 AI 模型能力提升方面,還是在推動行業(yè)應(yīng)用落地進程中,根據(jù)具體場景選擇合適的數(shù)據(jù)集類型并構(gòu)建科學(xué)合理的數(shù)據(jù)結(jié)構(gòu),都已成為人工智能工程中不可或缺的基礎(chǔ)性環(huán)節(jié)。
然而,當(dāng)前我國在高質(zhì)量數(shù)據(jù)集方面卻面臨著嚴(yán)峻的短缺形勢:數(shù)據(jù)集質(zhì)量參差不齊,缺乏具有主流高價值的數(shù)據(jù)引領(lǐng)方向。數(shù)據(jù)集的混用現(xiàn)象時有發(fā)生,這不僅會干擾訓(xùn)練效果,還可能導(dǎo)致大模型出現(xiàn)諸如測試分?jǐn)?shù)虛高、泛化能力減弱、在不相關(guān)任務(wù)中表現(xiàn)大幅下滑等問題,甚至可能引發(fā)實際應(yīng)用中的不良后果;高質(zhì)量數(shù)據(jù)集的標(biāo)準(zhǔn)體系尚處于待完善狀態(tài),數(shù)據(jù)質(zhì)量評估評價缺乏統(tǒng)一標(biāo)準(zhǔn),政務(wù)領(lǐng)域和重點行業(yè)也缺乏典型的主流價值數(shù)據(jù)集。
鑒于此,各方面正積極投身于高質(zhì)量數(shù)據(jù)集的建設(shè)工作。國家數(shù)據(jù)局等17部門聯(lián)合印發(fā)的《“數(shù)據(jù)要素×”三年行動計劃(2024—2026年)》提出,“推動科研機構(gòu)、龍頭企業(yè)等開展行業(yè)共性數(shù)據(jù)資源庫建設(shè),打造高質(zhì)量人工智能大模型訓(xùn)練數(shù)據(jù)集”。中國電子信息產(chǎn)業(yè)發(fā)展研究院院長張立表示,建設(shè)高質(zhì)量數(shù)據(jù)集是落實《中共中央國務(wù)院關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》,推動數(shù)據(jù)產(chǎn)業(yè)和數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展,推進“人工智能+”行動的重要抓手。
高質(zhì)量數(shù)據(jù)集的建設(shè)需要政府、行業(yè)組織以及龍頭企業(yè)集團的緊密協(xié)作。聯(lián)想控股將憑借其在制造、醫(yī)療、教育、安防、能源、新材料、專業(yè)服務(wù)、 金融 和消費等多個領(lǐng)域的應(yīng)用場景優(yōu)勢,能夠提供相應(yīng)的高質(zhì)量數(shù)據(jù)集,其聯(lián)合中國信息通信研究院人工智能研究所等機構(gòu)共同發(fā)起的 “高質(zhì)量數(shù)據(jù)集煉金工坊” 生態(tài)計劃,正是為了充分釋放數(shù)據(jù)要素的價值,為人工智能的發(fā)展筑牢根基。