人工智能技術(shù)的突破性進展正深刻重塑全球產(chǎn)業(yè)格局,而高質(zhì)量數(shù)據(jù)集作為人工智能模型訓練與應用的基石,已成為國家科技發(fā)展的核心要素。高質(zhì)量數(shù)據(jù)集不僅是技術(shù)創(chuàng)新的“燃料”,更是推動超級人工智能、具身智能、自動駕駛等未來產(chǎn)業(yè)落地的關(guān)鍵引擎。
中國信息通信研究院副院長魏亮在“2025人民數(shù)據(jù)大會”發(fā)表主旨演講。人民網(wǎng)記者 翁奇羽攝
8月26日,中國信息通信研究院副院長魏亮在“2025人民數(shù)據(jù)大會”發(fā)表主旨演講時表示,在大模型為代表的人工智能技術(shù)發(fā)展過程中,數(shù)據(jù)是大模型智慧的來源,任何一個高性能大模型,都離不開高質(zhì)量的數(shù)據(jù)集。多模態(tài)數(shù)據(jù)、具身智能數(shù)據(jù)、推理思維鏈數(shù)據(jù)和長視頻數(shù)據(jù)是下一步高質(zhì)量數(shù)據(jù)集建設的重點。
隨著人工智能加速迭代,大模型如雨后春筍般不斷涌現(xiàn),大模型需要的數(shù)據(jù)集增速遠遠高于高質(zhì)量數(shù)據(jù)集生產(chǎn)和生成的速度,高質(zhì)量、高價值密度的數(shù)據(jù)集將撐起一個企業(yè)差異化競爭,成為企業(yè)人工智能業(yè)務發(fā)展的護城河。
“誰有高質(zhì)量數(shù)據(jù),就可以訓練出一個好用的垂類模型。當垂類大模型在生產(chǎn)中規(guī)模使用,會生成更多高質(zhì)量數(shù)據(jù)再反饋到該模型中,從而實現(xiàn)‘數(shù)據(jù)飛輪’效應。”魏亮認為,高質(zhì)量數(shù)據(jù)的供給有三個方面的措施,即數(shù)據(jù)技術(shù)、數(shù)據(jù)工程以及數(shù)據(jù)治理:
數(shù)據(jù)技術(shù)包含新一代標注技術(shù)與合成技術(shù)。當前,有高技術(shù)含量、高知識密度、高價值的應用,行業(yè)頂尖專家的高水平數(shù)據(jù)可能需要幾十美元甚至上百美元,成為新一代標注技術(shù)的方向。合成技術(shù)從最初用來解決流通中隱私問題,如今也在應對訓練集不足,包括用物理仿真、統(tǒng)計模型、機器學習等領(lǐng)域發(fā)揮更大作用。數(shù)據(jù)工程旨在提升模型數(shù)據(jù)集管理和效率,即能夠規(guī)模化、高效生成好用的數(shù)據(jù)集,圍繞管理體系、開發(fā)維護、質(zhì)量控制、資源運行和合規(guī)可用五大要素搭建數(shù)據(jù)工程。數(shù)據(jù)治理即在控制數(shù)據(jù)過程中實現(xiàn)高質(zhì)量和可靠,以及安全與合規(guī),倫理要求都需要在數(shù)據(jù)治理中得到體現(xiàn),從而使數(shù)據(jù)治理更好地服務數(shù)據(jù)集建設。
魏亮表示,高質(zhì)量數(shù)據(jù)集的建設是提高人工智能性能的關(guān)鍵,也是推動“人工智能+”行動落地的保證。隨著“人工智能+”行動的發(fā)布,標志著人工智能進入一個數(shù)據(jù)驅(qū)動的新階段。要通過AI的數(shù)據(jù)技術(shù)、數(shù)據(jù)工程、數(shù)據(jù)治理,能夠共同推動高質(zhì)量數(shù)據(jù)要素的高效能的供給。
來源:人民網(wǎng) 記者栗翹楚
評論