数据是人工智能技术发展和场景应用的重要基础,也是近年来诸多开展全面数字化智能化转型的关键要素。7月6日,2023 世界人工智能大会在沪揭幕,除了大模型外,“产业数据价值化”也成为了热议话题。
数据是 AI 机器学习、大模型训练的原材料,而隐私保护和高效流通被看作是数据价值化的关键之举。 联合国工业发展组织副总干事兼执行干事邹刺勇在现场讲到的,“我们需要保护数据隐私,从而让大家更好地信任人工智能技术。”
【资料图】
扎牢数据基础,提高数据质量
最新预测数据显示,2022年中国大数据市场总体IT投资规模约为170亿美元,并在2026年增至364.9亿美元,实现规模翻倍。与全球总规模相比,中国市场在五年预测期内占比持续增高,有望在2024年超越亚太(除中日)总和,并在2026年接近全球总规模的8%。
在当前大模型引领的智能时代,数据的质量很大程度上决定了模型的应用广度和性能,尤其在细分领域的垂直大模型训练工作中,产业数据和知识的获取和治理是重要基础。如何进行高质量的数据集建设和治理,就显得格外重要。
在智能汽车领域,以动力为核心的汽车已经转向了算力竞争。“我们公司不到2000人,70%以上都与人工智能软件算力有关。”智己汽车联席 CTO 刘涛介绍说,一辆车每天在路上行驶时所带来的数据量是惊人的,智己每天的数据吞吐量超过 1400 万公里,智己通过在车端布置高效的筛选器,让真正有利于迭代自动驾驶算法模型的数据上传到云端的数据工厂。
作为一家科技公司,蚂蚁集团数字科技副总裁余虎表示,蚂蚁集团数字科技通过开发数据质量和数据价值的评估技术,已经能够实现在线状态和离线状态下,通过模型效果来反向评估数据的质量。此外通过与高校合作开发基于区块链技术的大规模分布式数据的可信治理技术。通过可信治理,能够确保数据在整个过程中的安全和可信。
有人做数据管理,也有人给数据搭基建,以降低数据获取的成本。晶泰科技联合创始人马健介绍,其自主研发的自动化实验室以高效并行的机器人实验,能快速且规模化地生成来自真实世界的高质量数据,进一步提高晶泰科技预测并验证药物候选的能力,“晶泰科技打通了智能算法与机器人实验的数据闭环”。
强化数据隐私和标准,促进数据流转
数字资源是重要的生产要素,而与此同时数据泄露事件也在频发,加上数据应用场景的复杂化与数据本身广泛性、分散性、复杂性、多样性的特点,进一步加剧了数据资产发现和梳理、数据分级分类、权限管控、合规分析、AI 预测分析等数据安全难题。
“数据流转问题核心是缺少数据安全和数据信任的保障。”蚂蚁集团余虎表示,由于这种信任机制的缺失,就没办法让数据的所有者、持有者、开发使用者及运营者之间形成可信协作机制,从而阻碍公共数据的共享开放和流转。余虎提出,区块链和隐私计算能够形成可信的信任基础设施,促进产业数据流通。
利用区块链技术可以实现数据的授权使用、溯源及保护;利用隐私计算可以报证数据可用不可见,保护数据隐私。两项技术充分融合,可以促进数据流转,激活数据价值。
蚂蚁集团在数据要素流转所依赖的区块链、隐私计算、数据安全合规等技术领域处于行业领先水平。据了解,蚂蚁开发了隐私协作平台 FAIR,深度融合隐私计算和区块链这两项技术的优势:协作流程由智能合约驱动,数据流转由隐私计算引擎来解决,并通过区块链技术确权,登记和交易共识。该平台已经在杭州国际数字交易中心、四川省港投集团、国家工业信息安全发展研究中心等机构得到应用。
去年12月,杭州国际数字交易中心揭牌成立。截至2022年12月,杭数交已与215家企业建立合作关系,上架产品428件,实现457笔数据业务交易,累计实现交易金额超13亿元。这背后正是蚂蚁集团的数据要素流通技术和产品进行全面支撑。
IDC在《隐私计算全景研究2022》报告指出,展望5-10年之后的数据要素市场,区块链等相辅相成的技术能力将显得不可或缺。目前,“区块链+”的技术方案已经成为行业共识,被看作是数据要素流通的标准化方案。
科技企业利用数字技术保护数据隐私,传统企业率先将数据实现了标准化“生产”。上海钢联植根大宗商品数据服务业23 年,对大宗商品几乎全覆盖。作为中国第一家通过国际证监会组织(IOSCO)认证的大宗商品数据服务商,上海钢联构建了庞大而专业的数据采集体系,在上海数交所相继完成了“大宗商品价格”、“大宗商品产业大数据”及“大宗商品数据应用服务(数据终端)”三个系列产品挂牌。
上海钢联董事长朱军红表示,为提高数据的流通效率,上海钢联已经针对大宗商品数据建立了一套完整的标准,包括采集、检验、治理等,让传统行业的数据实现标准化流转。