
原标题:隐私计算能否解决“数据孤岛”难题?
本报记者 李静 北京报道
大数据时代,数据已经成为推动整个社会发展的必要的生产要素和生产资料。大数据与实体经济的深度融合,将大幅度推动传统产业提质增效,促进经济转型,催生新业态。同时,对数据的采集、管理、交易、分析等业务也正在成长为巨大的新兴市场。
“但需要清醒看到的是,发展数字经济我们仍不可避免地面临着不少困难,其中数据的共享开放便是首当其冲的难题。”中国科学院院士梅宏在2021腾讯大数据高峰论坛上说道。
放眼全球,同样都面临数据共享开放的难题,不同系统、不同组织之间的数据共享开放程度较低,进而带来了数据孤岛问题——海量的数据相互阻隔,难以进一步融合碰撞释放潜能。
大热的隐私计算技术成为当下突破数据孤岛问题的一个突破口。腾讯数据平台部总经理蒋杰在接受《中国经营报》等媒体记者采访时表示:“需要通过隐私计算打破人为的顾虑,让数据孤岛现象慢慢消除。”
神奇的隐私计算究竟如何平衡数据共享开放和数据安全隐私保护的关系?目前又面临着哪些机遇和挑战?
数据孤岛背后的影响因素
数据孤岛普遍存在于所有需要进行数据共享和交换的系统之间,包括不同部门之间的数据信息能不能共享、不同公司之间的数据信息能不能共享,以及不同产业之间的数据能不能共享等等。
梅宏认为,数据孤岛现象的背后,既有法律法规和政策方面的原因,也有技术、认知方面的原因,还有数据安全和隐私保护方面的考虑。
2019年中国互联网协会对外公布的《中国网民权益保护调查报告》显示,在2019年,七成左右的网民个人身份信息和个人网上活动信息均遭到泄露。78.2%的网民个人身份信息(姓名、学历、家庭住址、身份证号及工作单位等)被泄露;63.4%的网民个人网上活动信息(通话记录、网购记录、网站浏览痕迹、IP 地址、软件使用痕迹及地理位置等)被泄露。近半数的网民个人通讯信息(即时通讯记录、手机短信等)被泄露。2019年因个人信息泄露导致诈骗信息、诈骗消息等原因,导致网民总体损失约805亿元。
近年来,关于用户隐私泄露、数据违规的负面事件频频登上热搜,公众对于数据安全和隐私保护越发关注。国家也正在制定如《数据安全法》《个人信息保护法》等相关法律法规,从法律层面为数据安全和个人隐私提供保障。
在保障数据安全的前提下,才能在数据共享之下充分发挥数据的价值百科。如何平衡数据共享开放和数据安全隐私保护的关系,是国家、行业和企业层面都需要考虑的问题。
“在国家层面需要加紧建立数据资源的确权、开放、流通,以及交易相关的制度,促进以安全为前提条件的数据流通和融合。而在行业和组织层面应该在国家法律法规的框架下,各自建立相应的行业制度和规范,推动行业企业内外的数据协作,打破不同组织、不同系统之间的数字壁垒,为数据分析和人工智能应用奠定基础。” 梅宏说道。
隐私计算成热点技术
如今,不少企业已经在技术层面探索打破数据孤岛,隐私计算成为国内外研究的热点技术。
“隐私增强性计算(Privcy Enhancing Computation),包括基于可信硬件执行环境的数据安全计算技术、密码学的一系列的多方安全计算场景的技术,以及延伸出的联邦学习等新的技术。”中国信息通讯研究院云计算大数据研究所副所长魏凯解释道,这一类技术可以做到数据的使用权和受益权相对分离同时不侵害别人的利益,也就是数据“可用不可见”,可以保证数据隐私,同时能够实现数据的价值百科的联合挖掘。
以医疗为例,每个医院都有核磁共振和CT,但数据相互之间并不共享。“如果通过联邦学习、隐私计算的模式,可以把多家医院的用户信息汇总起来做模型训练,在能保护病人个人隐私的同时,又能去识别整个癌症病例的分析,这样能够把三甲医院医生的经验复制到贫困山区,就有可能解决医疗统一的问题。”蒋杰举例解释道。
蒋杰表示,隐私计算主要从三个方面在突破。第一个方面是通过机器学习和大数据提供全方位的隐私保护;第二个方面是做一些去中心化的架构,避免中心节点本身的瓶颈导致的整个安全风险;第三个方面是做软硬件加密的双保险技术。例如在腾讯和英特尔的合作中,会在CPU里面用一些硬件去做硬件层面的加密。
腾讯数据平台部副总经理刘煜宏介绍,隐私计算伴随着密码技术、硬件技术的发展加速商业化,其技术路径也处于高速的演进和变化之中,其中联邦学习、多方安全计算和可信计算是当前主流的技术路径,也是当下产品化的主要方向。此外区块链与隐私计算的融合应用也成为业界的共识,两者相辅相成。在金融、医疗、政务、广告等领域,隐私计算正发挥着越来越重要的作用。
“我们看到隐私计算和区块链越来越多的融合,因为区块链技术能够给整个数据全流程提供更好的保护,能够提供数据端到端的隐私性的保护,也让数据的生物周期的安全性得到保障,同时区块链也是可以追溯的。”刘煜宏补充道。
业界已经逐渐形成共识,隐私计算是数据协作过程中履行数据保护义务的关键路径。一方面,在企业内借助隐私计算,能够切实保护企业在采集、存储、分析等过程中的关键信息、商业秘密等数据,既能保护企业自身的利益,还能践行企业的数据保护责任。另一方面,隐私计算能够促进企业的跨界数据合作。由于隐私计算能够实现数据可用不可见,能够帮助不同企业和机构与产业链上下游的主体进行联合分析,打造数据融合应用,同时在数据协作的过程中履行数据安全和合规义务,实现生态系统内的数据融合,推动企业自身、产业层面的数据价值百科最大化。
挑战与机遇
目前隐私计算正处于大爆发的阶段,也意味着还存在很多挑战。
“技术本身并不是最最可信的,但技术是很必要的东西,怎么能够让数据合理安全流通,又在监管维度上找到一个合适的度,这非常重要。管得严如一潭死水,体现不了数据的价值百科,管得太松,又会出现很多问题。另外在隐私计算技术的互通性方面,当下各家都在推相关技术,未来要如何解决各条路线技术之间的互通问题?建议让技术这个子弹再多飞一会儿,不要过早地约束在一条线里。”中国电信云计算公司大数据和AI研发总监温森茂表示。
中国电信科学研究院总公司人工智能应用研究所、高级工程师张玉天表示,电力是生活必需的公共服务品,电网从物理上接入到各行各业和千家万户,因此国家电网公司掌握了大量价值百科很高、又十分敏感的数据,这些数据对于隐私保护的需求很高。国网公司传统的处理方式比较保守,比如设立多层安全区层层防护,但是随着大数据应用的发展,国网公司的数据也在逐渐开放共享。
“因为国网的数据价值百科高又十分敏感,因此涉及隐私保护的方案都是需要充分地认证有效性和可行性。同时在利用其他行业的数据方面,因为不了解,常常导致难以直接利用。”张玉天表示,隐私计算技术可以实现数据归属权和使用权的分离,从而让其他人也可以有使用权,达到共享效果,最终实现多数据源协同利用,丰富数据维度,充分挖掘数据价值百科。但隐私计算技术虽然在数据之间形成了很好的桥梁,但怎么应用好其他数据还是一个挑战。
中国民生银行直销银行产品二中心总经理廖鹏则从技术的角度进一步指出,隐私计算作为平衡数据价值百科挖掘和隐私保护有效的解决范式,为数据流通和价值百科共享提供了一条重要的技术路径。然而,隐私计算依然处于初期阶段,隐私计算相关技术也涉及复杂的前沿理论知识,目前的开发、使用门槛还比较高。“不知道未来有没有可能通过建立标准化的隐私计算路径,技术行业标准,减少重复建设实现资源的共享。”
在温森茂看来,技术并不是万能的,需要多个体系融合,推动和建立完善的可信数据流通体系。“未来一定是构建一个总供给方、需求方、平台运营方以及监管方这样四方联合的生态运作环境,让数据能够在这个环境里安全随意地流通。”
责任编辑:张玫
原标题:隐私计算能否解决数据孤岛难题




