技术未满,数据共享与隐私安全的“现实妥协”

需求规模不断增长,技术却无能为力。


文:易柏伶

编辑:王巧

大数据的经济浪潮已扑面而来。

几十年来,全球IT行业始终遵循着摩尔定律所预测的速度飞速发展着。直到现在,这一定律依然神奇地发挥着效用。当5G、云计算、物联网等技术越来越成熟,海量数据的生产、采集、存储和处理成为了现实,智能化时代来临,数据潜力也得到了空前释放。

据国际数据公司和希捷公司的报告显示,2020年中国数据总量将会超过8万亿GB,占全球数据总量达20%左右,中国将成为数据生产量最大、类型最丰富的国家。

数据总量爆发,依托数据的产业经济规模也会空前扩大。据前瞻产业研究院发布报告显示,预测在2020年我国大数据产业市场规模将突破万亿,2023年将增长至15700亿元,同比增长15.4%。

大数据产业上升为国家战略,数据也已成为国家、企业、个人极具价值的核心资产,数据共享和流通成为了刚性需求。例如,人工智能的发展就依托于庞大的数据规模和数据多样性。

然而,数据隐私保护与数据流通和使用效率之间的矛盾却日益凸显。2018年,欧洲GDPR数据保护条例的颁发将Facebook、Google等互联网巨头推上了风口浪尖,数据隐私被窃取、安全泄漏等事件层出不穷。

Facebook在区块链技术和加密货币上的布局充分表明了,利用互联网平台中心化搜集用户数据,实现平台化的精准营销谋利,哪怕为用户带来便利,这种商业模式也不再可持续。

以至于去年腾讯进行第三次组织架构调整之后,马化腾专门发朋友圈强调,鉴于腾讯各平台数据的用户个人隐私性较强,“我们更强调的是数据的保护而非打通数据和唯算法论。”

以密码学为核心的区块链技术,似乎有望打破数据在行业、企业间的流动壁垒,开启数据经济时代新的商业模式。

在保证隐私安全的基础上实现数据共享,越来越多的公司加入这条赛道,但技术发展似乎很难适应日益增长的商业需求。


一、区块链技术公司先行,互联网巨头涌入

2019年的科技圈,“数据中台”是最火的概念之一。从去年年中到今年6月,“数据中台”的百度指数从120一路狂奔达到了500多。人们对于数据中台概念的理解普遍为实现大集团各子公司,或者大公司各子部门之间数据交换、资产化和业务化的工具,促进各大产业互联网化、信息化。

公信宝创始人黄敏强却认为,这一概念的内涵似乎可以拓展到企业与企业之间的数据交换与共享,再往前一步可以实现企业到个人的数据利用和隐私保护,从B端迈向C端。

据锌链接了解,早在2017年数据共享平台就已经超过了100家,但还未有去中心化的数据共享平台出现。

随后,公信宝便上线了去中心化数据交易平台。彼时的互联网金融市场,买卖数据的现象随处可见,隐私泄漏问题异常严重。

黄敏强对锌链接表示,数据共享与隐私问题可以通过可信计算+区块链技术的方案来解决。“当可信计算运行在区块链上,就拥有了中立性强、合规性高、商务成本低的特点,从而使得商业中的通用型诉求如中立性、低法律风险、数据不泄漏、提升数据价值等得到解决”。

趣链科技搭建数据交易平台的项目稍晚,据其数据交易平台BitXMesh负责人汪小益向锌链接介绍,2018年年末BitXMesh立项并启动,大概半年后,一期产品上线,并在不断迭代的过程中。

汪小益称,趣链把整个项目称为“联邦计算”,主要分三步走。

首先是数据共享,利用趣链搭建的模型分发到各个数据中心,这些数据中心分属不同的机构或企业,共同配合完成一定的计算任务,称分步式计算。

其次是分布式的安全计算,借助TEE可行性执行环境,结合传输网络的安全,实现分布式的安全计算。

最后是联邦学习,这是谷歌在近几年提出的一种机器学习算法。趣链通过这套基于学习的平台,将分散性的机器进行模型训练,搭建综合更优秀的AI平台。

与公信宝和趣链所采用的软件+密码学结合的可信计算方式不同,Platon坚持采用纯密码学方式实现数据共享过程中的隐私安全。

Planton首席创新官唐虹刚向锌链接介绍,Platon属于这一领域实践较为早期的“首倡者和先行者”。 在密码学方面,PlatON的学术投入较大。数据流通和共享平台方案将于今年第四季度到明年上半年推出,包括数据使用权交易模块。“这一平台将基于MPC为核心的隐私计算技术,不依赖第三方硬件,实现Trustless下的数据隐私保护和数据确权,且具有更高的灵活性和通用性。”

唐虹刚认为,数据共享和流通未来将是一个非常重要的市场。未来,数据是继水电煤网之后第五个基础社会资源,预计市场规模肯定超过万亿美元。

黄敏强和唐虹刚的预测并非虚言,除了以上项目还有Trias、ARPA、TEEX等。

今年以来,除了这些原生态区块链技术公司,互联网巨头也纷纷抢滩数据共享与隐私安全领域。

蚂蚁金服在区块链技术的隐私保护领域动作不断,投资QEDIT研究零知识证明,并提出TEE+预言机技术方案。

蚂蚁金服向锌链接介绍:“支付宝十分重视区块链隐私保护技术领域,我们认为这个领域是未来各大区块链平台竞争力的核心体现。支付宝从密码学上的同态加密、零知识证明到基于硬件的可信执行环境(TEE)技术都进行了全面布局,并已经在不同的业务线上利用场景反复打磨。”

百度于今年3月份上线了基于区块链的数据流通平台XuperData。百度方向锌链接介绍,XuperData计算方案可以实现数据可用不可见,在保障组织机构数据隐私和安全的前提下实现组织机构信用数据共享。

“这一平台当前主要用于解决金融机构以及其他组织机构之间信息不对等问题,提升金融机构风控能力,减轻信贷风险,从而也解决企业特别是小微企业的信用贷款难的问题”。

区块链公司先行,互联网巨头涌入,数据共享与隐私安全保护这一赛道,注定越来越挤。


二、技术拆解:纯密码学与TEE硬件+密码学的较量

在当前的区块链基础架构中,隐私保护功能往往存在着隐私性、可拓展性、链上计算三个维度的“不可能三角”,这意味着任意两个维度都与第三者冲突。

区块链的隐私协议也经历了CryptoNote、Zk-SNARKs、TEE、MimbleWinble、以及Zether(Quorum)、MPC等的演进,应用范围不断扩大,从单纯的保护加密货币交易隐私升级到数据共享的流通隐私。

当前国内大部分公司的隐私路径采用MPC等纯密码学、TEE硬件+密码学的两种方向发展。纯密码学方向的主流做法是以MPC(安全多方计算)、零知识证明、同台加密等纯密码学方案,以Platon、ARPA等项目为代表。

唐虹刚向锌链接透露,MPC既能保证数据输入各方的隐私,又能输出正确的计算结果,且是一个成熟的密码学算法,是完全Trustless的。TEE则是依赖可信第三方提供的硬件来解决安全计算问题,使用TEE则必须信任其生产厂商。

“PlatON已经对两方计算进行了工程化实践和商业应用,多方计算的技术解决方案也已经完成,正在推动工程化落地,加速MPC计算的专用计算硬件也在研发中。”

相对于MPC的纯密码学路线,所需长期的学术投入和技术商业化研究,TEE(Trusted  Execution Environment)硬件+密码学的方式则更容易实现商业化落地应用,当前国内大部分公司都采用的是TEE硬件+密码学的方案,包括公信宝、趣链、蚂蚁区块链、百度XuperData等。

不同的公司项目采用的TEE硬件+密码学的特点也有所不同。

支付宝方介绍,“TEE+预言机技术”是因为支付宝判断区块链要在产业大规模落地,还需要突破单条链的局限性,让更多的链下实体参与进来,需要扩展出二层、三层的链下网络,与链上能力互补,形成新的协作网络。

百度称,XuperData是通过区块链构建一个去中心化的数据联盟,“TEE或者多方安全计算是数据联盟里面支持的两种安全计算方式,我们支持用户选择合适的一种来提供。”

趣链汪小益坦言,安全多方计算,就目前的技术手段来说,对参与方的数量是有限制的,三方相对可以的,但是往三方以上再去扩展,复杂度会呈现指数级上升。“我们认为目前这两个技术可以并行来用,但得看具体的场景能不能接受。”

就当前所需的场景,通过TEE或多个TEE之间共同组成计算网络达成计算任务对于趣链来说,是更合理的一种技术路线。

由此,隐私技术协议的演化路径反映了市场需求的方向,对于企业而言,自身商业模式选择决定了他们所采用技术的发展路径。


三、技术的“现实妥协”

MPC安全多方计算最早可以追溯到中国科学院院士、图灵奖获得者姚期智院士1986年以混淆电路为主题的系列论文,姚期智是conflux联合创始人、首席科学家。

然而,据conflux研究总监杨光向锌链接介绍,关于数据共享与数据隐私领域,目前conflux并未有太多的投入,只是未来的一个研究方向。

杨光称,安全多方技术、零知识证明、同态加密是不同使用场景下的数据隐私保护的方向,包括TEE+密码学叠加的方式,“就像造汽车一样,你是搞电动的还是烧油的,如果是电动的,采用三元锂电池或是其他,里面其实存在很多的技术细节。”

在杨光看来,安全多方计算十年前在丹麦就已经有人在用,不过不是在区块链上。主流的多方计算技术,很多都是以有服务器、用户,或几个用户之间,基于他们的通讯模型去做研究,并不在区块链上,因此直接把它搬到区块链上肯定会水土不服。

MPC、零知识证明这些密码学技术,大部分是通过可验证计算来实现,而可验证计算往往需要大量用户间的频繁交互运算。

以零知识证明为例,假设两个人手里分别拿了两个不同颜色的球,需要他们之间一来一回的频繁互动,通过概率的方式证明他们手里的球是不同颜色的,而不能确知球的颜色具体是什么。

在区块链上进行多方的大量不同交互运算,以当前的技术几乎很难实现。因此,大部分企业选择了线下交互运算,然后把结果上链,但这样一来,隐私安全性也就打了折扣。

至于TEE硬件+密码学的方式,杨光认为,这个问题很简单,只要用户确信硬件厂商不会私下保存硬件密钥,那这方案对用户来说就是安全的。“但实际上,这始终不如完备的数学假设的安全性来得靠谱,攻击密码学技术安全性,需要把市面上某些密码学上公开的假设给攻破,这是非常难的。”

因此,纯密码学技术应用,目前不大可能实现大规模的商业化应用,而TEE+密码学的使用,只是技术为现实应用场景需求的妥协罢了。

技术未满,现实的场景应用需求紧急程度也不一样,但需求规模却不断增长。

百度认为,电子政务和金融行业是两个比较好的应用场景。一方面金融机构作为数据的需求方无法高效的引进高质量数据支撑风控模型。另一方面,拥有丰富的高质量数据源的相关组织机构在提供数据的过程中,担心数据隐私泄露,数据共享困难重重。

趣链汪小益则认为不同行业的信息化水平,数字化以及智能化水平不一样,所以当前来看对这个需求的紧急程度不一样。

金融属于信息化程度较高的应用场景,其次是政务、医疗,当前物联网在全面铺开这样的情况下对隐私安全的需求越来越迫切,因此数据共享与隐私安全在金融、政务、医疗、物联网,呈现较强的需求紧急程度。

在趣链和Platon 的规划中,区块链技术与人工智能技术的结合使用是未来可预见的发展方向。

趣链以联邦学习为第三步发展方向。而唐虹刚则称,未来PlatON会以隐私AI为重点发展方向,基于隐私计算实现的AI算法分析,可消除数据源之间的交互壁垒,通过数据的多样性来提升AI算法的处理能力与数据覆盖维度。

由最初的加密货币隐私协议向数据共享与隐私安全保护领域拓展,区块链的隐私协议经历了一系列的技术演进,在金融、政务、医疗、物联网应用场景需求不断爆发的今天,隐私安全计算的技术实现似乎心有余而力不足。

然而,正如吴刚在《浪潮之巅》中对苹果公司的评论:“乔布斯改变时间的发明绝非一时的灵感所致,而是数十年的深思熟虑和经验积累......大部分产品经理之所以做不出改变世界的产品,是因为他们只看见了成功者最后的临门一脚,而忽视了人的长期思考。

相信在数据共享与隐私安全领域的技术发展,成功者临门一脚的那天会很快到来。

编辑声明:互链脉搏是共享、共建的区块链内容发布平台。进驻内容创作者需遵守《互链脉搏投稿须知》、《互链脉搏专栏号平台服务协议》、《互链脉搏平台运营规范》等平台规定。文章内容为作者个人观点,不代表本站立场且不构成任何投资建议 。本站拥有对此声明的最终解释权。
如果读者发现稿件侵权、失实、错误等问题,可联系我们处理:blockob2018@163.com
0

参与评论

最新评论