
地址:北京市东城区建国门内大街26号新闻大厦7-8层
电话:86 10 8800 4488, 6609 0088
传真:86 10 6609 0016
邮编:100005
国枫视角
国枫观察 | 区块链 + 隐私计算——生成式AI的“金牌辅助”



人工智能已经成为了社会运转不可或缺的先进技术力量,其背后的合规风险亦需结合先进技术手段进行防控。本文以MOBA游戏的团队协作机制为喻,阐述区块链与隐私计算技术,在生成式AI的数据源验证、个人信息保护、跨境流动等合规场景下的协同防控作用。
作者:潘凯文
一、引言
作为一款现象级MOBA(多人在线战术竞技)手机游戏,《王者荣耀》的核心魅力在于其团队协作机制:坦克承担防御、刺客负责突袭、法师提供控制、射手专注输出,而辅助则通过治疗与保护维系全局平衡。这种分工明确、能力互补的“打团”模式,恰似生成式人工智能(Generative AI)(以下统称“生成式AI”)、区块链与隐私计算技术融合的隐喻——生成式AI如同团队中的“输出核心”,以其强大的内容创造力推动社会生产力革新;区块链则扮演“坦克”角色,以去中心化、不可篡改的特性构建数据确权与流程溯源的防御体系;隐私计算则像“辅助”,通过加密与分布式计算技术为数据流动提供安全保障。三者协同,方能实现技术生态的“推塔”(合规风险化解)与“拿龙”(价值释放)的双重目标。
二、生成式人工智能简介与风险图谱
谈到AI,与我们日常生活最“亲密”的形态,莫过于“生成式AI”,而应用最为广泛的细分应用,就是基于大语言模型(LLM)而生的AI应用。如我们熟知的:外有OpenAI旗下ChatGPT、Google公司Germini、Anthropic公司Claude,以及马斯克号称“最聪明AI”的Grok等等;内则有深度求索的DeepSeek、月之暗面的Kimi,以及各大厂不断推陈出新的各类AI产品。除此之外,还有专注于图像、视频领域的各类AI应用,诸如Sora、MidJourney等等,不再逐一赘列。
欧盟《人工智能法案》对于人工智能系统给出的定义是,“一种基于机器的系统,设计为以不同程度的自主性运行,在部署后可能表现出适应性,并且为了明确或隐含的目标,从其接收的输入中推断如何生成可影响物理或虚拟环境的输出,如预测、内容、建议或决定。”但《人工智能法案》并未进一步定义“生成式人工智能”。我国《生成式人工智能服务管理暂行办法》(以下简称《暂行办法》),将“生成式人工智能技术”定义为“具有文本、图片、音频、视频等内容生成能力的模型及相关技术”。结合《人工智能法案》的定义,笔者认为,生成式AI的核心特征在于“无明确指令下的自主内容生成能力”。但,关于生成式AI的分类形色各异,不一而足。但无论是哪种形态的AI模型,均离不开AI“三大要素”中的数据,用于模型生成、训练、结果输出等。而当前广泛应用的生成式AI领域所面临的数据合规风险已呈多维度扩散态势:
(一) 数据来源合规性风险
1. 未经授权的数据采集
生成式AI模型训练需要海量数据,数据量往往成为模型性能的核心竞争力之一。近期,有关AI合规话题讨论频率最高的莫过于训练数据的采集和利用。例如,通过爬虫技术抓取网络数据时可能未经授权收集个人信息或受版权保护内容。就在今年,作为“大模型六小虎”之一的希宇科技(MiniMax)旗下海螺AI,因可能涉及未经授权使用了爱奇艺享有版权的素材进行模型训练,由此引发了涉及数据来源合法性相关的诉讼争议[1]。类似案件在国外也面临巨大争议和风险,如2024年,OpenAI因未获用户同意使用个人数据训练模型,遭意大利隐私监管机构Garante处1500万欧元罚款[2]。
2. 公开数据的超范围使用
AI的训练数据中有相当一部分的体量来自于公共数据,其中自然有很大概率包含了在互联网等媒介已经公开的数据,特别是个人信息。根据《个人信息保护法》第27条规定,处理已公开个人信息并非没有边界,而是要求需在“合理范围”内。但源于生成式AI的“涌现”特性,其对公开数据的“深度解析”能力,将可能因各种原因突破“目的限制”或“场景限制”从而导致超出合理范围。
(二) 个人信息保护维度的合规风险
1. 知情同意规则失效
《个人信息保护法》第13条、第14条确立了“知情同意”的个人信息处理规则。然而,生成式AI的“技术黑箱”特性,导致诸如LLM等生成式AI模型在通过无标注数据预训练时,开发者无法明确告知用户其个人信息如何被用于模型优化,导致“向个人信息主体充分告知数据处理目的”的合规要求无法得到满足,从而产生合规风险。
2. 敏感信息的泄露
用户输入的个人信息可能被留存并用于模型迭代,其中可能包含诸如用户输入的医疗记录、行踪轨迹等敏感个人信息,乃至可能构成商业秘密的数据等。这些数据可能通过生成式AI模型被深度处理后进行输出,如果不能通过一定的控制机制或算法加以限制,将可能进一步衍生出隐私泄露风险。
3. 数据留存与删除难题
根据《生成式人工智能服务管理暂行办法》第11条,明确要求生成式AI服务提供者需避免非法留存能够识别使用者身份的输入信息和使用记录等信息。基于生成式AI的自主学习特性,即便服务提供方实施了相关制度要求,但模型仍可能在学习过程中产生冗余数据留存,从而引发风险。
4. 跨境数据流动风险
如前所述,用于训练的数据中可能包含大量公开个人信息。由于技术、算力、成本等各种因素影响,导致这些包含个人信息的训练数据可能因涉及跨境传输,而需满足各法域下关于个人信息跨境的合规要求。一旦被监管机构介入审查,将可能因此导致巨大的合规风险。
(三) 数据滥用与安全风险
1. 深度伪造与欺诈
生成式AI不仅仅只是活跃在LLM领域,AI图像、视频、声音的生成同时也是生成式AI的“绝活”。AI换脸、拟声等技术不断发展完善的同时,也可能被不法分子加以利用进行诈骗等违法犯罪活动。
2. 算法偏见与歧视
通过人工标注的数据投喂大模型进行学习的方式,确实在当下的技术背景下能够有效提高生成式AI大模型的思维效率和精度。但同时,由于数据本身的质量、数据在人工标注过程中的理解误差、以及大模型学习过程中的结果修正等多种原因,也容易导致AI输出带有偏向性、歧视性的内容,侵害到他人的合法权益。较为著名的案例如,2018年亚马逊公司的自动招聘算法被发现倾向于给关键词含“女”字的简历打低分,降低了女性工作申请成功率[3],最终导致了负面影响的产生。
以上这些在生成式AI领域存在的合规风险,如同游戏中的“野区迷雾”,若不借助技术协同治理,极易造成相关主体的权益受损,引发监管盲区与法律责任,严重者将可能阻碍AI技术的发展速率,给企业造成巨大的商业损失。
三、区块链与隐私计算的技术进展:从“单兵作战”到“团战配合”
区块链技术通过分布式账本、智能合约与哈希加密,实现数据的不可篡改性与全程可追溯性。
隐私计算则包含多方安全计算(MPC)、联邦学习(FL)、可信执行环境(TEE)三大主流技术,确保数据“可用不可见”。(有关隐私计算的详细介绍,可参见笔者团队撰写文章《浅析隐私计算与数据合规——随技术聊合规,用技术促合规》
近年来,区块链领域主要聚焦于跨链互操作、绿色化、数字身份等应用方向,而隐私计算则通过MPC、TEE、同态加密等技术的不断更迭更为高效地实现数据交互过程中的安全与合规。同时,区块链和隐私计算技术的融合创新逐步成为数据安全领域的主流趋势。如结合区块链存证与联邦学习保障隐私与合规的“微众银行WeDPR-PPC平台”、以及通过“双盲匿踪算法”实现数据查询双方匿名化,并实际应用于金融反欺诈及政务数据共享等场景的“蚂蚁链FAIR平台”等等,都是两种技术融合以强化合规保障的良好实证。两种技术协同,已从理论探索迈入规模化落地阶段,产生了“1+1>2”的效果,为生成式AI合规提供了充足且多样的“装备库”选择,并正加速与AI、IoT等技术的融合,推动数据安全与价值释放的双重目标。
四、区块链和隐私计算技术的“团队”价值简述
生成式人工智能的迅猛发展犹如一场激烈的团队竞技,其核心能力如同队伍中的主力输出,而区块链与隐私计算则扮演着不可或缺的辅助角色。正如团队竞技中输出位需要辅助提供视野保护、资源调度和风险预警,生成式AI若缺乏合规技术的支撑,极易在数据来源、隐私保护等环节遭遇"致命打击"。如“谷歌2.5亿欧罚款[4]”等案例,在生成式AI产业发展道路上将可能不断层出,恰似主力输出脱离团队保护后的“发育”危机——深刻揭示了技术生态中价值释放、合规体系构建及技术支撑多维协同的重要性。
(一) 数据来源的合法证明:构建全局视野的地图系统
区块链存证技术是一种基于区块链的分布式、去中心化数字存证方式,通过哈希算法、时间戳、多节点共识机制等技术手段,确保电子数据的完整性、真实性和不可篡改性。
正是基于此种特性,生成式AI的数据来源合法性的痛点可以通过区块链存证的思路来予以解决。
首先是采集路径的合规验证。区块链可完整记录训练数据的采集路径,包括数据来源、授权协议、使用时间等关键信息。如通过区块链存证系统将训练数据的采集路径或授权协议等哈希值上链,形成清晰的授权链条,权利方或监管机构即可通过比对哈希值验证数据来源的合法性。这种机制如同为数据贴上“数字出生证明”,确保数据从采集到使用的全流程透明可查。
其次是对数据修改的监测。通过哈希值上链,区块链可证明训练数据在特定时间点的原始状态。例如,将绘画类AI模型的数百万张训练图片哈希值实时上链后,任何后续修改均会被系统检测,从而规避侵权风险。这一特性可能尤其适用于生成式AI需处理的海量异构数据,以防止数据篡改引发的法律纠纷。
由此可见,区块链技术恰似游戏中的地图系统,可以为生成式AI所需的训练数据流动绘制出完整的"全图视野",实现数据来源合法性自证的同时也能实时监测流动状态,以规避可能存在的风险。
(二) 个人信息保护:“分线发育、协同推进”的合规保障机制
生成式AI的发展和应用,本质上是为了人类的需求而服务。因此在训练数据中,与人类连接最为紧密、最能有助于生成式AI智能化的数据,莫过于个人信息。因此,如何有效地保护个人信息的安全以及个人信息主体的合法权益,是生成式AI数据合规面临的核心痛点之一。
在知情同意方面,区块链技术可以对服务提供方的告知流程以及用户的同意确认进行完整客观记录,确保用户的个人信息是基于充分告知和自主同意下作出的,以此充分印证企业在处理个人信息前已满足知情同意的合规要求。
在个人信息作为训练数据的使用环节,由于个人信息在“去标识化”和“匿名化”之间的标尺度量,一直是数据合规领域充满争议的话题之一,如何有效满足处理行为中的个人信息保护要求,成为了技术领域研究和应用的重要课题。基于隐私计算中“差分隐私技术”的技术特性,通过在个人信息的调用过程中添加噪声,使得即使这些经过特殊处理的个人信息被大量获取后,也很难通过数据分析还原特定个人信息,从而实现了犹如“元歌”一般的“替身人偶”效果,使攻击者无法精准锁定被保护的个人信息。
在个人信息进行跨域的交互处理(如共同处理、委托处理等场景)时,如何确保个人信息“可用不可见”的同时,最高效地实现运算的协同和需求结果的准确输出,也是目前业界最为关注的焦点之一。隐私计算中的联邦学习(FL)、多方安全计算(MPC)、以及可信执行环境(TEE)等技术解决方案,可以让处理者针对AI训练数据在不同的交互场景和需求下,实现受保护的个人信息在技术层面始终处于“原始数据不出域”“数据可用不可见”的隐匿状态,更贴近满足《个人信息保护法》对数据处理“去标识化”等处理要求。通过隐私计算基础实现生成式AI"协同推进,分线发育"的模式,完美平衡了数据价值挖掘与隐私保护需求。
(三) 数据跨境流动:打造传送阵式的合规通道
监管机构对于数据跨域的合规和风险关注,相较常规的数据处理场景而言往往可能更为严格,因此各国对于数据出域均设置了审批、清单等制度来予以监管控制,但本质上仍然是通过合规要求实现对数据主体利益的保障诉求。如上所述,将区块链技术的“不可篡改”特性以及隐私计算“可用不可见”“数据不出域”等特性进行融合,正在成为跨境数据治理的主流解决方案。
具体而言,基于区块链技术的特性,如通过区块链技术将数据流动环节中包括权利方、需求方、监管方加入到区块链节点中,可以实现身份认证、加密存证、规则执行以及监控审计等效果,确保在区块链框架所构建的域内数据流动得到有效监管和保障。而隐私计算中的“数据可用不可见”“数据不出域”等技术特性,可以在部分特定场景下合理“避开”数据跨境审查的构成条件,在满足合规的同时大幅提高数据利用的效率;即便在需要满足审查要求的场景下,隐私计算的结合使用,也能够成为数据安全保障评估中直接、有效、客观的证明要件。
“区块链+隐私计算”已经逐步成为当下流行的合规解决方案。例如,粤港澳大湾区通过“区块链+联邦学习”构建跨境数据验证平台,以此保障数据跨境流动的安全,促进数据价值的不断开发和利用[5]。未来,随着量子加密、AI驱动的动态脱敏等技术发展,两者将进一步降低合规成本,支撑全球数据要素市场建设。
(四) 算法偏见治理:建立“训练模式”的纠错机制
生成式AI中的算法偏见问题,既有技术原因,更存人为因素。区块链的分布式账本和哈希存证技术,在完整记录训练数据的采集路径、标注过程及预处理操作同时,可以通过结合智能合约技术,自动检测数据集的群体覆盖偏差,触发数据再平衡机制,避免人为纠差导致的偏见可能。这种透明化溯源机制能有效识别数据源头的系统性偏见。
同样基于区块链的不可篡改特性,可以进而为算法决策链提供可信审计路径。企业可将模型的中间决策参数(如关键词权重、特征提取规则等)实时上链。当发现存在偏见或歧视风险时,企业可通过链上记录回溯模型训练过程,定位偏见产生环节(如标注规则偏差、特征工程缺陷等),正如王者游戏中“训练模式”中的回溯机制,能够及时发现并回溯风险成因,从而针对性进行纠偏,遏制风险的产生。
五、团战”中的迷雾:技术组合拳的未竟之役
尽管“生成式AI+区块链+隐私计算”的组合技初显成效,仍面临三重“高地防御”,包括但不限于:
1. 技术成熟度局限:联邦学习的通信开销、同态加密的计算延迟可能影响生成效率等等,仍然可能严重影响大规模数据共享、实时交互等场景的数据处理效率。
2. 法律适配滞后:现行法规架构目前尚未明确隐私计算的法律效力,区块链存证及隐私计算本身的合规性以及合规治理效果,在司法领域和行政监管领域的采信标准亟待进一步细化和明确。
3. 跨生态协作壁垒:在跨域场景中,企业以“区块链+隐私计算”融合架构实现合规的同时,势必会伴随大量成本的投入。而不同区块链网络的交互操作,也必然会因技术的差异而产生适配、协同等问题,带来的也必将是更大的技术难题和更大的商业成本。据此,如何通过技术和协议将不同合规技术应用进行标准化,是摆在未来的又一道大难题。
六、结语:从“五杀超神”到“可持续推塔”
生成式AI的合规治理,绝非单一技术的“单带偷塔”,而是需要区块链、隐私计算与监管框架等多维角色的“团战配合”。正如“王者荣耀”中胜利依赖团队的经济共享与技能衔接,技术协同生态的构建亦需数据要素的合规流动、算法的透明可控与权利的清晰界定。未来,随着《人工智能法》立法进程加速与联盟链技术的成熟,“生成式AI+区块链+隐私计算”的“开黑车队”或将引领合规治理的“逆风翻盘”,最终实现技术创新与法律秩序的双重“Victory”!
查看脚注
[1] 案例来源:https://baijiahao.baidu.com/sid=1820741412471672356&wfr=spider&for=pc
[2] 案例来源:https://baijiahao.baidu.com/s?id=1818974075213244701&wfr=spider&for=pc
[3] 案例来源:https://www.fromgeek.com/hot/1084-199083.html
[4] 案例来源:https://baijiahao.baidu.com/s?id=17945976384match34020427&wfr=spider&for=pc
[5] 案例来源:https://www.thepaper.cn/newsDetail_forward_27309317