《(4.16)--对人工智能发展与数据合规的思考.pdf》由会员分享,可在线阅读,更多相关《(4.16)--对人工智能发展与数据合规的思考.pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 72 0 引言在新一轮科技革命和产业变革不断重构全球创新版图、重塑全球经济结构,以及数据法律制度加速完善、数据合规要求持续趋严的双重背景下,如何平衡人工智能产业发展与风险防范成为当前及今后的重点难题。从全球范围看,国内外一系列立法正为人工智能发展与安全之间建构合理边界,尤其是对人工智能相关的数据合规提出了新要求。例如,2022 年 1 月 4 日我国出台互联网信息服务算法推荐管理规定以规范通过人工智能进行算法推荐的活动;2022年1月20日欧洲议会表决通过 数据服务法(Digital Services Act),强调在使用人工智能技术进行服务推荐时,不得使用欺骗或者诱导技术通过算法黑箱影响用
2、户选择1。2022年2月,美国议员提出 2022年算法责任法案2,对人工智能发展与数据合规的思考 摘要:人工智能的发展对数据有较高的依赖度。因个人信息保护立法的加严,对于人工智能产业获取优质数据带来了一定负面影响。在这一背景下,人工智能发展不仅要进行持续技术研发,还需通过数据合规手段提高数据处理的合法性水平。具体而言,可将“数据可用不可见”作为促进人工智能数据合规的突破口,通过数据分类分级夯实人工智能数据合规水平,在执法和司法实践中探索宽窄适中的个人信息范围,并不断通过多种手段对人工智能行业数据处理者利用个人信息的行为给予更充分制度保障。关键词:人工智能;数据合规;数据可用不可见;个人信息中图
3、分类号:TP18 文献标志码:A 文章编号:2096-5036(2022)01-0072-09DOI:10.16453/ki.ISSN2096-5036.2022.01.008数据与算法治理AI-VIEW2022 年第 1 期 73 (腾讯研究院,北京 100080)对人工智能发展与数据合规的思考 目前行业内对优质数据的内涵和外延还没有清晰的认识,文中优质数据泛指数据质量较高、具有较大分析价值,且分析成本较低的数据。指令联邦贸易委员会对自动化决策系统的影响提出评估要求。用好数据合规手段成为为人工智能发展保驾护航的重要手段。1 人工智能的发展高度依赖优质数据1.1 人工智能靠数据和技术双向驱动人
4、工智能靠数据和知识“双轮驱动”,数据越多越智能。一方面,数据是人工智能、量子计算等新技术发展应用的基础;另一方面,基于数据的预测与决策,持续给经济社会发展注入新动能3。2016 年至今,深度学习(Deep Learning)依然是人工智能发展的技术主线4。这一技术主要通过给计算机提供大量数据来自主学习,找出蕴含的内在规律,进而对新情况新问题进行预判,因此也被称为“学习算法”(learning algorithm)。其一方面需要在算法技术上不断取得突破,另一方面尤其仰赖优质数据的供养。这两方面有效结合并不断完善的深度学习模型,不仅在相关人工智能技术提升中发挥了重要作用,而且在助力其他科学研究中也
5、不断取得重大突破。例如,在生命科学领域,人工智能助力生命科学攻克近 50 年都未能突破的蛋白质 3D 结构难题。以往生物科学家主要通过核磁共振、X 射线、冷冻电子显微镜等方式重复实验、逐个探索,这类方式存在经济成本高、花费时间长等问题,按此种方式识别的蛋白质 3D 结构尚不足 20%。1972 年,克里斯蒂安安芬森(Christian Anfinsen)在诺贝尔化学奖获奖感言中提出了著名假设:理论上来说,蛋白质的氨基酸序列应该完全决定其结构。人工智能通过“技术+数据”的方式在验证这一假设并促进生物科学研究中发挥了巨大作用。首先科研人员研发了一种深度学习算法,然后在包含约 17 万个蛋白质序列及
6、其形状的公共数据库中对该算法进行训练。经过优质数据的不断训练,该模型预测蛋白质结构的准确性不断提高并取得了重大进展,目前利用该人工智能模型单通过氨基酸列就可较为准确地预测蛋白质 3D 结构,极大地加速了科学研究,并将人类蛋白质 3D 结构预测范围覆盖到了 98.5%5。1.2 当前人工智能应用场景对个人信息具有强烈需求随着人工智能的发展,其逐渐向大众生活更为密切的领域扩展,智能理财、智能语音、智能购物、增强现实、虚拟现实等场景和技术的发展都离不开对个人信息的处理。而且,从移动互联网演进到人工智能时代,数据的二元属性将更加突出。数据越来越具有私密性,深入到用户各个生活场景,覆盖广度和挖掘深度将不
7、断增加6。也即越与大众生活密切相连,所需的训练数据则越会涉及到个人信息。出于个人信息蕴含的巨大经 74 济社会价值和信息自由的客观要求,人工智能产业发展、政务管理和科技创新都迫切要求通过交易、交换、转移等多种形式使得数据能够为不特定的人所使用7。然而,当前加大保护个人信息的呼吁,一定程度上增大了将数据用于人工智能的法律风险。1.3 保证优质数据资源供给是促进人工智能发展的重要手段人工智能深度学习技术天然要求优质数据资源供养。优质数据资源可大幅提高人工智能学习效率。这些数据除了开放使用的公共数据以外,主要依赖人工智能研发企业自身的收集和处理。故一方面,应加强保护企业数据权益,为人工智能创新发展提
8、供坚实的基础8,另一方面,单一人工智能发展企业所掌握的数据毕竟有限,诸多场景下人工智能技术的发展离不开更丰富的数据获取渠道,在获取数据并进行分析的活动中应提高数据处理的合法性。目前世界各国对于违法处理数据尤其是违法处理个人信息均规定了较为严厉的行政处罚和刑事责任,在未能保证其合法性之前,由于数据获取所存在的较大的法律风险,会极大地打击企业获取数据的积极性。如果这一问题长期得不到解决,将可能造成人工智能产业因数据匮乏而发展受损。2 把“数据可用不可见”作为促进人工智能数据合规的突破口2021 年 12 月 17 日中央全面深化改革委员会第二十三次会议审议通过了关于加强科技伦理治理的指导意见(以下
9、简称意见),意见从科技伦理的高度,采取事前体制机制建设方法,提出促进创新与防范风险相统一、制度规范与自我约束相结合,强化底线思维和风险意识。对于人工智能而言,做好人工智能数据合规,健全“数据可用不可见”是从体制机制上保障促进人工智能发展的重要手段。2.1“数据可用不可见”是保障人工智能数据利用合规性的重要方式保障人工智能数据利用合规性需要系统化的方式,人工智能数据利用与数据要素、数据产权等基础制度建设都密切相关。以数据产权为例,目前对于数据产权界定尚无统一方法,场景化界定是未来的趋势,但依然难以清晰区分数据之上各权利人享有权益的种类和多寡9。在这样的背景下,在特定领域通过特定手段提升数据合规水
10、平就是更为科学和可行的选择。“数据可用不可见”可一定程度上暂时越过对数据产权争执的泥淖,从增加数据处理合法性事由的角度对数据处理规则进行探索,这对于打通数据使用通道、破除数据流动壁垒、化解数据孤岛,以及提高沉淀数据的利用效率方面具有重要意义。以沉淀数据为例,因为一方面识别沉淀数据的主体并进行告知的难度极大、经济成本极高;另一方面数据处理者在很多情况下已丧失了沉淀数据主体的联系方式,客观数据与算法治理AI-VIEW2022 年第 1 期 75 上无法实现告知。对这类数据的合法使用尤其需要创新制度安排,通过技术手段在保证数据可用性的前提下,以数据不可见的手段获得数据处理的合规性,提高数据利用效率。
11、目前对于“数据可用不可见”已有了诸如联邦学习、受控的安全计算环境等实现方式,也具备一定行业实践基础10。2.2“数据可用不可见”对数据合规的价值在政策层面不断得到确认“数据可用不可见”作为一种通过技术方式实施数据合规的手段,总体上看,这类数据合规技术一直面临通信开销大、性能效率低、传输复杂度高、与主流技术体系磨合不佳等瓶颈11,产业界对于“数据可用不可见”可否认定为完整地履行了数据合规义务亦存在分歧。有的认为数据可用不可见未能解决数据合规问题,有的认为数据可用不可见完成了数据合规要求。2021 年 1 月,工业和信息化部办公厅关于组织开展2021 年大数据产业发展试点示范项目申报工作的通知首次
12、在国家部委文件层面提出:鼓励探索构建“数据空间”“数据可用不可见”等流通共享新模式、新路径。3 月,北京国际大数据交易所成立,也提出致力于通过新型数据交易平台,采用多方安全计算、联邦学习等技术,支撑数据使用权交易,实现“数据不搬家、算法多跑路”。这一探索在 2022 年 1 月发布的国务院办公厅关于印发要素市场化配置综合改革试点总体方案的通知(国办发 2021 51号)中再度体现,并首次在国务院文件层面正面肯定了“原始数据不出域、数据可用不可见”的交易范式。综上,从国务院到部委到地方的探索,可看出政策层面总体上肯定了“数据可用不可见”的制度价值。2.3“数据可用不可见”最缺乏之处乃对制度内容的
13、细化政策层面的肯定为通过“数据可用不可见”免除数据处理者的告知义务提供了可能。但“不可见”的具体方式还不够明确,需数据处理者、执法机关、司法机关在实践中不断探索,寻找出既符合行业实践又符合法律要求的成熟操作方案。3 通过数据分类分级夯实人工智能数据合规水平数据分类分级是数据治理制度精细化的基石。人工智能所涉数据的复杂性及对数据利用的高要求,需要通过精细化的数据分类分级实现精确的数据合规。以往立法分行业分领域规定了分类分级制度。20 世纪 70 年代前后尤其在 2000 年以后,在数十余部法律、行政法规、部门规章中,针对不同行业领域均建立了“分类”“分级”“分级分类”或者“分类分级”管理等制度。
14、中华人民共和国数据安全法(以下简称数据安全法)首次确定了数据领域的分类分级制度,其第二十一条规定:“国家建立数据对人工智能发展与数据合规的思考 76 分类分级保护制度”。分类分级的思路大体等同于“具体问题具体分析”,但数据分类分级的难度远大于现有的其他分类分级制度。各部门还在进行探索,例如 2022 年 2 月10 日公布的工信部工业和信息化领域数据安全管理办法(试行)(征求意见稿)对数据分类分级进行了细化、规定。2021 年 11 月国家网信办网络数据安全管理条例(征求意见稿)也选取数据分级进行了细化。但目前制度建设层面,缺乏对数据分类作出实质性的规范,已有的一些涉及分类分级的标准及规范性文
15、件执行情况欠佳。在具体的数据合规中尚难给予数据分类分级较为精细、清晰的合规指引。3.1 数据分类分级的诸多痛点和难点3.1.1 分类分级的对象具有复杂性、动态性,且质量参差不齐表现为:(1)作为数据分类分级的对象,数据存在多种形态,包括数据元(data element)、数据记录(data record)、数据表(data table)、数据库(database)等,使得数据分类分级过程中较易出现分类分级对象处于不同维度的问题,增加了分类分级的复杂性。(2)对于某一数据处理者而言,因为数据收集、加工、删除等原因,其所控制的数据几乎时刻处在变化中,这种变动性对数据分类分级提出了新要求,增加了分类
16、分级的难度。(3)实践中,虽然各行各业都积累了大量数据,但数据质量参差不齐,对于结构化的数据而言,较易通过技术手段进行分类分级;但对于非结构化的数据,分类分级的难度则十分巨大。3.1.2 分类分级的标准较为主观、宏观具有不确定性一般分类分级的对象,比如植物分类、动物分类,其分类标准具有客观性。但数据分类分级的标准具有客观性和主观性相结合的特征。在主观性判断标准中,至少包含以下因子:数据的重要性、数据泄漏或者破坏所造成的影响对象、影响范围和影响程度、对数据的监管要求、数据的价值再挖掘的可能性,而且这些主观性的标准又相对比较宏观,缺乏定量分析,进一步增加了数据分类分级的不确定性。3.1.3 分类分
17、级的技术工具较为缺乏目前开展对数据进行自动化分类分级的技术工具尚较为缺乏,已有的技术工具主要集中在对结构化数据的分析上,对于大量非结构化数据缺乏有效的自动化分类分级方法。3.1.4 分类分级与正常业务开展之间存在一定冲突同一数据处理者内部不同业务之间对同一数据的分类分级可能会持不同的观点,因数据与算法治理AI-VIEW2022 年第 1 期办法在第八条【分类分级方法】中规定:根据行业要求、特点、业务需求、数据来源和用途等因素,工业和信息化领域数据分类类别包括但不限于研发数据、生产运行数据、管理数据、运维数据、业务服务数据等。根据数据遭到篡改、破坏、泄露或者非法获取、非法利用,对国家安全、公共利
18、益或者个人、组织合法权益等造成的危害程度,工业和信息化领域数据分为一般数据、重要数据和核心数据三级。工业和信息化领域数据处理者可在此基础上细分数据的类别和级别。条例第五条规定:国家建立数据分类分级保护制度。按照数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,将数据分为一般数据、重要数据、核心数据,不同级别的数据采取不同的保护措施。国家对个人信息和重要数据进行重点保护,对核心数据实行严格保护。77 为过严的数据分级将降低业务效率,这种冲突可能导致数据分类分级效率低下,使得数据处理者不愿开展、不想开展、不敢开展分类分级工作。3.1.5 分类分级往往受成本收益影响数据分类分级工作会消
19、耗大量人力财力,甚至导致业务的临时中断。在满足国家监管需要的前提下,当从数据挖掘利用的经济收益角度出发,发现分类分级成本大于收益时,将大幅降低数据处理者深度分类分级的主动性。3.1.6 分类分级的结论具有暂时性对于某一分类分级结果而言,随着偶发因素的出现,以及数据分析能力等的变化,都可导致数据分类分级的结果发生变化,增加了数据分类分级的不确定性,使得分类分级的结论具有暂时性,需要定期进行调整。3.2 完善数据分类分级制度四点建议3.2.1 提高数据质量建立良好的数据分类分级基础不同行业、不同领域、不同数据处理者的数据质量不同,分类分级的条件不一,难度不同。建议在数据收集、存储环节就提高数据质量
20、,建立先行的数据全生命周期管理制度,筑牢数据分类分级基石,提升数据分类分级效率。3.2.2 确立基础性原则为行业数据分类分级提供指引目前,各行各业对数据分类分级的研究尚不够成熟,按照新兴领域立法宜粗不宜细的精神,先确定数据分类分级的原则,对于具体分类标准留待实践中逐步探索,有助于在立法的原则性和具体规范的灵活性之间建立有效平衡。这些原则在已经制定的金融行业标准金融数据安全 数据安全分级指南(JR/T 01972020)、证券期货业数据分类分级指引(JR/T 01582018)等标准中均有体现,包括:合法合规原则、自主性原则、客观性原则、可执行原则。具体为:合法合规原则,指保证不同层级的立法之间
21、有关数据分类分级的规定相互衔接,为各行各业提供清晰指引。可执行性原则,指保证数据分类分级标准的可执行性,避免过于复杂,丧失可操作性。自主性原则,指各行业各领域各主体可结合自身数据治理需要,自主开展所在本行业、本领域、本主体范畴内的数据分类分级工作。客观性原则,指数据分类分级规则是客观、可校验的,即通过数据自身属性,结合分类分级规则即可判断其属性,且数据的分类和定级是可通过分类分级规则进行复校和检查。3.2.3 鼓励数据技术研发,提升数据分类分级自动化管理水平数据技术是数据治理的重要纬度。数据分类分级自动化管理水平受制于人工智能技术的发展,建议通过立法鼓励数据技术研发,对于开发相关数据分类分级技
22、术的产品、组织给予政策、税收上的优惠。对人工智能发展与数据合规的思考 78 3.2.4 继续分行业分领域探索,通过法律实施积累分类分级经验目前,不同细分行业、不同领域、不同数据处理者的数据内容不同,分类分级的目的、条件不一,“一刀切”地确定固定的数据类别,不利于数据分类分级实践的发展。近年来,各部门、地方政府陆续推出了针对企业、数据等多个对象的分类分级制度,已积累了诸多经验,建议继续分行业探索积累经验。4 在个人信息处理的安全与利用中建立新平衡总体上看,目前世界各国在数据保护和数据利用方面还缺乏较为有效、合理的制度和安排,都在加紧探索中,比如欧盟在 2020 年 2 月提出了欧洲数据战略12通
23、过创设数据空间的方式提供数据利用效率。我国在 2021 年也发布了中华人民共和国数据安全法中华人民共和国个人信息保护法(以下简称个人信息保护法)等立法,在立法目的中均强调了“促进数据开发利用”“促进个人信息合理利用”等内容。针对人工智能涉及的数据保护与利用,如同一枚硬币的两面,对其中关键数据,尤其是个人信息的处理更需在人工智能产业发展与数据安全保护之间保持平衡。具体而言,可从以下两方面进行探索。4.1 避免个人信息范围过度泛化个人信息保护法基于对个人信息的强保护,确立了与中华人民共和国民法典相比较为宽泛的个人信息概念,用“相关说”替代了“识别说”,规定以电子或者其他方式记录的与已识别或者可识别
24、的自然人有关的各种信息都是个人信息。其优点是将更多数据纳入个人信息范围有助于提高数据保护水平,这既是对当前个人信息受侵犯现状的回应,也是当前全球范围内的趋势。从更为长远的角度看,规定过于宽泛的个人信息范围会使得绝大多数据均存在被纳入个人信息的可能性,需遵守处理个人信息应遵守的各项原则和制度。这不仅缺乏必要性,而且也不利于个人信息的有效利用。对于人工智能产品而言,其对于数据处理不仅不应“一刀切”受限于必要性原则,而且与之相反,应追求最大限度地挖掘数据潜力。过宽的个人信息定义会使得在实务中判定某一数据是否属于个人信息时处于模棱两可的境地,且往往倾向于均归入个人信息范畴。虽有可争取之处,但数据处理者
25、在这种不确定性中往往无法充分发挥挖掘数据价值的主动性和积极性。故建议一方面在理论层面进一步探索适合我国国情和产业发展的个人信息范围,另一方面在实务中严把个人信息判定标准,适当缩减个人信息的外延,避免个人信息的泛化。数据与算法治理AI-VIEW2022 年第 1 期 79 4.2 通过多种手段对数据处理者利用个人信息予以更充分保障产业的发展离不开对数据的利用,通过多种手段对数据处理者利用个人信息予以更充分保障,是推动人工智能产业升级、科技创新和提升社会治理能力的必然选择。为促进数字经济和人工智能产业的发展,需更加注重二者的平衡,在具体场景中按照安全和发展并重原则,既加强对数据利用的保障,促进产业
26、发展,同时也加强用户保护,同时“需要识别个人信息保护和利用中多方主体的利益需求,承认与确保其核心利益的实现,让渡自身非核心利益而使他方的核心利益得以实现”13。过于偏向其中一方都不利于总体价值的提高。5 结语人工智能产业的发展不仅离不开深度学习技术等相关技术发展,也离不开大量优质数据对深度学习技术的供养。在当前数字经济发展背景下,几乎所有经济活动都与数据相关,数据合规成为所有数字经济活动之上的达摩克利斯之剑。如何既保证数据合规又能促进产业发展成为数字经济时代下产业发展的共性问题,而人工智能产业的发展因为和数据尤其是个人信息密切相关,从而与数据合规的关联性也较大,尤其需加强数据合规建设。加强数据
27、安全尤其个人信息的保护是全球层面的共同趋势,任何一国对本文所涉问题提出的有效解决方案,都必将对他国产生影响,从而一定程度上实现对国际规则的贡献。参考文献1 European Commission.Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on a Single Market For Digital Services(Digital Services Act)and amending Directive 2000/31/ECEB/OL.(2022-01-20)2022-01-30.https:/
28、eur-lex.europa.eu/legal-content/en/TXT/?uri=COM%3A2020%3A825%3AFIN.2 the House Committee on Energy and Commerce.H.R.6580-Algorithmic Accountability Act of 2022 EB/OL.(2022-02-03)2022-02-08.https:/www.congress.gov/bill/117th-congress/house-bill/6580/text?r=2&s=1.3 司晓.数据要素市场呼唤数据治理新规则图书与情报 J.2020(3):7-
29、8.4 腾讯研究院.腾讯发布国内首份可解释 AI 报告:详解打开算法黑箱的理念与实践 EB/OL.(2022-01-18)2022-02-10.https:/ Kathryn Tunyasuvunakool,Jonas Adler,Zachary Wu,et al.Highly accurate protein structure prediction for the human proteomeJ.Nature,2021,596:590-596.对人工智能发展与数据合规的思考 数据与算法治理AI-VIEW2022 年第 1 期6 王融.隐私与竞争:数字经济秩序的平衡之道 J.竞争政策研究,2
30、017(6):15-18.7 王岩,叶明.人工智能时代个人数据共享与隐私保护之间的冲突与平衡 J.理论导刊,2019(1):101-108.8 曹建峰.既要人工智能高效发展 还要符合伦理,该怎么做?J.互联网经济,2020(8):64-69.9 秦天雄.对场景化界定数据产权的思考 C/上海法学研究集刊,2021,54(6):238-245.10 司晓.构建信任、激励产权、有序流通塑造健康可持续的数据生态 EB/OL.(2020-6-10)2022-02-08.https:/ 唐林垚.数据合规科技的风险规制及法理构建 J.东方法学,2022(1):1-15.12 European Commission.A European strategy for dataEB/OL.(2020-02-19)2022-01-04.https:/eur-lex.europa.eu/legal-content/EN/TXT/?qid=1593073685620&uri=CELEX%3A52020DC0066.13 张新宝.从隐私到个人信息:利益再衡量的理论与制度安排 J.中国法学,2015(3):38-59.