《数据智能赋能金融数字化白皮书.pdf》由会员分享,可在线阅读,更多相关《数据智能赋能金融数字化白皮书.pdf(86页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、数据智能赋能金融数字化白皮书北京金融科技产业联盟北京金融科技产业联盟20232023 年年 1212 月月编制委员会编委会成员:赵韵东周天虹龚伟华聂丽琴赵焕芳俞吴杰闫晓林编写组成员:赵存超贡佳炜马晓煦耿博代铁梁生吉刘一阳刘妍李义萍焦峰钟新斌许翠朱红伟陈炜钊李蓉娴郭佳敏石文鹏卢金环张少敏董琦张博杜银翔李金龙贺瑶函曹伯翰李娟牵头单位:中国农业银行股份有限公司参编单位:中国银行股份有限公司招商银行股份有限公司北京银行股份有限公司I前 言随着移动互联网的普及和数字技术的强势崛起,我国正加速迈入数字经济时代,推动数字化转型成为金融机构面临的必要趋势。中国人民银行 金融科技发展规划(20222025年)为
2、新时期金融数字化转型谋定方向、明晰路线,金融机构需深入贯彻规划理念,高质量推进金融数字化转型工作。在大模型、生成式人工智能等技术加持下,数据智能技术正爆发出蓬勃的生命力,为金融机构推进数字化转型、依托创新释放数字生产力提供了重要抓手。在北京金融科技产业联盟人工智能专委会组织下,由中国农业银行研发中心牵头,联合中国银行、招商银行、北京银行相关部门共同开展数据智能金融应用研究,编制形成数据智能赋能金融数字化白皮书。本文立足数据智能前沿技术,聚焦数据智能赋能金融数字化,介绍数据智能基本情况,包括概念解析、国内外发展情况及顶层设计;从 AI、BI 等先进技术出发,深度解析数据智能技术演进趋势;结合银行
3、业务场景阐述数据智能助力银行业智能化升级的可行路径,并给出典型案例;总结数据智能面临的挑战及发展展望。希望以此展示金融数据智能整体视图,为金融业应用数据智能提供有效借鉴和参考。II目 录一、数据智能发展情况概述.1(一)数据智能概念.1(二)国外数据智能发展形势.3(三)国内数据智能发展形势.4(四)五位一体数据智能顶层设计.61.战略规划谋.62.组织架构体.73.制度建设规.84.标准规范尺.105.团队建设群.12二、数据智能技术演进趋势.12(一)强化基础支撑,推进数据互联共享.131.湖仓一体,夯实企业级数据底座.132.实时数仓,高效应对实时场景.153.数据编织,推动智能化数据管
4、理.164.隐私计算,赋能金融数据安全.19(二)打磨 AI 利器,推动金融智能化升级.211.知识图谱,深化关联数据分析.212.可信 AI,提升模型可靠与可解释性.223.大小模型协同,推进端云全方位协同进化.244.大模型,聚焦 NLP 任务统一和多模态模型支持.255.自适应 AI,强化主动学习进化能力.276.人工智能生成内容(AIGC),推动数字化内容创造.28(三)深入 BI 应用,持续释放数据价值.301.极速引擎,支撑海量数据秒级分析.302.SaaS BI,提供云原生 BI 能力.32(四)研发运营一体化,加速数据智能应用落地.341.DataOps,敏捷响应业务需求.34
5、2.MLOps,快速交付 AI 应用服务.36III三、数据智能助力银行业智能化升级.38(一)数据智能企业级平台能力建设.391.数据湖仓平台.392.实时流计算平台.403.AI 平台.424.BI 平台.455.隐私计算平台.476.知识图谱平台.49(二)银行业数据智能典型应用案例.511.智能营销.512.智能决策.603.智能运营.654.智能风控.725.智能监管.75四、金融数据智能面临的挑战与展望.77(一)面临的挑战.771.数据安全问题.772.伦理道德问题.773.数据共享与流通.784.算法可靠性及可解释性.78(二)展望与建议.781.大模型助推高质量建模.782.
6、多模态整合数据统筹能力.793.创造性 AI 释放数据潜力.794.技术融合推动协同创新.795.安全管理构筑防护体系.806.政策标准引领数据治理.80五、结语.801一、数据智能发展情况概述数据智能的概念范畴超越于人工智能,是涵盖算法、算力及应用的一整套体系。金融机构践行数据智能需完善自上而下的顶层设计,从数据获取、数据处理、数据使用的整个生命周期,充分运用金融机构海量数据优势,借助金融科技,极大化释放数据要素生产力,驱动金融机构智能化升级。(一一)数数据据智智能能概概念念数据智能的历史可追溯到上世纪五十年代人工智能及大数据技术的兴起。目前业界对数据智能涵盖的技术及范围的定义和理解各不相同
7、,但普遍认为数据智能与 AI 及大数据等技术密不可分。数据智能的典型特征是以海量大数据为基础,通过 AI、大数据等技术手段,对数据进行采集、处理、分析和预测,充分捕捉数据特征及联系,挖掘潜在数据信息和模式,充分全面释放数据价值,服务于场景化业务应用。本文尝试从金融业应用的角度出发,从以下几个维度去阐述数据智能内涵和应用体系,如图 1 所示。数据要素:数字经济意味着高度的数据化,金融机构作为数据密集型行业,在业务经营过程中积累了海量数据,数据要素成为金融业高质量发展的重要内驱。生产力:金融科技为打磨数据要素提供了利器,成为推动金融业数字化转型的重要生产力。通过人工智能技术发掘数据价值,通过大数据
8、技术沉淀数据底座,通过创新释放数据活力,提2图 1 金融业数据智能架构升资源配置效率。生产关系:作为面向商业应用的解决方案,商业智能(Business Intelligence,BI)帮助企业梳理生产关系,系统化地整合及分析数据,助力于金融业务智能决策。上层应用:数据智能技术可有效作用于金融业市场营销、运营管理、风险控制、监管合规等各环节,推动业务智能化、自动化,拓展金融服务领域。组织保障:为充分应用数据智能,需从战略规划、组织架构、制度建设、标准规范、团队建设等完善数据智能的基础建设,落实组织保障。整体而言,从数据要素、生产力、生产关系、上层应用、组织保障方面形成一整套数据智能管理闭环,金融
9、业务经营过程中产生的各种数据,通过数据智能技术的加持服务于企业各应用场3景,不断沉淀数据资产,盘活数据价值,赋能企业数字化转型。(二二)国国外外数数据据智智能能发发展展形形势势Gartner在近两年重要战略技术趋势中持续将数据智能相关技术作为重点方向,包括生成式人工智能(GenerativeArtificial Intelligence)、数据编织(Data Fabric)、人工智能工程化(AI Engineering)、自适应人工智能(Adaptive AI)、AI TRiSM(人工智能信任、风险和安全管理,AI Trust,Risk andSecurity Management)等技术。数
10、据智能在全球的快速发展及创新热潮也促使人工智能相关监管政策排上了议程。欧盟在鼓励数据智能发展的同时,持续关注其存在的风险,审慎推进相关监管法案。2020 年 2 月 19 日,欧洲委员会发布人工智能白皮书数据战略报告数字未来报告,谋求塑造欧洲数字未来,为数字领域的监管计划提供指引。2021 年 3 月 9 日,欧盟委员会发布2030 数字指南针:欧洲数字十年之路计划,为欧盟到 2030 年实现数字主权的数字化转型愿景指出方向,旨在构筑一个以人为本、可持续发展的数字社会。目前,欧盟正在推进一项人工智能法案,旨在确保投放到欧盟市场并在欧盟范围内使用的人工智能系统是安全的。但面临着如何判定哪些人工智
11、能系统将被归为“高风险”、如何平衡保障数据隐私与阻碍创新的关系等难题。美国对于数据智能技术的政策相比更为积极。美国政府一方面将人工智能提升到国家战略的高度,致力于维持其在该领域的4全球领先地位,另一方面也高度关注人工智能风险,推动监管法规法案的落地。早在 2021 年 1 月,美国白宫就成立国家人工智能计划办公室,作为政府统筹与协调的中枢机构,负责监督和实施美国国家人工智能战略。并于 2021 年 9 月成立人工智能咨询委员会,就美国的人工智能竞争力、劳动力公平、资金、研究和开发、国际合作和法律问题提出建议,定期向总统及国会提交研究报告,为确保美国在人工领域的领先地位提供了组织保障。NSCAI
12、(国家人工智能安全委员会)认为,美国在非国防人工智能研发领域的投资应该以 2020 财年的 10 亿美元为基准,在 2026财年到达 320 亿美元,使人工智能领域的研发投入与生物医药研究持平。2020 年,美国政府发布首份人工智能应用监管指南,针对人工智能应用提出十大监管原则,明确了人工智能重点监管方向。(三三)国国内内数数据据智智能能发发展展形形势势在国内,国家相继出台和布局数据智能相关产业政策。2017年,国务院发布新一代人工智能发展规划(国发201735号),明确将人工智能作为未来国家重要的发展战略,并部署三步走的战略目标。其中“第二步,到 2025 年人工智能基础理论实现重大突破,部
13、分技术与应用达到世界领先水平,人工智能成为带动我国产业升级和经济转型的主要动力,智能社会建设取得积极进展。”“第三步,到 2030 年人工智能理论、技术与应用总体达到世界领先水平,成为世界主要人工智能创新中心,智能5经济、智能社会取得明显成效,为跻身创新型国家前列和经济强国奠定重要基础。”2021 年 11 月,工信部正式发布“十四五”大数据产业发展规划,要求到 2025 年,大数据产业测算规模突破 3 万亿元,年均复合增长率保持在 25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。2021 年 12 月,中国人民银行印发 金融科技发展规划(20222025 年),提出“
14、金融业数字化转型更深化”“数据要素潜能释放更充分”等总目标,并明确“强化数据能力建设”“推动数据有序共享”“深化数据综合应用”“做好数据安全保护”等重点任务。2022 年 12 月,中共中央、国务院发布关于构建数据基础制度更好发挥数据要素作用的意见,形成我国关于数据基础制度的顶层规划。2023 年 3 月 7 日,在第十四届全国人民代表大会第一次会议上,国务委员兼国务院秘书长肖捷就国务院机构改革方案向大会作说明,其中在数据管理领域,“组建国家数据局”成为国务院机构改革的一项重要内容。关于国务院机构改革方案的说明 指出,在保持数据安全、行业数据监管、信息化发展、数字政府建设等现行工作格局整体稳定
15、前提下,把数据资源整合共享和开发利用方面的有关职责相对集中。数据管理已经提升至国家战略高度。当前数据资源已成为关键生产要素,中国数据量呈现指数级6增长,具有海量的数据规模和丰富的应用场景。根据 IDC 统计,中国数据规模将从 2022 年的 23.88ZB(1ZB 约十万亿亿字节)增长至 2027 年的 76.6ZB,年均增长速度 CAGR 达到 26.3%。对于金融业而言,在数据资产积累方面具有明显的优势,如何充分利用和管理数据,构建完备的数据资产基础设施,有效挖掘和利用数据价值,提升数据服务能力,成为金融业需深入探索的重要方向。(四四)五五位位一一体体数数据据智智能能顶顶层层设设计计为与中
16、国数字化发展水平保持一致,银行业应坚持“数据”主线,在重点领域提供人工智能支持,为全行主体业务高质量发展提供有力的数字化赋能和支撑。提供基于数据的智能决策需要自顶向下发力,可从“谋(战略规划)、体(组织架构)、规(制度建设)、尺(标准规范)、群(团队建设)”五个方面着手开展顶层设计。1.战略规划谋在数字时代下,数据战略已成为组织开展数据智能的基础,是数据智能长期发展的“方向标”。一些银行在大数据上已具备较好的基础能力和服务能力,但在深化数智赋能所需的算力、数据、工具、保障相关能力支撑上,仍面临着诸多困难与挑战,主要体现为:数据基础能力有不足、数据供给能力待提升、数据研发工艺需完善、数据保障能力
17、有缺失。7针对以上困难和挑战,可围绕“一个核心,两个保障,三个能力,四个转型”,支撑数据友好型系统建设,助力数字化转型战略落地。“一个核心”是以数据应用五步闭环(筛选、布放、执行、回收、优化)为核心,持续推进各业务系统高水平用数,总结经验方法,提升业务经营能力。“两个保障”指打磨数据工艺,建设一体化数据研发平台,落地数据服务流水线和流程规范,支撑数据服务快速交付;加强数据运营与安全,实现数据服务供给能力的量化评价和持续提升,落实全流程的数据安全管控。“三个能力”是要夯实数据基础侧能力,建设企业级数据模型体系,完善数据模型规范标准;强化数据供给侧能力,沉淀数据资产,打造低门槛工具平台,全面提升数
18、据要素供给能力;提升数据需求侧能力,深化数据能力在流程、决策和评价等方面的应用,推动数据能力与业务系统的深度融合。“四个转型”指推进产品创新、流程再造、量化评价、渠道协同,助力数字化转型进一步深化。2.组织架构体银行应根据数据智能发展规划,结合本行实际,建立组织架构健全、职责边界清晰的数智赋能组织架构,建立多层次、相互衔接的运行机制,如图 2 所示。8图 2 数据智能组织架构董事会对数智赋能承担最终责任,履行制定数智赋能战略、审批或授权审批与数智赋能相关的重大事项等职责。监事会负责对董事会和高级管理层在数智赋能方面的履职尽责情况进行监督评价。高级管理层执行董事会决议,履行数智赋能体系建立、机制
19、建立、组织评估执行情况等职责。信息管理部门作为数智赋能的归口管理部门,在高级管理层的授权范围内,统筹全行数据治理工作,履行牵头实施体系建设、统筹落实机制建立、建立评估机制等职责。业务部门承担主管业务条线的数据治理责任,充分利用全行资源,发挥数智价值,主要履行制定本条线规章制度、开展本条线管理工作、执行监管等职责。科技部门负责系统层面的数智赋能工作,包括:响应数智赋能相关系统建设需求并组织技术实施;与归口管理部门共同推进数智赋能,组织技术相关工作,推动提升数智应用价值等。3.制度建设规9银行应根据数智赋能的要求和发展规划的部署,调整、充实和完善内部经营管理的各项规章制度,健全内控严密的制度体系,
20、推动流程银行建设,促进行内精细化管理,提供有效的制度基础。(1)基本原则适应外部合规要求,满足内部控制与风险管理需要,有利于市场竞争和业务创新。(2)工作目标按照分层、分类、分块管理要求,建立覆盖完整、规制适度、动态维护、协调统一的规章制度体系,包括基本制度与政策、综合管理制度、专项管理制度、操作规程和实施细则等。(3)保障措施一是提高管理人员认识,保障制度管理权威。各级领导要充分重视制度管理工作,主动维护制度管理秩序和权威,率先垂范,营造良好制度管理环境。二是规范制度管理,完善并落实管制度的制度。按照制度分层、分类和分块的标准,构建层次分明、分类齐全、模块清晰的立体金字塔形制度体系,规范制度
21、管理流程,有效进行制度质量控制。三是加强制度维护,做到动态调整,持续改善。对行内现有制度进行适应性调整,梳理完善与数据智能有关的制度、程序与机制,严格制度的设立、修改与废除的过程管理,完善制度反馈机制,推进评价与维护工作。10四是重视制度评价工作,制度建设纳入工作考核。将制度建设、制度流程设计及制度有效性纳入内控评价体系,将制度建设纳入部门和条线工作考核,引导和激励业务发展和制度建设同步进行。五是明晰各部门制度建设职责,加强各环节配合协调。清晰界定制度建设和管理职责,加强各部门间的配合和协调。六是建立规章制度数据库,加强和完善法律信息管理技术平台建设。开发制度信息管理平台,加大科技手段对制度管
22、理的支持力度,实现制度科技化管理。4.标准规范尺银行应按照“急用先行、协调推进”的原则,以数据统一为目标,制定各项标准的全行统一规范,构建企业级架构工程。标准统一工作可逐步开展,先期制定主要标准。(1)工作思路从公共基础能力着手,按照“立足系统现状、坚持问题导向”的总体思路和“选取主流标准、其他标准向主流标准靠拢”的工作要求开展标准制定,确保最终交付成果真正能支持业务领域数据应用,全面提升银行企业级数据标准化水平。(2)标准制定依据“选取主流标准、其他标准向主流标准靠拢”总要求,选定主流标准,并同步推进标准落地与管控机制的建立。形成待解决问题清单。汇总各业务场景中的难点问题清单,11与涉及的数
23、据标准进行对比分析,纳入标准制定过程统筹考虑解决。统一标准制定工作模板。应从数据标准和数据建模角度,梳理管理部门要求、行内现行制度和业内最佳实践,形成工作模板。编制数据字典。统一概念定义,明确数据项范围,确定可信数据源,同步研究标准建立后的管理职责、流程和新旧切换等长效机制。(3)落地实施统一数据。建立“多横一纵”的主数据架构体系。“多横”指横向拉通多项标准在数据生产端和消费端的唯一标识,由主数据管理系统实现统一的数据编码、映射、管理。“一纵”指纵向对齐标准数据,由数据中台统一为数据消费端提供可信合标映射数据支撑。统一管控。以源头数据集中管理及数据项标准落实为目标,建立业务、数据、技术三位一体
24、的管控体系,实现标准数据的企业级管理,为数据消费提供合标数据。统一实施。保持标准的企业级统筹模式,同步开展数据治理,逐步验证数据标准。统筹常规项目贯标,加强需求管控和数据监测。统一宣贯。要实现数据统一的目标,标准制定是核心,全员掌握是关键,行内宣贯标准,统一业务与技术语言。12(4)技术评估一是模型评估。选定主流评估模型,如 2018 年发布的国家标准数据管理能力成熟度评估模型(DCMM),从标准的定义、分类等评估点对各项标准的成熟度水平进行综合评估。二是专家评估。选定评估人,立足行内系统现状开展标准落地可行性评估,以标准能否产生实效为主要评价原则、标准可落地实施为导向,评估标准制定产出成果的
25、完备性、标准落地实施建议的合理性。5.团队建设群银行应通过聚焦数智赋能、推动业技融合发展,开展形式各样的团队活动,提升团队凝聚力。一方面,搭建舞台,营造竞技氛围。行内外定期举办数据分析、运维技能、团队编程等各项大赛,全方面组织大赛方案、平台支持、数据准备、赛题讨论、宣传规划等工作,激发科技条线人员参与积极性,为科技人才施展才华、技术交流提供成长成才的舞台,发掘培养更多的专业人才。同时,重视培训,发掘培育人才。定期举办培训班,强化信息科技骨干人才专题培训,打造信息科技交流专业沟通平台,促进“数据+人工智能”深度融合,提高科技发展合力;打造系列分享培训品牌,组建兴趣小组,拓展兴趣、提升技能,践行终
26、身学习理念,帮助员工成长成才。二、数据智能技术演进趋势数据智能作为跨多学科的研究领域,涵盖大规模数据处理、13数据可视化、数据挖掘、机器学习等广泛的技术方向。本章着眼于当前技术发展现状及未来趋势,从底层基础支撑、上层智能应用、全生命周期工程化建设三个方面,介绍数据智能领域内的前沿热门研究课题及其在企业数字化转型中发挥的重要作用。(一一)强强化化基基础础支支撑撑,推推进进数数据据互互联联共共享享1.湖仓一体,夯实企业级数据底座湖仓一体是当下大数据领域的一个热门概念,是一种新型的开放式架构,打通数据仓库和数据湖两套体系,将数据仓库的高性能及数据管理能力,与数据湖的灵活易扩展特性融合起来,支持多类型
27、的数据存储,打通湖和仓之间的数据壁垒,减少数据冗余,支持数据实时查询和在线分析,为企业级数据存储和管理、数据治理、数据应用带来了极大便利性。表 1 数据湖和数据仓库对比对对比比维维度度数数据据仓仓库库数数据据湖湖应用场景结构化数据分析、决策支持多种类型数据的分析探索数据容量一般为 TB 级别,远高于传统关系型数据库PB 级别,可用来存储所有原始数据数据质量数据质量高大量原始数据,数据质量较难保证,需要数据治理数据价值有数据模型顶层设计,数据经过加工,价值密度高数据多而全,原始数据价值密度较低适用对象业务分析师数据开发人员、数据科学家数据湖和数据仓库的对比如表 1 所示。从名称来看,湖仓一体即数
28、据湖和数据仓库的结合。数据仓库非常适合结构化的数据,但是金融机构必须处理非结构化数据、半结构化数据以及具有高14度多样性、实时性和大容量特征的数据,数据仓库不适用于许多此类场景;数据湖适合存储海量数据,但是缺少一些关键功能,比如不支持事务、缺乏一致性/隔离性、不能保证数据质量等。由此可见,数据仓库和数据湖各有优点,适用场景不同,无法简单替代。而湖仓一体的概念,则避免了二选一的问题。当前湖仓一体架构实现思路主要有湖上建仓和数仓入湖两类:湖上建仓是将数据湖作为基础架构,并在湖内引入数仓建模能力;数仓入湖是以数据仓库架构为主,将底层数据纳入数据湖进行统一存储,实现计算、存储分离。企业选择的湖仓一体建
29、设路径可能不同,但最终目的都是实现数据湖和数据仓库的有机融合,同时发挥二者的优势,湖仓一体技术架构见图 3。图 3 湖仓一体技术架构业界普遍认为,湖仓一体作为新一代大数据技术架构,将逐渐取代单一数据湖和数据仓库架构。通过将数据湖和数据仓库的优势进行融合,构建一体化数据处理平台,支撑多模态数据统一存储、统一管理、统一服务,提升金融机构企业级数据存储及应用效能。152.实时数仓,高效应对实时场景数字化转型驱动下,金融业务场景迈向线上线下一体化,实时化需求日益成为金融业数据应用新常态,实时数仓是在离线数仓基础上进一步满足时效性的要求,依托流批一体、湖仓一体、云计算等技术,兼具时效性和灵活性优势,促进
30、金融业建设实时数仓作为实时数据的生产、存储和使用平台。依托实时数仓“T+0”实时数据供给模式,金融机构可以及时洞察业务全貌,做出更快、更准确的智能决策,推进经营管理、风险防控、营销推荐等质效提升。实时数仓主要是为了解决传统数仓数据时效性低的问题,技术路线上有多种建设路径。一种是基于 Lambda 架构的实时数仓,作为当前主流的实时数仓架构,金融行业在其现有成熟完备的离线加工链路上,增加实时计算链路,参照数仓 ODS、DWD、DWS 等分层资产组织理念,实现与离线数仓的协同,通常采用 Kafka 消息队列、Flink 等计算引擎的组合实现,建设成本降低,但也存在架构复杂,运维成本较高的不足;一种
31、是基于 Kappa 架构的实时数仓,与 Lambda 架构相比,移除了离线生产链路,优点是架构相对简化,数据来源单一,共用一套代码,开发效率高,但此类实时数仓不易进行数据回溯,比较消耗内存计算资源;此外,还有一类采用实时OLAP技术,将聚合分析计算由OLAP引擎承担,减轻实时计算部分的聚合处理压力,分析自由度高,减轻了计算引擎的处理压力,但对查询引擎的吞吐、存储和实时摄入、分析16性能要求较高,此类实时数仓通常基于商业数据库产品,如Hologres、GaussDB 等。近年来,大数据、云计算、数据湖等相关技术的快速发展,大大促进了实时数仓技术的发展,实时数仓技术发展呈现新的趋势特点:(1)湖仓
32、一体化。依托数据湖基础底座,数据入湖后可原地进行数据处理加工,依托 Hudi、Iceberg 等流批一体存储模式,避免数据多份冗余以及流动导致的算力、网络及成本开销,可作为超大型的数据存储资源池,实现对全量数据的实时处理。(2)云原生。依托云建设实时数仓,典型特征是存算分离,实现计算和存储的弹性伸缩,降低成本和提高资源利用率。实时数仓可根据算力和存储的需求,灵活地单独扩展计算或存储资源。(3)现代数据栈。利用现代数据栈提升实时数仓能力,通过降低 ETL、BI、数据质量与数据安全等周边工具的使用门槛,推动“人人用数”目标的实现。3.数据编织,推动智能化数据管理自 2019 年起,Gartner
33、连续 3 年将数据编织列为年度数据和分析技术领域的十大趋势之一。数据编织是一种设计概念,可作为数据和连接流程的集成层,通过对现有、可发现和可推理的元数据资产进行持续分析,数据编织能够在所有环境中设计、部署和利用集成数据。Gartner 将数据编织定义为如下 6 大组件,如图 4 所示。17图 4 Gartner:Maturity of Data Fabric Components1组件 1:增强数据目录。基于数据和元数据搭建数据目录,能够清晰地描述所有交易系统、数据仓库等各有什么数据,数据的业务和技术属性都有哪些,如何有效地组合。组件 2:语义知识图谱。基于数据目录,以及数据之间的联系,搭建知
34、识图谱,提供语义识别,从业务角度识别数据之间的关联关系。组件 3:元数据激活。实时地利用现有元数据,收集系统中业务用户操作日志,将二者结合形成可用于进一步发现、挖掘、推荐的基础数据,提供管理辅助推荐指导。组件 4:推荐引擎。利用机器学习等 AI 技术,根据业务用户分析使用、建模操作的日志,推荐可用数据,方便用户开展建1图片来源:Gartner:What Is Data Fabric Design?18模分析,优化流程。组件 5:数据准备与交付。业务人员进行尝试性的数据探查,通过数据虚拟化链接开展,而不必搬移数据。确定可行后交付给IT 人员通过 ETL 等方式实现持久化。组件 6:数据编排与 D
35、ataOps。数据协同与 DataOps,实现用户与平台工具的交互。表 2 数据编织产品能力对比公公司司数数据据编编织织产产品品主主要要能能力力功功能能IBMCloud Pak forData4.0智能化的数据编织,能为数据目录管理、隐私保护、数据访问等场景提供服务智能化的数据目录自动化的数据隐私虚拟数据访问AutoAIDenodoDenodo 虚拟化突出数据的虚拟化数据虚拟化引擎增强版数据目录主动元数据具有扩展元数据的语义层基于 AI 的建议DataOps 和多云配置InformaticaCLAIRE建立数据连接,识别敏感数据,在发现、探查、准备、集成、发布、可视化、共享等数据中运用 AI
36、能力实现自动化;增强数据目录元数据知识图谱元数据激活和推荐引擎数据准备与数据交付编排和 DataOpsCambridgeSemanticsAnzo实现快速数据查询,数据集成、转换与分析连接全域数据语义化数据高级分析快速交付简言之,数据编织的本质是在元数据的驱动下,通过业务语义知识图谱、AI 机器学习和数据虚拟化等技术来管理分布的、异构的数据。数据编织价值在于能够更方便地管理、使用数据,19能够激活数据消费,加速数据的价值转换。根据自身技术架构、优势不同,各企业和金融机构在数据编织领域提出了不同的产品和解决方案,其产品能力对比如表 2 所示。4.隐私计算,赋能金融数据安全随着互联网和各种数字技术
37、的普及,海量数据被生成、收集,其中包含了大量个人敏感信息,保护个人隐私的需求变得更加迫切。与此同时,数据共享和合作需求也与日俱增,不同机构和个体之间需要共享数据以实现更好的合作和创新。在此背景下,国内外出台了大量隐私保护法律法规,组织和企业将面临更严格的隐私合规要求。隐私计算应运而生,既可以实现安全的数据合作和共享,同时可以保护参与方的隐私,满足政策合规要求。隐私计算(Privacy-preserving computation)是一种将数据隐私保护和计算需求相结合的技术。在处理和分析数据时最大程度地保护个人隐私,实现数据流通与融合过程中的“可用不可见”。传统的计算方法通常要求将原始数据集集中
38、到中央服务器或计算节点上进行处理,可能会导致个人隐私泄露。而隐私计算通过采用一系列加密、匿名化和安全计算技术,使得计算过程中不暴露明文,从而有效保护个人隐私。隐私计算包括多种技术,包括:多多方方安安全全计计算算技技术术,利用秘密分享、同态加密、零知识证明、混淆电路、不经意传输、差分隐私等算法,解决多方数据联合计算的信息保护问题,安全地释20放数据价值;联联邦邦学学习习技技术术,由两个或两个以上数据方共同参与,在保证数据方各自原始数据不出其定义的安全控制范围的前提下,协作构建并使用机器学习模型的技术架构;可可信信执执行行环环境境,一种基础硬件和操作系统的安全架构,通过技术手段在 CPU 中建立一
39、个硬件层面完全封闭的受信任环境,保证在安全区域内部加载的代码和数据在机密性和完整性方面得到保护,其目标是确保计算任务按照预期执行,保证任务初始状态和运行状态时的机密性、完整性。隐私计算在近年来得到了广泛的关注和研究,在各方面都有了显著发展。技术研究与算法方面,同态加密、安全多方计算、差分隐私等技术不断改进和应用,能够更好地满足实际需求。开源工具与框架方面,出现了大量开源的隐私计算工具和框架,为开发者和研究人员提供了方便的工具和平台,使得隐私计算的实践更加便捷。应用领域探索与实践方面,不同领域的应用都在不断探索和实践中。例如,医疗保健、金融风险评估、大数据分析等领域都有相关的隐私计算应用案例。这
40、些实践经验有助于验证技术的可行性并引导隐私计算未来的发展方向。尽管隐私计算已经取得了大量成果,但金融机构在应用过程中仍面临一些挑战。例如,计算性能和效率仍然需要改进,尤其是复杂任务的性能;安全性和隐私保护水平需要不断提高,适应不断发展的算法攻击方式。21(二二)打打磨磨 A AI I 利利器器,推推动动金金融融智智能能化化升升级级1.知识图谱,深化关联数据分析知识图谱(Knowledge Graph)是人类认知世界的基本框架,是一种图结构数据表示语义网络,其最基本元素是实体和关系(即图的点和边),可以形式化地描述现实世界中实体或概念之间的关系以及相应的属性信息,可以让机器更好地理解人类的语义信
41、息。知识图谱的一种通用表达形式是三元组,即,SREG。其中,E是实体的集合,R是关系的集合,S是三元组的集合。每个实体都有且只有一个唯一的 ID 表示,关系用于描述实体之间的关联,并且实体和关系都可有其属性和对应的属性值。知识图谱技术实现多模数据的高效链接,能够从海量数据中提取关键信息,挖掘数据间的隐含价值,精准洞察群体特征,有助于信息的分析和推理,解决了传统技术局限于实体本身属性进行价值挖掘的短板,能够识别实体间的特征传递,广泛应用在金融领域多种场景中:(1)基于知识图谱的反欺诈、营销、集团风险识别、产业链挖掘等,其本质是利用复杂关联关系网络,深入挖掘隐含信息,并以可解释的图形化展现形式,辅
42、助业务场景的分析和决策。(2)基于知识图谱的问答与对话,基于意图识别及知识图谱的问答系统,知识图谱能够增加数据特征维度,增强语义理解,支持多轮对话。(3)基于知识图谱的搜索与推荐,基于知识图谱及深度学22习的推荐系统,通过知识图谱构筑基础的知识推理能力和辅助信息,能够大幅提升推荐效果。(4)事件知识图谱、基于事件间逻辑关系分析的事理图谱,实现基于事件的风险分析预测,应用在金融风险在风控、营销、投资决策等场景。知识图谱是人工智能的重要基石,是大数据深入发展的时代产物,随着人工智能从感知智能向认知智能演进,知识图谱成为下一代人工智能的核心技术。在工信部发布的“十四五”大数据产业发展规划中强调促进多
43、维度异构数据关联,创新数据融合模式,提升多模态数据的综合处理水平,加强“知识图谱”等关键技术研发,推进面向金融、能源等行业企业智能服务应用;中国人民银行印发的金融科技发展规划(20222025 年)中指示了多项知识图谱相关工作;Gartner 预测到 2023 年全球30%的企业都将使用图技术来支撑起智能商业决策,到 2024 年图存储和图分析将全面代替旧有的数据资产管理。2.可信 AI,提升模型可靠与可解释性当前,新一代人工智能(AI)技术蓬勃兴起,相比传统的感知智能阶段,AI 已进入到更高阶的智能决策阶段。对于金融行业,营销、风控等高价值场景的 AI 应用需求不断增加,人工智能的安全问题、
44、可解释性问题、公平性问题等愈发重要。增强AI 使用信心、形成良性的可信生态以及构建行业可信标准体系已成为金融领域在内各行业的重要关切。23AI 算法的输出是概率,不确定的本质让其决策天生隐含争议。AI 的风险隐患主要有:模型黑箱导致算法不透明、数据歧视导致模型偏见、数据滥用导致隐私泄露风险等。面对 AI 引发的全球信任焦虑,发展可信 AI 已成为全球共识。中国科学家何积丰院士于 2017 年首次提出可信人工智能的概念,即人工智能技术本身具备可信的品质,其核心内涵就是以人为本、坚持技术向善。中国信息通信研究院发表的 可信人工智能白皮书 中提出,可信 AI 的支撑技术主要包含稳定性、可解释性、隐私
45、保护、公平性等。A AI I 稳稳定定性性技技术术:AI 系统面临着多种威胁和攻击,包括中毒攻击、对抗攻击等。稳定性技术就是如何抵御攻击的技术,包含有异常数据检测、对抗训练等方法。但目前各种干扰手段层出不穷,AI 系统稳定性仍面临诸多挑战。A AI I 可可解解释释性性技技术术:以深度学习算法为核心的 AI 算法就像一个黑箱,相关可解释性研究仍处在初期。学术界的研究包括建立适当的可视化机制尝试解释模型的中间状态等。AI 落地过程中,应坚持以人为本的初心,做到对人类更透明、更易理解。增强AI 系统的可解释性已是刻不容缓。A AI I 隐隐私私保保护护技技术术:算法数据流转及模型本身都有可能泄露隐
46、私数据。针对该问题,目前最常见的技术为基于差分隐私和基于联邦学习的隐私保护方法。保护个人隐私,是 AI 技术的难题,24也是 AI 良性发展的契机。A AI I 公公平平性性技技术术:AI 模型训练过程在涉及性别等与人相关的敏感属性时,常常会由于各种原因引入不公平的歧视性行为。导致模型不公平的原因主要是数据集不均衡及算法本身。可采取的措施有:提高训练数据集质量、改进算法降低对敏感属性的依赖等。目前可信 AI 还处在发展初期,行业层面的实践主要是可信AI 的标准体系构建,旨在推动形成一个良性的可信生态。“可信 AI”理念成为全球共识,也是未来 AI 产业健康发展的必由之路。共识之下,包括银行在内
47、的各大金融机构均在加速可信 AI落地进行时,助力在营销、风控、推荐等金融场景更安全可信。3.大小模型协同,推进端云全方位协同进化大小模型协同使用多个不同大小的模型来完成一个机器学习任务。大模型(如 OpenAI GPT)通常具有较多的参数,可以在复杂任务中生成高质量的结果,但是需要更多的计算资源。小模型(如 MobileBERT)需要较少的算力,可以在资源受限的环境(如移动设备)中运行。在大小模型协同的任务中,通常使用大模型进行预处理和特征提取,并将生成的特征作为小模型的输入;然后由小模型对这些特征进行分析,生成最终结果。大小模型协作是一种高效的机器学习技术,可以在保证结果质量的同时降低计算成
48、本,因此被广泛应用在各种机器学习任务中。其具有以下几个特点:25可可靠靠准准确确:大模型通常具有更多的参数,可以生成较高质量的结果,补充的小模型还可以通过处理大模型生成的特征进一步提高结果的准确性。资资源源使使用用效效率率高高:大小模型协作的设计充分利用了大模型和小模型的优势,使计算成本最小化。模模型型适适应应性性强强:大小模型协作可以应对各种环境,在资源受限的环境中使用小模型,在需要高质量结果的环境中使用大模型。可可扩扩展展性性强强:大小模型协作是一种模块化的设计方法,可以根据需要增加或减少模型数量,以适应不断变化的业务需求。模模型型训训练练效效率率高高:大小模型协同可以加速模型训练,每个模
49、型的任务范围有限,无需对全量数据进行训练。随着大小模型协同技术研究的不断深入,其已经被广泛应用于各种不同的场景,如语音识别、图像识别、自然语言处理等。未来技术发展呈现以下趋势,一一是是模模型型组组合合技技术术会会不不断断提提高高,模型组合技术是大小模型协作的重要组成部分,随着技术的提高,模型组合技术也在不断改进,以提高模型的效率和稳定性;二二是是模模型型规规模模会会大大幅幅增增加加,随着硬件资源的不断升级,模型的规模也会不断增加,使模型具有更多的参数,从而可以生成更高质量的结果;三三是是模模型型训训练练效效率率会会极极大大提提高高,目前大量研究正在寻求更有效的训练方式,以提高模型的训练效率。4
50、.大模型,聚焦 NLP 任务统一和多模态模型支持自然语言处理是计算机科学和人工智能的重要分支,研究计26算机如何理解和处理自然语言。传统的 NLP 技术需要大量的人工规则和语言知识库,而且难以处理语义和上下文等复杂问题。近年来,随着深度学习和神经网络技术的发展,基于深度学习的NLP 技术开始逐渐成为主流,其中 GPT 是一种非常优秀的技术。GPT 是由 OpenAI 开发的一种基于 Transformer 架构的预训练语言模型,使用无监督学习方法从大规模的语料库中学习语言模型,可以自动生成高质量的文本,如文章、对话、问题答案等。GPT 已经在自然语言生成、问答系统、文本分类等领域取得了重大进展