《中国卓越技术团队访谈录(2022年第四季).pdf》由会员分享,可在线阅读,更多相关《中国卓越技术团队访谈录(2022年第四季).pdf(77页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、 目录 封面故事 我们这群 90 后,正在字节跳动“死磕”Linux 内核.i 重磅访谈 云与 AI 时代,金山办公再挖“金山”.1 工商银行十年磨砺:建成同业最大规模云计算平台,既要开源又得可控.15 六年经历三次架构迭代,OceanBase 单机分布式一体化会是大势所趋吗?.28 后 Hadoop 时代,字节跳动如何打造云原生计算平台.39“羊了个羊”背后的国产3D引擎Cocos:这绝不是团队最高光的时刻.52 i 中国卓越技术团队访谈录2022 第四季 我们这群 90 后,正在字节跳动“死磕”Linux 内核 嘉宾:张宇、段熊春、宋牧春、谢永吉、邓良 作者:凌敏 随着互联网的快速更迭,许
2、多明星产品在时代的光环下熠熠生辉;但在喧闹的背后,有这样的一个群体,默默的守护着互联网世界的平稳,今天我们就来介绍这样一群幕后守护者。2012-2022,是字节跳动产品线快速延伸的十年,也是基础设施规模快速增长的十年。在这背后,有这样一支团队默默为字节上层业务的稳定保驾护航,他们就是字节系统部 STE 团队。早在 2015 年,STE 团队就初具雏形,当时主要是问题驱动,为字节内部基础设施及软件系统提供技术支持。随着 2017 年抖音等热门产品用户量级大爆发、成为现象级APP,字节内部的服务器规模愈发庞大,对系统的维护工作也成为重中之重。2018 年,团队被正式命名为 STE(全称:Syste
3、m Technologies&Engineering,系统技术与工程)。如今,STE 团队已从最初的 20 人扩大至数百人规模,在英国、美国等多地设有研发中心。技术维度也从操作系统内核扩展到服务器固件、编译器技术、系统虚拟化、主机网络、系统智能运维等基础技术,并将基础软件工程能力赋能业务。在本期访谈中,InfoQ 有幸采访到了 STE 内核方向的多位核心成员,了解他们在 ii 中国卓越技术团队访谈录2022 第四季 Linux 内核优化上的技术实践与经验,以及这些工作为业务带来的价值,同时一窥这支专注于底层基础设施建设、在“看不见的地方”用技术构筑城墙的团队的精神和文化。专注 Linux 内核
4、的 90 后团队 据了解,STE 内核团队是字节系统部面向公司内部所有业务提供 Linux 内核服务的团队,主要负责内核管理、进程调度、虚拟化和网络等几个方面的工作。据STE内核团队负责人段熊春介绍,在 2015 年 STE 团队初具雏形的时候,就有研发人员负责内核相关的工作。2018 年,STE 团队正式成立,内核方向也作为其下属团队之一,逐步扩建成有专职研发人员负责解决 Linux 内核存在的问题,并增加和维护新特性。我们注意到,这是一支非常年轻的团队,内核维护者以 90 后居多,这其实并不常见。毕竟“Linux 之父”Linus Torvalds 曾感慨,“目前的维护者多是 50、60
5、后,社区面临代际更新问题。”Linus Torvalds甚至担心,在他们这批Linux内核维护者老去之后,很难再找到新的继任者,因为很多年轻开发者认为“Linux 内核项目并不那么有趣”。STE 团队的负责人张宇深耕于系统技术领域多年,对此他也表示,“现在专注在底层基础软件、操作系统内核上的人才越来越匮乏,甚至出现了两种极端:一种是开发者的计算机基础非常扎实,底子好,但对内核研发并不感兴趣;一种是对内核非常感兴趣,但底子薄,需要补功课。同时具备这两方面优势的人才非常少。对于我们内核团队而言,年轻是我们的优势,正是这种对内核技术的痴迷和热爱,才让我们走到了一起。”向团队中注入新鲜的血液并不难,难
6、的是如何让这些年轻人在 Linux 内核方向愈战愈 iii 中国卓越技术团队访谈录2022 第四季 勇、愈走愈远。对此,张宇提到了两个字:激发。给年轻人平台,激发其兴趣;给年轻人机会,激发其斗志。“我们也有很多资深的开发者,但他们更倾向于把好的机会留给年轻人。这种传帮带的传统,能够让年轻开发者有机会站到台前,越做越有信心。否则,如果年轻人持续得不到鼓励、不被激发,在这条艰辛的道路上就很难做出成绩、走得长远。”张宇提到。正是在这种文化氛围的熏陶下,STE 内核团队依托于 Linux 内核,在虚拟化、云原生、eBPF 等技术方向都有非常硬核的输出。比如,2020 年 9 月,团队向 Linux 内
7、核社区贡献了 HVO 方案,该方案能够解决 Linux 内核内存管理冗余这一难题。困扰业内数十年的 Linux 内核内存管理冗余,有了解法 从 Linus Torvalds 在 1991 年发布第一版开始,Linux 内核迄今已发展了 30 余年。据称,第一版的 Linux 内核只有 10250 行代码,占用 65 KB,而如今,Linux 内核代码行数早已超过 2700 万。Linux内核每年新增/删除的代码多达百万行,也加入了越来越多优秀的特性。这样一个复杂且臃肿的工程,在不同的业务场景下,势必会面临各式各样的挑战。支撑字节全量服务器运转的正是 Linux 操作系统。STE 内核团队发现,
8、一些云计算的场景会带来额外的内存管理开销,随着服务器规模越来越大,这种损耗也会成倍放大。“Linux 内核以页(一般 4 KB)为单位管理物理内存。每个 4 KB 页对应一个 struct iv 中国卓越技术团队访谈录2022 第四季 page 结构体。使用一个 struct page 管理一个页,这本身没什么问题。但是当使用的页的大小是 2 MB 甚至 1 GB 时,Linux 依然以 4 KB 为单位分配 struct page,这显然是个内存浪费的行为。我的目的就是尽可能减少这部分冗余的内存管理开销。”说这话的是 STE 工程师宋牧春。2019 年 7 月,宋牧春加入字节 STE 内核团
9、队,三年时间,宋牧春随团队一同成长,也完成了从 Linux 内核开发者到 Linux 内核维护者的转变,并成为 Linux 内核社区 HugeTLB 和 Memory Cgroup 两个核心子模块的maintainer。实际上,Linux 内核内存管理冗余并不是一个新问题,它在业内已存在十年之久。过去不少公司都做过研究,但始终没有找到解法。即便如此,STE 内核团队依然想做一些尝试。在不断地讨论、验证各种方案的可行性后,团队发现这个问题是有可能被解决的。“某些场景会使用到大页,每个大页需要 8 个页的 struct page 去管理,即 8X4K 的内存,我们希望最终只占用一个页的物理内存(4
10、KB)。对此,我们想的方案是复用,把后面 7 个虚拟地址映射到唯一的物理页,如果方案能成功落地,则意味着 1T 的服务器,最大能节省接近 16GB 的内存。即使优化 1%,整体给公司带来的收益也会非常大。”宋牧春说道。这套方案被称作 HVO(HugeTLB Vmemmap Optimization)。方案有了,下一步就是做代码调研。Linux 内核管理是非常复杂且核心的一个模块,它和各个模块交织在一起,它的稳定性也必然会影响整个 Linux 内核的稳定性。因此,STE 内核团队需要尽可能地减少该方案代码涉及的范围,并确保不会影响系统里的其他功能。为此,从 2020 年 4 月到 v 中国卓越技
11、术团队访谈录2022 第四季 2021 年 6 月,团队开始了长达一年时间的代码调研、开发、测试和重构。用一年的时间,解决一个技术难题,值得吗?段熊春给出了肯定的回答。“我们会衡量这件事情的价值,显然我们也面临着很多压力,但真正难的事情是需要投入更多时间去看的,我们也需要这样做。基于对技术的狂热,我们周末也经常聚在一起讨论和思考,再把这些想法带到实际场景中,更好的打磨和优化。这是一个长期的过程,而这些突破也能为公司和业界带来巨大的收入,这就是有价值的。”同时,HVO 也得到了业界的广泛认可:华为、Google、AWS、甲骨文都准备将这个方案投入使用,还有公司向团队发来感谢信。“但这不是终点,我
12、们会持续优化HVO 方案。”段熊春说道。Linux 内核云原生技术新探索 设备虚拟化技术作为云计算领域最重要的基础技术之一,多年来一直在稳步向前演进。其中,virtio 和 VFIO 在过去一直是最主流的设备虚拟化技术,并分别于 2008 年、2012年被合入Linux内核主线。为了将virtio和VFIO的优势结合,2020年,vDPA(Virtio Data Path Acceleration)技术框架被合入 Linux 内核主线。与此同时,字节内部的云原生化进程也在进行着。据了解,字节最早于 2016 年开始在内部推进云原生化进程,对业务进行大规模容器化改造。到 2021 年年末,字节已
13、经有超过 95%的应用实现了云原生化。在这个过程中,STE 内核团队发现,容器在一些 I/O 相关的解决方案中,与传统的虚拟化方案相 vi 中国卓越技术团队访谈录2022 第四季 比比较受限。“我们当时希望能够在 Linux 内核中提供一套框架,开发者可以基于这个框架去模拟各种各样的设备,并且能够直接供容器接入使用。这样,就进一步弥补了基于容器的云原生方案在 I/O 方面的短板,甚至还能够和相对成熟的虚拟化方案实现一定程度上的技术复用。”STE 工程师谢永吉对 InfoQ 说道。于是,VDUSE 框架应运而生。通过 VDUSE,开发者可以在一个用户进程中实现一个软件定义的 vDPA 设备,并可
14、以通过 vDPA 框架接入 virtio 或者 vhost 子系统,供容器或者虚机使用。根据介绍,具体的实现原理上,VDUSE 设备是由/dev/vduse/control 的ioctl(VDUSE_CREATE_DEV)创建的,通过这个 ioctl,用户空间可以为这个模拟设备指定一些基本配置,如设备名称(唯一标识 VDUSE 设备)、virtio 特性、virtio 配置空间、virtqueues 数量等等。然后,一个字符设备接口(/dev/vduse/$NAME)会 vii 中国卓越技术团队访谈录2022 第四季 被导出到用户空间用于设备模拟。用户空间可以在/dev/vduse/$NAME
15、 上使用VDUSE_VQ_SETUP ioctl 来初始化每个 virtqueue 的配置,如 virtqueue 的最大长度等。在初始化之后,VDUSE 设备可以通过 VDPA_CMD_DEV_NEW 这条 netlink 消息绑定到 vDPA 总线。之后,用户空间可以在/dev/vduse/$NAME 上通过 read()/write()来接收并回复来自 VDUSE 内核模块的一些控制请求,同时还可以通过 mmap()映射一段共享内存,与内核相应的 virtio 驱动进行数据通信。2020 年 10 月,STE 内核团队向 Linux 内核社区正式开源 VDUSE。经过一年时间,VDUSE
16、 在 Linux 5.15 版本被正式合入。“在计算存储分离的架构下,我们可以在计算节点通过 VDUSE 框架模拟各类存储设备供容器或虚机使用,这类存储设备的后端往往是远端的存储节点。现在,这套解决方案在字节的云原生场景已经开始大规模部署。后续,我们也将继续探索在云原生高性能网络场景上的应用可行性。”谢永吉说道。Linux 内核始终在向前演进,在 STE 工程师邓良看来,“随着云原生应用场景不断扩大、硬件朝着高密度应用异构的机型上发展,对 Linux 内核提出了新的要求。内核是连接底层硬件和上层云原生应用的一个桥梁,我们也在思考,当前这种单一的宏内核是否合适,并且我们也在做一些探索。”viii
17、 中国卓越技术团队访谈录2022 第四季 拥抱社区,让技术产出更大的收益和价值 如果说攻克技术难关靠的是技术硬实力,那么向社区推广并使其合入我们的代码,则要依靠足够多的耐心去沟通和布道。在与社区沟通上,STE 内核团队也积累了自己的经验。2020 年 9 月,当 HVO 第一个版本发到社区后,团队收到很多质疑的声音。“社区起初对我们的方案产生怀疑,我们需要先向社区证明这个方案没有问题。同时,社区也会提出一些针对性的问题,甚至有很多都是我们之前没有考虑过的场景。根据这些问题,我们再对方案进行迭代和维护。像 HVO,我们迭代了 20 多个版本,需要不断地向社区证明这个方案在不同场景的有效性,这个过
18、程持续了很长的时间。”回忆 HVO的社区之路,宋牧春觉得特别漫长。在他看来,社区需要考虑维护成本是否大于收益,这无可厚非,作为开发者和社区贡献者,要做的就是解释清楚技术方案能够产生的价值,让社区看到它带来的收益,并证明这个方案的可行性和稳定性。在企业内部,一套技术方案从开发到应用,这个链路并不复杂。但面向社区,开发人员需要考虑的问题就会更多。“很多时候,我们要突破自有场景,去看社区里的其他场景和痛点,而这些很可能是我们从来没有遇到过的。”显然,拥抱社区的沟通成本会很高,但在段熊春看来,为社区贡献代码能够实现双赢,这都是值得的。“现在我们的工作环境基本是模拟社区环境,工作模式也跟社区保持一致。这
19、种标准化的作业模式能有效降低代码的维护成本,同时社区思维的开阔性,也为我们思考问题提供了更多的思路,进而为技术创造价值提供了更多的可能性。”ix 中国卓越技术团队访谈录2022 第四季 走进“无人区”对于 STE 内核团队的愿景和目标,张宇用了三个“贴近”来描述:贴近业务,去了解业务的痛点;贴近社区,去了解社区的方向;贴近新硬件技术,在软硬协同设计上发挥内核更大价值。内核本身无法直接创造价值,更多是通过服务业务来创造价值。所以团队在做研发时,一定要想清楚对业务的收益是什么,它能否真正的解决业务痛点,进而创造业务价值。STE 内核团队多年来一直深入社区。基于开源 Linux 操作系统,团队做了一
20、些优化以满足企业内部的需求,反之,团队也会把这些好的特性回馈给社区,像前文提到的HVO 和 VDUSE 都已被合入 Linux 内核主线。在张宇看来,STE 内核团队并不是要做一个标新立异的操作系统,更多的是源自技术初心,希望能够把自身的力量贡献给社区,交给 Linux,再不断引进。张宇表示,STE 团队非常重视“务实”,这也是字节的核心价值观之一。“我们在做的事情都是围绕基础设施展开的,提高它的稳定性、优化性能等等,与公司内其他能直接创造收益的明星产品相比,我们是一个做减法的部门,通过技术手段降低基础设施成本,在业务链路里属于非常靠后的位置,就像足球场上的后卫一样,要能守住系统稳定性/可靠性
21、的基本盘不出问题,又要能够往前场助攻进球。回到团队的愿景来看,我的想法比较简单务实,希望团队先满足业务的需求,再高于业务需求、先于业务需求,做一些引领业界的技术。就像一开始,我们是跟着社区,跟着业界领先者的路径去走,但随着我们技术能力不断提升以满足业务场景多样性的需求,再往前走,必将进入无人区。”进入“无人区”后,没有方向的指引,也没有参照物,这才是最考验团队能力和韧性 x 中国卓越技术团队访谈录2022 第四季 的时候。“我希望团队有开拓精神,辨识出合理的方向并坚定的走下去,也许在过程中会有微调,但最后顶多画出来的路线是波浪线,而不是一条完全没有目标的曲线。”张宇说道。写在最后 直到今天,团
22、队对 HVO 的优化还在继续。2022 年 3 月,团队优化了 HVO 在 2 MB HugeTLB 的表现,与此前相比,它进一步将 2 MB HugeTLB 的 struct page 开销减少了 12.5%;2022 年 4 月,HVO 支持 ARM 64 架构;2022 年 5 月,HVO 支持运行时开关,不再束缚于 cmdline 的方式使能。依托 Linux 内核,团队在虚拟化、云原生、eBPF 等技术方向上也在继续探索着。“现在我们关注的比较多的场景,一个是云原生,这也是大家都在关注的方向,但当前并没有一个特别好的解决方案,甚至在云游戏的一些基础设施场景下,业界还没有形成一个标准;
23、另一个就是软硬协同,用软件的方式定义硬件,用硬件的方式来定义软件。目前我们也围绕这些方向在做一些研究。”张宇认为,“如果团队一直在做一些重复的事情,是没有激情与战斗力的,对团队的期待还是要在满足业务需求之上,去做一些引领业界的事情。”在张宇看来,做操作系统这类基础软件不是一时热情,是需要长期投入的。大浪淘沙沙去尽,沙尽之时见真金。“目前国内外大厂也都在围绕自己的业务场景做软硬一体的事情,涉及基础系统软件、芯片板卡服务器之类的硬件研发。在做的同时也要上升到社会责任感的层面上来看,能贡献多少力量。这些都是需要持续思考的。”xi 中国卓越技术团队访谈录2022 第四季 嘉宾介绍 张宇,字节跳动 ST
24、E 团队负责人 段熊春,字节跳动 STE 内核团队负责人 宋牧春,字节跳动 STE 工程师、Linux 内核社区 HugeTLB 和 Memory Cgroup 两个核心子模块的 maintainer 谢永吉,字节跳动 STE 工程师 邓良,字节跳动 STE 工程师 重 磅 访 谈 1 中国卓越技术团队访谈录2022 第四季 云与 AI 时代,金山办公再挖“金山”嘉宾:庄湧,姚冬,熊龙飞 作者:刘燕 有着超 30 年历史的国产老牌办公软件,如何在云与 AI 时代焕发新春?34 年,跨越 5 个时代 在国产办公软件发展史上,WPS 是公认的“鼻祖”。诞生于 1989 年的 WPS,如今已经走过了
25、 30 多个年头。放眼现在,也是为数不多的生命力如此持久的 IT 软件。1988 年 5 月,后来被盛赞为“中国第一程序员”的求伯君把自己关在深圳蔡屋围酒店的 501 房间,用一台 386 电脑天天敲代码,饿了就吃方便面,困了倒头就睡。“闭关”一年零四个月,他用汇编语言写下了 12 万 2 千行代码,WPS 1.0 版本从此诞生。当时,电脑刚进入中国,中文办公软件奇缺,这也正是 WPS 瞄准的机会。WPS 1.0推出后便很快占领了中文文字处理软件领域 90%以上的市场份额,销售额达到了6600 万元。曾经一度,WPS 几乎成了电脑的代名词,成为 PC 时代的闪耀新星。1992 年,雷军受求伯君
26、之邀加入金山,两个意气风发的年轻人立志让中国人都用上金山的办公软件。然而,WPS 很快迎来了一个强大的对手。1995 年,微软进入中国市场,微软 Office 2 中国卓越技术团队访谈录2022 第四季 来势凶猛,在 WPS 的地盘攻城略地。为了迎战,在 WPS 的基础上,金山花 3 年时间研发出了盘古组件,不料这款承载着求伯君和雷军“开天辟地”梦想的产品却遭遇滞销。在不速之客微软与横行的国内盗版软件双重夹击之下,那几年,金山进入了低谷期。200 多人的公司,只剩下 20 多人。为维持公司运转,求伯君卖掉了此前投资人奖给他的别墅,筹得了 200 万。为扭转局面,金山决定从头再来。2002 年
27、8 月,雷军提议花 3 年时间和金山账上仅有的 3500 万人民币重写 WPS。这显然不是一个简单的决定,此前 14 年的技术积累从此将放弃,无异于“自废武功”,而且前途未卜。但也必须绝地求生。100 多位工程师将以往运行了 14 年的架构全部推翻,在重写了500 多万行代码,重建了 100 多个版本后,金山 2005 年推出的 WPS 2005 实现了与 Office 深度兼容。而且,这次特别将 WPS 2005 压缩到了不足 20 兆的超小体积,还将个人版免费开放给个人用户,这些主动拥抱互联网时代的特性让 WPS 2005 改变了 Office 的市场格局。2010 年,移动互联网的大幕徐
28、徐拉开。金山觉得,弯道超车的机会要来了,便几乎投入了所有资源将重心转向移动端业务。2011 年,金山办公正式推出了移动端的WPS。前金山办公董事长葛珂曾表示,拥抱变化,而非躺在过去的功劳簿上等待被淘汰,希望 WPS 能在移动时代实现“为移动而生”。根据金山办公 2012 年 12 月发布的数据,移动版 WPS 累积用户数已达 3000 万,到 2012 年第三季度末,WPS 移动版连续 4 个季度的复合增长率超过了 176%,日新增用户达 19.5 万,约占全球安卓系统每日新增设备的 14.8%。3 中国卓越技术团队访谈录2022 第四季 移动互联网浪潮之下,衍生出了大量新的需求,例如多屏、多
29、设备。传统的人坐在电脑前操作办公文档的形式将不再单一。用户希望文档能在多设备间流转,多屏和多设备间的文件存储需求也不断增加。这样一来,云的诉求越来越强烈,通过云文档的方式完成设备间的流转将是新的解决方案。于是,2018 年,金山办公提出了“多屏、内容、云、AI”推动业务转型。“多屏”是指不局限于 PC 设备,同时覆盖移动端,如 Pad、移动手机、Web 等;“内容”指将 WPS传统的工具属性变成服务属性,提供内容服务。“云”指利用云存储技术,将原来office 传统的单机离线应用变成在线应用,基于云存储。“AI”是指通过 AI 能力开发创新性功能,AI 辅助办公以提高办公效率。2020 年,金
30、山办公加注“协作”,计划从用户需求出发,从提升用户办公效率出发,为用户提供更多协作产品。金山办公 CEO 章庆元认为,2020 年是协作办公的元年。在线办公正在迈入协作办公时代。回顾过去这 34 年来,金山办公经历了 PC 时代,互联网时代,移动互联网时代,云与 AI 时代,协作时代,几经沉浮,历经各时代变迁。结合时代以及客观环境的发展变化顺势而为,且坚持技术立业,已然是刻在金山骨子里的基因,这也正是 WPS 30多年来穿越 5 个时代仍然是办公软件常青树的秘诀。AI 如何颠覆办公?金山办公的进化之路,同样也是办公软件跟随时代的技术变化之路。4 中国卓越技术团队访谈录2022 第四季 近日,金
31、山办公高级副总裁庄湧在接受InfoQ采访时表示,办公软件正在往移动化、云化和智能化的方向发展。再加上这几年疫情所带来的远程办公的趋势,进一步坚定了云服务、云文档、智能文档的诉求和实际应用场景。本部分着重以 AI 技术在金山办公的技术创新与应用实践为例,展现这家老牌办公软件在智能化时代的蝶变。AI 上升为内部战略,老将重回金山办公组建 AI 团队 2017年,AI在金山办公内部被首次上升到战略地位,这一决策也顺应了当时AI的发展趋势。2016 年,AlphaGo 大战李世石,掀起了 AI 领域的又一轮热潮,与 3 年前深度神经网络所引领的学术界热潮相比,这一次热潮令工业界开始重新重视起 AI。一
32、些应用工程的大型开源项目开始出现,工业界的开源框架陆续开源,英伟达的 GPU 算力支持在 17 年左右慢慢成熟,这让 AI 在实际应用上变得更加可行。全球范围内做应用开发的企业开始逐步投入 AI 领域的算法工程研发。在感受到上述形势的变化后,作为一家以应用开发为主的企业,金山办公也开始有了一些新的动作。2017 年 5 月,告别金山十余年的老将姚冬重回老东家,担任金山办公副总裁。姚冬自 1998 年加入金山,此前曾负责过金山词霸、金山游侠等产品。此番重回金山,姚冬转型做 AI 方向的算法和工程产品,负责算法改进、推动工程落地、人才梯队建设工作。5 中国卓越技术团队访谈录2022 第四季 姚冬牵
33、头组建了金山办公的 AI 算法、工程和产品团队。目前,金山办公的 AI 团队约有百人规模,划分为基础设施、平台、产品和应用、基础算法等小组。当时站在风口浪尖的 AI 创业团队多数是学术背景出身,姚冬则决定从工程思维出发组班子。“我在起步阶段的想法是,如何将工程研发体系建立起来,怎么做出一些产品和功能,让 AI 能在工程上落地”。一直到现在,在 AI 团队内部,算法和工程并不泾渭分明,姚冬更加注重培养工程师的全栈能力。成立 5 年来,AI 团队在每一阶段侧重不同的目标,分“三步走”战略。前两年,团队更强调积累 AI 研发能力,包括算法能力,工程能力,数据采集,数据分析能力等。后两年更注重将技术产
34、品化,关注 AI 产品能力。姚冬表示,现阶段以及未来几年,AI 团队将把重心放到第三步产品业务化上,只有将产品变成业务,对用户及公司产生价值,创造营收和利润,才能实现长期可持续发展。AI 辅助提高办公效率 人类在办公领域所进行的智力活动分为两部分,一是创造力的部分,比如写文章、编故事、构建文档、表格。非创造力的部分不需要创意,但也需要进行一些智力操作,如文章排版、文字转图片、多语言互译等。创造性活动是人类特有的,今天的 AI 还无法完全替代那些创造力的部分。而在非创造力的部分,尤其是一些需要重复性工作的部分,如机器翻译、自动会议纪要、自动排版等,AI 可以帮助人们大幅提高办公效率。6 中国卓越
35、技术团队访谈录2022 第四季 庄湧介绍,AI 在办公领域的应用主要体现在三项技术上,CV(计算机视觉)领域的图像识别,自然语言处理(NLP)、语音处理。具体而言,在 CV 领域,金山办公结合办公场景做了很多智能化的应用,最有代表性的是在版式转流式的应用场景上,以前在 PC 时代,拍照扫描功能算不上 office 领域的功能,但在移动时代,已变成了常用功能,金山办公已在这方面做得比较成熟,且优势突出,例如在识别后的格式复原就是一项已在业内做到领先功能。与单纯的功能开发不同,NLP技术需要结合办公及文档的场景深入使用,引导用户来帮助提升算法,以提升 AI 的准确度。庄湧表示,在 NLP 方面,金
36、山办公自身积累了很多对办公用户有用的数据,这是其他厂商所不可比拟的。现在,WPS 还衍生出了智能辅助写作功能,只要根据提纲就能自动生成文字段落,帮用户打底稿。这些技术能力都由一个统一的 AI 中台对外输出。目前,金山办公 AI 中台面向计算机视觉、自然语言处理、语音处理等算法研究方向,围绕办公领域,开发出了近100项AI 能力。作为 AI 中台的负责人,姚冬在采访时表示,最近几年,中台十分火热,但它并不是适合所有公司的灵丹妙药。他认为,像办公软件这样生命较长且规模较大的软件项目,非常适合构建一个中台部门进行长期持续的技术投入。金山办公AI中台的构建过程是一个自我迭代的过程。2017年,在起步阶
37、段,AI中台仅有几个算法工程师负责搭建,随后几年间,随着新场景、新需求、业界新技术的探索,一点点自我成长。待自有算法平台成熟后,再向业务部门以及对外做输出和推广。7 中国卓越技术团队访谈录2022 第四季 现在,WPS 的 AI 中台能力已逐步对外开放。去年 7 月,金山办公宣布开源业界首个面向办公领域的深度学习框架 KSAI-lite。这套框架具有免费、开源、跨端的特性,自适应国内外主流软硬件平台,包括国产信创环境,在 OCR(光学字符识别)、机器翻译、智能校对等场景具有显著优势。这套框架的一个特色功能在于能够离线做 AI 计算。姚冬介绍,面向办公领域的框架与其他通用的框架不同,并非所有的
38、AI 计算都在服务端进行,有些计算一定要在客户端完成。这主要出于几个原因,一是用户数据需要保密,不能上传,必须在用户的电脑上处理,甚至有的客户不联网或在内网,必须在客户端完成计算。还有的计算要求算法执行快且实时,如果上传到服务器再返回,时间就过长了。因此,可以离线做AI 计算的框架就格外重要,无需依赖服务器,在断网的情况下,单机、手机或 PC 上都能使用。而且,这段框架一定要跨平台,跨多个设备,不必为每一个移动设备或PC 设备单独开发一套。去年在开放框架的同时,金山办公 AI 团队还开放出了一些内部模型,如 KSAI OCR开源模型。姚冬表示,团队后续还有计划开放更多模型,如校对、翻译模型,先
39、在内部落地,在应用迭代成熟后再对外开放。计算机视觉技术在 WPS 的技术创新 金山办公技术副总监、CV 团队负责人熊龙飞自 2018 年加入金山办公,他向 InfoQ介绍,CV 部门专注于 WPS 内的 CV 相关的需求,聚焦于 CV 算法和技术,从模型的研究到算法落地均有涉及,注重服务和功能的落地。目前已陆续落地了大大小小二十来个项目,其中包含 OCR 文字识别、文档矫正、字体识别、智能抠图、图像质量提 8 中国卓越技术团队访谈录2022 第四季 升等已经在 WPS 上线了两三年的功能。版式还原系统是 CV 团队最近两年最聚焦的项目。这套系统可以将复杂的图片型文档重新解析成可编辑的文档,例如
40、将扫描件 PDF 转化成 docx,将截图或拍摄的表格图片转化成 xlsx 或 HTML。其中表格还原除了可还原常规表格,还可以处理变形、污染、光线干扰的复杂场景,解决了用户在很多场景下对不可编辑文档进行再编辑的痛点。这套技术之所以被称为系统,是因为它不仅可以用于上述的文档转化,也可以用于扫描件 PDF 编辑和扫描件 PDF 及图片内文字的提取、复制和检索,可以大大提高技术能力在各类需求下的复用性。版式还原是姚冬坚持拍板要做的一个功能。已有的 PDF 转化业务用户满意度不高,姚冬认为,这个问题长久来看,必须解决。而且,这项技术自研可以产生巨大价值,值得投入。综合来看,基于金山办公的庞大用户基础
41、和数据积累以及在文档处理领域30 多年的技术积累,WPS 是国内最适合做这个项目的公司。目前,测试和线上灰度数据显示,这项已经开发 2 年多的系统在行业内已处于领先位置。近年来,CV 团队取得的其他创新成果还有:2019 年,金山办公将 OCR 模型在移动端本地实现推理,且模型体积不足 10M,准确度仅比服务端下落 2 个百分点。当时,行业里做这个功能的还是凤毛麟角。同年,WPS 上线了移动端拍摄对书本进行弯曲矫正的能力,到目前为止还未能有超越者。据熊龙飞透露,自去年以来,CV 团队正在推进多个项目,希望进一步解决用户在文档处理领域遇到的其他痛点。例如,以往,扫描件 PDF 编辑是一个老大难的
42、问题,9 中国卓越技术团队访谈录2022 第四季 尽管行业翘楚 Adobe Acrobat 等公司已经推出了扫描件编辑,但是效果和体验一直无法达到用户预期。金山办公 CV 团队正在研发的扫描件 PDF 编辑 v2 版抛弃了行业内通用的成熟方案,将通过团队自己构建的方案进行可编辑处理,预计这项功能会给用户带来明显的体验提升。视觉信息抽取(VIE)是最近一年来业内的一项热门新技术。它可以将 CV 和 NLP 两种模态结合起来对文档进行识别和解析,可以获得更高层次的信息抽取。“常规的 OCR 和版式还原有些类似人类阅读那样去识别介质上的文字和排版,这类能力被称为感知智能,而如果想像人那样在阅读时能联
43、想信息的关系和信息的扩展,则需要加入理解能力,可以获得文字之外的更高维度的信息,这个过程被称为认知智能。从感知智能到认知智能将会是一个大跨步,将会带来更高维度的文档内容理解的收益,这些收益将会给用户带来更多智能化的体验”,熊龙飞表示,目前金山的 AI 能力正在这一领域进行技术研究和产品化落地。“在未来,大家会发现 WPS 里的 AI 功能会越来越像一个人性化的助手,它帮助用户利用文档里的信息提高办公效率。未来,办公 AI 化的壁垒不在于算法 谈到 AI 在办公领域的应用趋势以及核心竞争力,姚冬认为,随着业界和学界不断地研发出一些新的算法,以及开源盛行,算力的提升和普及,未来 AI 技术的门槛将
44、会降低。这也就意味着,各家在算法能力上的差别将不会很大。那么,未来的差别来自哪里?姚冬认为,主要来自于对用户场景的挖掘。未来,谁有更多的用户场景,谁就拥有了“护城河”。10 中国卓越技术团队访谈录2022 第四季 凭借过去 30 多年的技术积累,WPS 在上述方面已逐渐形成了核心优势。WPS 的用户量级非常之大,且用户场景具备多样性,复杂度也高。即便是一个小众场景,也有几百万用户,这将构筑起 WPS 在办公领域的壁垒。老牌办公软件的华丽转身 技术团队如何拥抱时代变化 从 PC 时代到云与AI时代,跨越如此长的时间维度,每一次大的转型对于技术团队来说,都是不小的考验。“有时候,当时代的发展趋势以
45、及场景的变化来临时,产研需要敏锐地把握住。但有时候跟进得太早,也会出现一些超前带来的问题。反而,如果一直都挺努力,即便表现平平,也会产生事半功倍的效果”,庄湧表示,如何把握这种应变之道并不容易。金山办公也走过一些弯路。比如,金山办公很早就抓住了从工具到服务转变的契机,开始做云文档。但因为做得太早,当时网络条件还不算成熟,加上账号便利性不够,移动端还没起来时多设备的诉求还不高,技术转型面临较多外部掣肘因素。随着云转型后,WPS 的登录用户越来越多,云文档的稳定性和安全性也经受了挑战。一方面,需要为用户提供 724 小时无间断地服务。但真正做得不出任何问题,是不可能的。这时候的应对思路就是,一旦出
46、现问题,应最大程度上降低受影响的用户比例以及影响深度。为此,金山办公团队花了很长的时间来建设云文档的稳定性和安全 11 中国卓越技术团队访谈录2022 第四季 性,在团队组织架构上也发生了很大的转变。无论是 windows 还是移动时代,程序员的比例和研发经验都以客户端为主,客户端研发更多是从崩溃的角度看稳定性,而服务端角度要确保 724 小时无间断地不能有服务异常。在开始往云与 AI 转型后,研发人员尤其是服务端研发人员的比例和经验远远不够,需要不断成长不断积累,在这期间,也会短暂地出现因经验不足造成的一些问题。如今公司的研发力量一半来自于云,服务端的研发力量比例显著提升,在 C+之外,Ja
47、va、Go 等研发人员增加,数据库、缓存、容器、存储等都有了专门的工程师,复合型人才增加,技术栈变得更加多样,服务端经验也在不断迭代和摸爬滚打中积累下来。得失并存,更多的是在变化中成长。“在探路过程中,我们学会了耐心。团队也越来越认同各个方向的转向,未来,对云、AI 等技术,我们会继续持之以恒地投入”。庄湧说道。然而不变的是,金山办公一直以来,崇尚技术的文化氛围。“我们内部的研发模式一直在随着业界的趋势走,但整个文化氛围上还是很务实的风格,贴近产品和业务,最近一两年包括未来几年,我们都倾向于业务落地”。姚冬说。转型已经渐显成效 转型以来,金山办公已经走到了一个新的节点。12 中国卓越技术团队访
48、谈录2022 第四季 谈到转型成果,庄湧表示,“自云与 AI 战略实施以来,一直到去年,我们在自己心目中才觉得 WPS 真正意义上达到了云文档的稳定性以及安全性的基本成果”。从 PC 时代到云与AI时代,基于云已经做到了成型的水平,原来从传统的工具软件往云服务化转型,已经迈过了初步阶段,到了渐成规模的阶段,但还没到实现完整性的程度,准确地说,到了半云化的阶段。从 0 到 1 的阶段已经迈过了,客户端版本的使用,工具的使用,已经跨越到了用户主动接受、愿意登录使用办公软件,并且享受上云后的便利服务。与此同时,AI 技术能力的加入,为用户提供了整个云文档从创作到编辑再到发布、分享、协作、归档、搜索等
49、,贯穿整个生命周期的智能化体验。“我之所以说,是一个半云化的阶段,还没达到心中满意的程度,是因为在目前的阶段中,虽然用户接受,但不是全部的用户接受。有一些用户还没有意识到上云的好处,仍继续把 WPS 当作一个传统的办公工具在使用。此外,上云后,更多的用户还是在被动体验云后的服务,比如,很多用户使用金山文档的微信小程序查看和编辑文档,但很多时候,他们并没有意识到或者说根本不知道他们正在使用的这款产品是金山文档”。“因此,这对我们来说,至少是万里长征的一小步,还需更多的、真正意义上的云化的或端云一体化的、云化的办公产品和服务,我们还需要再投入更多的时间以及更多的资源去完善”。庄湧表示。13 中国卓
50、越技术团队访谈录2022 第四季 嘉宾介绍 庄湧:金山办公高级副总裁 毕业于浙江大学计算机科学与技术专业。现任金山办公高级副总裁、研发中台事业部总经理。2003 年至 2011 年,先后担任金山办公项目经理、技术总监,负责 WPS 演示项目开发、毒霸单机版研发等工作,成功组建并管理日本金山研发团队,同时协助参与 WPS 从工具软件向服务转型;2012 年至 2014 年,担任金山办公 WPS iOS 产品研发总监,成功带领团队研发 iPhone 和 iPad 设备端的办公软件产品;2015 年至2018 年,担任金山办公副总裁,全面负责包括 WPS 桌面版、Linux 版和移动版的研发管理工作