《2022年网络游戏前端服务器的需求和设计分享 .pdf》由会员分享,可在线阅读,更多相关《2022年网络游戏前端服务器的需求和设计分享 .pdf(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、网络游戏前端服务器的需求和设计首先介绍一下这个服务器的技术背景。在分布式网络游戏服务器中,前端连接服务器是一种很常见的设计。他的职责主要有:1. 为客户端和后端的游戏逻辑服务器提供一个软件路由客户端一旦和前端服务器建立 TCP 连接以后就可以通过这个连接和后端的游戏服务器进行通讯,而不再需要和后端的服务器再建立新的连接。2. 承担来自客户端的IO 压力 一组典型的网络游戏服务器需要服务少则几千多则上万(休闲游戏则可以多达几十万)的游戏客户端,这个IO 处理的负载相当可观,由一组前端服务器承载这个IO 负担可以有效的减轻后端服务器的IO 负担,并且让后端服务器也只需要关心游戏逻辑的实现,有效的实
2、现IO 和业务逻辑的解耦。架构如图:对于网络游戏来说,客户端与服务器之间需要进行频繁的通讯,但是每个数据包的尺寸基本都很小, 典型的大小为几个字节到几十个字节不等,同时用户上行的数据量要比下行数据量小的多。不同的游戏类型对延迟的要求不太一样,FPS 类的游戏希望延迟要小于50ms ,MMO 类型的 100 400ms ,一些休闲类的棋牌游戏1000ms左右的延迟也是可以接受的。因此,网络游戏的通讯是以优化延迟的同时又必须兼顾小包的合并以防止网络拥塞,哪个因素为主则需要根据具体的游戏类型来决定。技术背景就介绍这些,后面介绍的IOCP 连接服务器就是以这些需求为设计目标的。对 IOCP服务器框架的
3、考察名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 1 页,共 6 页 - - - - - - - - - 在动手实现这个连接服务器之前,我首先考察了一些现有的开源IOCP 服务器框架库, 老牌的如 ACE ,整个库太多庞大臃肿,代码也显老态,无好感。boost.asio据说是个不错的网络框架也支持IOCP ,我编译运行了一下他的例子,然后尝试着阅读了一下asio的代码,感觉非常恐怖,完全弄不清楚内部是怎么实现的,于是放弃。 asio秉承了 boost一贯的变态作风,将 C+的语言技
4、巧凌驾于设计和代码可读性之上,这是我非常反对的。其他一些不入流的IOCP 框架也看了一些,真是写的五花八门什么样的实现都有,总体感觉下来IOCP 确实不太容易把握和抽象,所以才导致五花八门的实现。最后,还是决定自己重新造轮子。服务框架的抽象任何的服务器框架从本质上说都是封装一个事件(Event)消息循环。而应用层只要向框架注册事件处理函数,响应事件并进行处理就可以了。一般的同步IO 处理框架是先收到IO 事件然后再进行IO 操作, 这类的事件处理框架我们称之为Reactor。而 IOCP 的特殊之处在于用户是先发起IO 操作,然后接收IO 完成的事件,次序和Reactor是相反的,这类的事件处
5、理框架我们称之为Proactor。从词根Re 和 Pro 上,我们也可以容易的理解这两者的差别。除了网络IO 事件之外, 服务器应该还可以响应Timer事件及用户自定义事件。框架做的事情就是把这些事件统统放到一个消息队列里,然后从队列中取出事件,调用相应的事件处理函数,如此循环往复。IOCP 为我们提供了一个系统级的消息队列(称之为完成队列),事件循环就是围绕着这个完成队列展开的。 在发起 IO 操作后系统会进行异步处理(如果能立刻处理的话也会直接处理掉),当操作完成后自动向这个队列投递一条消息,不管是直接处理还是异步处理,最后总会投递完成消息。顺便提一下:这里存在一个性能优化的机会:当IO操
6、作能够立刻完成的话,如果让系统不要再投递完成消息,那么就可以减少一次系统调用(这至少可以节省几个微秒的开销),做法是调用SetFileCompletionNotificationModes(handle, FILE_SKIP_COMPLETION_PORT_ON_SUCCESS),具体的可以查阅MSDN。对于用户自定义事件可以使用Post来投递。对于Timer事件,我的做法则是实现一个Tim erHeap的数据结构,然后在消息循环中定期检查这个TimerHeap,对超时的Timer事件进行调度。IOCP 完成队列返回的消息是一个OVERLAPPED结构体和一个ULONG_PTR com ple
7、te_key。complete_key是在用户将Socket handle关联到IOCP 的时候绑定的,其实用性不是很大,而OVERLAPPED结构体则是在用户发起IO 操作的时候设置的,并且OVERLAPPED结构可以由用户通过继承的方式来扩展,因此如何用好OVERLAPPED结构在螺丝壳里做道场,就成了封装好IOCP 的关键。这里,我使用了一个C+ 模板技巧来扩展OVERLAPPED结构,先看代码:struct IOCPHandler virtualvoid Complete(ULONG_PTR key, DWORD size) = 0; virtualvoid OnError(ULONG
8、_PTR key, DWORD error) virtualvoid Destroy() = 0; ; 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 6 页 - - - - - - - - - struct Overlapped : public OVERLAPPED IOCPHandler* handler; ; template struct OverlappedWrapper : T Overlapped overlap; OverlappedWrapper()
9、ZeroMemory(&overlap, sizeof(overlap); overlap.handler = this; operator OVERLAPPED*()return &overlap; ; IOCPHandler是用户对象的接口,用户扩展这个接口来实现IO 完成事件的处理。然后通过一个 OverlappedWrapper 的模板类将用户对象和OVERLAPPED结构封装成一个对象,T 类型就是用户扩展的对象,由于用户对象位于OVERLAPPED结构体的前面,因此我们会将 OVERLAPPED的指针传递给IO 操作的 API , 同时我们在OVERLAPPED结构的后面还放置了一
10、个用户对象的指针,当GetQueuedCompletionStatus接收到 OVERLAPPED结构体指针后,我们通过这个指针就可以找到用户对象的位置了,然后调用虚函数Complete或者OnError就可以了。图解一下对象结构:在事件循环里的处理方法:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 6 页 - - - - - - - - - DWORD size; ULONG_PTR key; Overlapped* overlap; BOOL ret = :GetQ
11、ueuedCompletionStatus(_iocp, &size, &key, (LPOVERLAPPED*)&overlap, dt); if (ret) if(overlap = 0) OnExit(); break; overlap-handler-Complete(key, size); overlap-handler-Destroy(); else DWORD err = GetLastError(); if(err = WAIT_TIMEOUT) UpdateTimer(); elseif(overlap) overlap-handler-OnError(key, err);
12、overlap-handler-Destroy(); 在这里利用我们利用了C+的多态来扩展OVERLAPPED结构,在框架层完全不用关心接收到的是什么IO 事件,只需要应用层自己关心就够了,同时也避免了使用丑陋的难于扩展的switch.case结构。对于异步操作来说,最让人痛苦的事情就是需要把原本顺序逻辑的代码强行拆分成多块来回调,这使得代码中原本蕴含的顺序逻辑被打散,并且在各个代码块里的上下文变量无法共享,必须另外生成一个对象放置这些上下文变量,而这又引发一个对象生存期管理的问题,对于没有GC 的 C+ 来说尤其痛苦。 解决异步逻辑的痛苦之道目前有两种方案:一种是用coroutine(协作式
13、线程) 将异步逻辑变成同步逻辑,在Windows上可以使用Fiber来实现 coroutine;另一种方案是使用闭包,闭包原本是函数式语言的特性,在C+ 里并没有,不过幸运的是我们可以通过一个稍微麻烦一点的方法来模拟闭包行为。coroutine在解决异步逻辑方面是最拿手的,特别是一个函数里需要依次进行多个异步操作的时候尤其强大(在这种情况下闭包也相形见拙),但是另一方面coroutine的实现比较复杂,线程的手工调度常常把人绕晕,对于IOCP 这种异步操作比较有限的场景有点杀鸡用牛刀的感觉。因此最后我还是决定使用C+ 来模拟闭包行为。这里演示一个典型的异步IO 用法,看代码:一个异步发送的例子
14、:这个例子中, 我们在函数内部定义了一个SendHandler对象, 模拟出了一个闭包的行为,我们可以把需要用到的上下文变量放置在SendHandler内, 当下次回调的时候就可以访问到这些变量了。本例中,我们在SendHandler里记了一个cookie,其作用是当异步操作返回时,可能这个Client对象已经被回收了,这个时候如果再调用EndSend必然会导致错误的结果,因此我们通过cookie来判断这个Client对象是否是那个异步操作发起时的Client对象。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 -
15、 - - - - - - 第 4 页,共 6 页 - - - - - - - - - 使用闭包虽然没有coroutine那样漂亮的顺序逻辑结构,但是也足够方便你把各个异步回调代码串起来,同时在闭包内共享需要用到的上下文变量。另外,最新版的C+ 标准对闭包有了原生的支持,实现起来会更方便一些,如果你的编译器足够新的话可以尝试使用新的C+特性。IO 工作线程单线程 vs 多线程在绝大多数讲解IOCP 的文章中都会建议使用多个工作线程来处理IO 事件,并且把工作线程数设置为CPU 核心数的2 倍。根据我的印象,这种说法的出处来自于微软早期的官方文档。不过,在我看来这完全是一种误导。IOCP 的设计初
16、衷就是用尽可能少的线程来处理IO 事件,因此使用单线程处理本身是没有问题的,这可以使实现简化很多。反之,用多线程来处理的话,必须处处小心线程安全的问题,同时也会涉及到加锁的问题,而不恰当的加锁反而会使性能急剧下降,甚至不如单线程程序。有些同学可能会认为使用多线程可以发挥多核CPU 的优势,但是目前 CPU 的速度足够用来处理IO 事件,一般现代CPU 的单个核心要处理一块千兆网卡的IO事件是绰绰有余的,最多的可以同时处理2 块网卡的IO 事件,瓶颈往往在网卡上。如果是想通过多块网卡提升IO 吞吐量的话,我的建议是使用多进程来横向扩展,多进程不但可以在单台物理服务器上进行扩展,并且还可以扩展到多
17、台物理服务器上,其伸缩性要比多线程更强。当时微软提出的这个建议我想主要是考虑到在IO 线程中除了IO 处理之外还有业务逻辑需要处理,使用多线程可以解决业务逻辑阻塞的问题。但是将业务逻辑放在IO 线程里处理本身不是一种好的设计模式,这没有很好的做到IO 和业务解耦,同时也限制了服务器的伸缩性。良好的设计应该将IO 和业务解耦, 使用多进程或者多线程将业务逻辑放在另外的进程或者线程里进行处理,而IO 线程只需要负责最简单的IO 处理,并将收到的消息转发到业务逻辑的进程或者线程里处理就可以了。我的前端连接服务器也是遵循了这种设计方法。关闭发送缓冲区实现自己的nagle算法IOCP 最大的优势就是他的
18、灵活性,关闭socket上的发送缓冲区就是一例。很多人认为关闭发送缓冲的价值是可以减少一次内存拷贝的开销,在我看来这只是捡了一粒芝麻而已。主流的千兆网卡其最大数据吞吐量不过区区120MB/s,而内存数据拷贝的吞吐量是10GB/s以上, 多一次 120MB/s数据拷贝,仅消耗1% 的内存带宽,意义非常有限。在普通的Socket编程中,我们只有打开nagle算法或者不打开的选择,策略的选择和参数的微调是没有办法做到的。而当我们关闭发送缓冲之后,每次Send操作一定会等到数据发送到对方的协议栈里并且收到ACK 确认才会返回完成消息,这就给了我们一个实现自定义的nagle算法的机会。对于网络游戏这种需
19、要频繁发送小数据包,打开nagle算法可以有效的合并发送小数据包以降低网络IO 负担,但另一方面也加大了延迟,对游戏性造成不利影响。有了关闭发送缓冲的特性之后,我们就可以自行决定nagle算法的实现细节,在上一个send操作没有结束之前,我们可以决定是立刻发送新的数据(以降低延迟),还是累积数据等待上一个send 结束或者超时后再发送。更复杂一点的策略是可以让服务器容忍多个未结束的send操作,当超出一个阈值后再累积数据,使得在IO 吞吐量和延迟上达到一个合理的平衡。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理
20、- - - - - - - 第 5 页,共 6 页 - - - - - - - - - 发送缓冲的分配策略前面提到了关闭socket的发送缓冲,那么就涉及到我们自己如何来分配发送缓冲的问题。一种策略是给每个Socket分配一个固定大小的环形缓冲区。这会存在一个问题:当缓冲区内累积的未发送数据加上新发送的数据大小超出了缓冲区的大小,这个时候就会碰上麻烦,要么阻塞以等待前面的数据发送完毕(但是IO 线程不可以阻塞),要么干脆直接把Socket关闭,一个妥协的办法是尽可能把发送缓冲区设置的大一些,但这又会白白浪费很多内存。另一种策略是让所有的客户端socket共享一个非常大的环形缓冲区,假设我们保留
21、一个1G 的内存区域给这个环形缓冲区,每次需要向客户端发送数据时就从这个环形缓冲区分配内存,当缓冲区分配到底了再绕到开头重新分配。由于这个缓冲区非常大,1G 的内存对千兆网卡来说至少需要花费10s 才能发送完,并且在实际应用中这个时间会远超10s 。因此当新的数据从头开始分配的时候,老的数据早已经发送掉了,不用担心将老的数据覆盖,即使碰到网络阻塞,一个数据包超过10s 还未发送掉的话,我们也可以通过超时判断主动关闭这个socket。socket池和对象池的分配策略允许 socket重用是 IOCP 另一个优势,我们可以在server启动时,根据我们对最大服务人数的预计, 将所有的socket资
22、源都分配好。 一般来说每个socket必需对应一个client对象,用来记录一些客户端的信息,这个对象池也可以和socket绑定并预先分配好。在服务运行前将所有的大块对象的内存资源都预先分配好,用一个FreeList来做对象池的分配,在客户端下线之后再将资源回收到池中。这样就可以避免在服务运行过程中动态的分配大的对象,而一些需要临时分配的小对象(例如OVERLAPPED结构),我们可以使用诸如tcm alloc之类的通用内存分配器来做,tcm alloc内部使用小对象池算法,其分配性能和稳定性非常好,并且他的接口是非侵入式的, 我们仍然可以在代码里保留malloc/free及 new/delete。很多服务在长期运行之后出现运行效率降低,内存占用过大等问题,都跟频繁的分配和释放内存导致出现大量的内存碎片有关。所以做好服务器的内存分配管理是至关重要的一环。待续 . 下一篇将通过几个压力测试和profiling的例子, 来分析服务器的性能和瓶颈所在,请大家关注。名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 6 页 - - - - - - - - -