通用听见智能会议系统建设设计规划方案设计(一体机).doc-淘文阁

资源描述

《通用听见智能会议系统建设设计规划方案设计(一体机).doc》由会员分享，可在线阅读，更多相关《通用听见智能会议系统建设设计规划方案设计(一体机).doc（25页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、#*听见智能会议系统听见智能会议系统建设方案建设方案安徽听见科技有限公司安徽听见科技有限公司 20172017 年年 1 1 月月#*目录1.1.项目概述项目概述.1 1.1. 建设背景 1 1.2. 建设重要性 12.2.建设内容及目标建设内容及目标 .13.3.产品施工条件产品施工条件.24.4.建设方案建设方案.2 4.1. 系统概述 2 4.2. 软件详细配置4 4.2.1.中文语音转写引擎 4 4.2.2.应用系统基本功能 4 4.2.2.1.用户管理 5 4.2.2.2.音频采集处理 5 4.2.2.3.实时语音转写 5 4.2.2.4.历史语音转写 5#*4.2.2.5.内容编

2、辑 6 4.2.2.6.效果优化 7 4.2.2.7.内容展示 7 4.2.2.8.内容管理 8 4.2.2.9.全文检索 8 4.3. 硬件设备配置9 4.3.1.一体式智能会议主机 9 4.3.2.应用端主控电脑 105.5.项目报价项目报价.10#*1.1.项目概述项目概述1.1.建设背景建设背景随着信息时代的到来，海量语音的获取和存储能力愈发强大，基于会议办公的实际场景，会存在需要大量的人力投入、工作效率不高的情况、语音技术在会议场景中的应用质量和效果不高。因此，结合会议会务场景对语音技术的实际应用需求，开展了基于会议场景下的语音技术应用关键技术研究，突破语音合成、语音

3、识别、语音转写等核心技术，提升语音技术在会议会务场景中的应用水平，切实提升日常会议办公的工作效率和效果。1.2.建设重要性建设重要性语音识别（Speech Recognize ）技术，是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术，目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜#*索、语音控制等全新应用领域的深入应用，语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来，语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发，可满足会议演讲、会议研讨、

4、沟通交流、大型会议等一系列需要进行实时文字转写的场景。此部分项目的实施主要解决会议记要整理时间长、会议中心思想因记录人员的理解而可能出现的偏差、会议录音及关键点难以查找等问题。项目建成后当天即可完成所有相关会议记要的整理工作，同时，每一个人的发言均可记录在纪要当中，可有效减少因不同原因造成的会议中心内容理解的偏差，提升纪要整理的效率。2.2.建设内容及目建设内容及目标标本项目计划选取 1 个会议室分别部署单机版听见智能会议系统，进行基于会议场景下的新型语音转写技术的应用，实现会#*议过程中音频实时转写成文字，辅助会议记录人员进行纪要的整理与校正，实现快速成稿，在整

5、体上打造样板化智能语音转写会议室。3.3.产品施工条件产品施工条件听见智能会议系统的部署环境整体要求如下：电源电源机柜要机柜要求求音频接音频接口口麦克麦克风风视频接视频接口口环境指标要求1.5KW高度： 6U 深度： 500MM 对应机柜托盘一个需提供一路音频接口，支持卡侬公或大三芯或双莲花需配置麦克风对每个说话人声音进行采集如需上屏，需提供投屏接口，支持 HDMI 或 VGA详细说明如下：环境要求智能会议系统采用专业定制一体机的硬#*件形态，一体机的安装机柜需要 6U 空间，安装于正常室外室内即可，设备深度为 500MM，

6、系统本身局域网组建自带，网络带宽在 100M 以上，主控 PC 需要连接局域网下使用，整套设备局域网下运行即可。同时需要 1.5KW 电源。音视频需求该系统是基于音频基础上实现语音转写，麦克风等音响设备利用会议室现有环境。为实现对现场音频的采集，需要现场音响设备（调音台或相关音频设备）提供会议话筒音频供转写，同时设备接口支持卡侬公、大三芯（6.5）、双莲花输入。如有展板上屏需求，需要会议室内配有投影仪或者电视机，且具备 VGA 或者 HDMI 接口任意一种，展板通过连接投影仪或者电视机进行投屏展示。4.4.系统连线图系统连线图听见智能会议系统的配套硬件设备，其形态

7、为：通过国家 CCC 认证和专业定制一体机+应用端主控电脑。一体式智能会议主#*机为讯飞听见专业定制设备，集成了包括服务节点、应用节点、声卡、显示器、路由器等部件，用于部署引擎等核心能力软件，并提供录音服务处理、数据传递等能力；主控端笔记本电脑主要用于部署客户端软件，控制会议的开始和结束，提供软件各个功能的操作。会议室现场的发言音频输出给一体机，同时如需显示，一体机支持显示输出，主控电脑通过网线与一体机连接，整套产品即可使用。一体机整体外观图示意图及背后面板图如下：#*参数说明：参数说明：整机电源：AC 100-240V 700W；服务器节点：XEON 2.6G 20

8、M 2011P 8CORE，E5-2620 V3*2；32G DDR4 REG/ECC；接口 2*千网口（ Intel I210AT ），1* RS232，GPIO，Watch dog，VGA-切换器；USB：6*USB(前置1*USB2.0+后置（2*USB 2.0/2*USB 3.0）；应用节点：CORE 3.2G 6M 1151P 4 CORE I5-6500；8G DDR4，2*千兆网口（ Intel 82579V ）1*千兆网口（ Intel 82579V ），1*RS 232，1*VGA，1*PS2，外接：DVI转 HDMI；坦克声卡：一个麦克风输入并自带音量增益旋

9、钮,XLR/6.3mm混合式接头一#*个乐器输入并自带音量增益旋钮, 6.3mm接头 4个模拟输入(RCA接头) 一组唱盘输入并内建RIAA等化放大及自带音量增益旋钮 6个模拟输出(RCA 接头) 一个耳机接孔(6.3mm接头)并自带音量增益旋钮一个光纤数字输出/输入一个同轴数字输出/输入一组MIDI I/O。产品连线说明：产品连线说明：本产品为一体机形态，只需要接通一根电源线、一根音频线、一根视频线，并通过一根网线连接主控，就可使用。#*5.5.建设方案建设方案5.1.系统概述系统概述听见智能会议系统由软件、硬件共同构成，实现在会议场景下的实时音频或录音采集，并通过

10、语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料；并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果；同时，用户可以使用全文检索功能方便检索历史音频。系统具备会议音频管理、即时校对编辑、敏感词屏蔽、转写文字实时直播等基本功能。一体机主控电脑实时字幕麦克风#*5.2.性能参数性能参数系统关键性能指标如下： 1)转写结果能够实时上屏展示； 2)转写结果能够音字对照、编辑校正； 3)普通话转写指标：安静环境下的标准普通话转写正确率90%； 4)系统响应指标：常规页面操作的响应时间5 秒； 5)转写效率指标：实时语音

11、转写效率 500 毫秒。 5.3.软件软件功能功能配置配置5.3.1. 中文语音转写引擎中文语音转写引擎听见智能会议系统需要解决语音转换成文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术，通过将人的语音直接转换成相应的文本。语音识别技术的研究工作开始于上世纪五十年代。Bell 实验室的研究人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息，有史以来第一次实现了识别十个英文数字的语音识别系统-Audry 系统。八#*十年代，Bell 实验室的 Rabiner 等科学家将原本艰涩难懂的隐马尔科夫模型（Hidden Markov Model-HMM）理论工

12、程化，形成了较为完善的概率统计模型体系，识别性能也得到了很大的提高。2006 年以来 Deep Learning 理论和技术成为了模式识别领域的一个热门研究方向，G. E. Hinton 等深入研究了深度置信网络（Deep Belief Network-DBN）以及深度神经网络（Deep Neural Network-DNN）等模型结构，微软通过与 Hinton 合作率先将 DNN 应用于语音识别任务，识别性能取得了显著提升。此后谷歌、蒙特利尔，以及 IBM 又将循环神经网络（Recurrent Neural Netwok- RNN）成功应用于语音识别领域，特别是长短时记忆（

13、Long-Short Term Memory）神经网络结构，取得非常出色的语音识别性能。加上目前图形处理器（GPU）计算能力的提升，以及互联网时代大规模标注数据获取成为可能，基于深度学习的语音识别技术已经在多个领域达到实用水平。传统的语音识别技术主要用于解决人与#*机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互，听见智能会议系统需要基于机器语音识别技术构建语音转写引擎。听见智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间交流的语音转换为文字的能力，具体包括中文语音转写引擎与英文语音转写引擎，本系统需要完成中文语音转写引擎的建设。

14、5.3.2. 应用系统基本功能应用系统基本功能听见智能会议系统，可以实现在会议、教学、演讲等场景下的实时音频或录音采集，并通过语音识别技术实时转化为文字。用户可以通过系统提供延时播放、按句回听、重点标记等功能方便快速整理出会议材料；并且通过系统提供的语气词过滤、自动分段等功能自动优化文字结果，可人工进行角色分离；同时，用户可以使用全文检索功能方便检索历史音频。 5.3.2.1.5.3.2.1. 实时语音转写实时语音转写听见智能会议系统需要通过对实时音频#*流信号的处理完成从信号获取、转换、处理、识别、输出、展示等一整套流程动作，需要由强大的音频采集处理模块。系统讲通过使

15、用特定的录音服务，通过麦克风收集后，送达后台服务端完成编码工作，实时上传到系统，供后续的转写文字等功能使用，同时保存到内容管理模块中。系统通过专业麦克风对会议全程进行高保真录音,并针对连续中文语流进行实时语音转写识别，并持续进行转写结果文本内容的输出。 5.3.2.2.5.3.2.2. 历史语音转写历史语音转写相比于实时语音转写模块，历史语音转写模块提供对于已经录制好的历史音频需要转写情况下的解决能力；用户可以通过系统提供的功能按钮，导入历史音频并实现快速离线转写；支持音频批量导入。 #*图：历史音频转写编辑效果图 5.3.2.3.5.3.2.3. 内容编辑内容编辑在

16、实时语音转写过程中用户可以实时对转写出的文本结果进行编辑，并进行重点内容标记。在实时编辑的过程中采用延时播放的策略，用户可以在查看到转写文本之后及时根据听到的音频进行文本校对编辑。用户也可不戴耳机直接听现场的实时音频。支持选择查看原始结果，对比修改，方便快捷，会议结束后即可直接成稿,并根据重点内容，整理导出会议纪要。具体功能包括：延时播放：延时播放：在实时语音转写过程中,识别结果展现之后再开始连续播放音频，即用户在看到转写文本的时候，同步听到对应#*的音频,使得校对和编辑更加便利。重点内容标记：重点内容标记：在实时语音转写过程中或者暂停和结束时，用户均可以选中文本

17、来进行重点内容的标记，已标记的文本也可以进行修改和标记取消，方便整理会议纪要，会议结束会后即可或直接成稿。音字对照：音字对照：在实时语音转写暂停的时候，用户如果对于有些内容没有听清，对于文本内容不确定的情况下，双击原始结果即可听到文本对应的音频，方便用户对写结果进行编辑，尤其是不小心误删除了编辑文本，可以通过回听原始结果来进行回溯。实时语音转写结束状态时，原始结果及编辑结果均可双击进行音频回听。图：实时语音转写效果图#*5.3.2.4.5.3.2.4. 效果优化效果优化在实时语音转写过程中，听见智能会议系统通过提供语气词过滤、自动分段等功能自动优化文字转写和显示结

18、果。具体包括：自动分段：自动分段：在会议内容实时语音转写成文字的过程中，为了方便用户编辑何查看，系统提供根据 VAD+固定字数和 VAD+固定关键词两种自动分段方式。系统提供最佳的默认自动分段方式，用户也可根据实际情况进行设置。语气词过滤：语气词过滤：用户可以在实时语音转写开始前或者进行文稿整理时可以根据需要选择是否开启语气词过滤按钮，若开启按钮可将语气词和多余的词汇去除，以保证文稿的规整。语气词过滤只针对新转写的结果，已经修改过的内容不支持过滤。关键词优化：关键词优化：用户可通过关键词优化功能将此次会议相关的关键词进行添加，能有效提升该关键词的识别准确率。实

19、时转写过程中用户也可添加关键词，并且可以实时生效，后续识别结果可得到有效优化。#*5.3.2.5.5.3.2.5. 内容展示内容展示系统通过提供展板上屏等形式进行实时语音转写结果的展示。具体功能包括：实时上屏：通过展板上屏展示中实时语音转写结果。并且，字体颜色和展板背景颜色可以根据实际情况需要进行调整。图：展板效果图上屏后台修改：如果在实时转写过程中使用了实时上屏功能,希望保障上屏效果，那么可以使用上屏后台修改功能进行展板端的结果纠正。在开始时点击展板按钮，调出展板，此时该展板端会同步出现识别文字。如果在转写过程中出现明显错误或#*不适宜展示的词语，则可以在主控端进行

20、展板编辑，可以修改或删除,修改之后按 Enter 键则修改的内容会同步到现场的投影屏幕上。 5.3.2.6.5.3.2.6. 内容管理内容管理所有通过听见智能会议系统转写的实时录制的音频文本数据和本地上传的音频文本数据系统都会以列表形式进行管理，后台通过分布式存储集群实现高效安全存储，整个过程用户无感知。用户可以通过内容管理模块随时查看和编辑，并且可以根据名称等信息快速检索。此外，编辑后的全文本、重点文本以及音频、某一角色的文本，用户都可以快速导出,方便快捷。系统通过自然语言理解、语音识别和语义分析技术理解用户意图，执行用户的检索指令（包括语音、文本等），实现资源

21、文本内容的语音搜索服务能力，不仅能检索文本资源，也能根据文件名对音视频内容进行搜索。该服务在传统的文字输入搜索方式基础上，不仅能支持搜索语音时的相对自由表述，也应当能够支持传统文字检#*索时的相对自由表述。5.4.硬件硬件参数参数配置配置听见智能会议系统的配套硬件设备，具体包括：一体式智能会议主机、应用端主控电脑。产品参数如下：名名称称参数配置参数配置数数量量单单位位定制一体机讯飞听见专业定制一体式智能会议主机，提供 4U 设备形态，集成了包括服务节点、应用节点、声卡、显示器、路由器等部件。服务节点配置：2*E5-2620V3 2.6GHZ/32G/900

22、G*3 SAS 10KRPM +raid5/1*USBkey+3*USB2.0/100 0M NIC；应用节点配置：Intel Core i5/8G/500G SATA 7200RPM/VGA+HDMIDVIDP/ 3*USB2.0/1000M NIC； KVM 控制器：二路信号切换，1 台#*支持一键切换服务端、应用端信号源；键鼠支持切换使用二切一。声音采集工作站：DMX 6Fire USB，单路声卡支持路由功能，提供三个连接外网标准网络 LAN 接口、1 个标准网 WAN 口，配备 1 个加密狗。主控电脑华硕 PRO453U。cpu：Intel Core i5-6200U

23、2.3GHz，内存：8G，硬盘：500GB SATA，显卡：2GB 独显（满足同等配置均可）1 台本产品为软硬件一体的离线式单机产品，主机采用专业定制一体机，按照每天八小时的应用数据进行估算，产品可满足 2 年年的数据存储，产品的容量空间可以通过历史会议信息删除得到释放（数据建议定期导出本地备份）。6.6.项目报价项目报价序序类类模模功能描述功能描述数数单价单价小计小计#*号号别别块块量量1语音识别转写引擎智能中文连续语音识别转写引擎，实现对普通话连续语音的实时转写，并提供对已转写文字的后处理及字音同步对齐能力。1 套300,000.00 30

24、0,000.00软件应用终端软件部署在主控笔记本上的客户端软件，提供实时速录、历史录音整理、会议信息管理、用户管理、上屏展示、会议编辑及效果优化等功能。1 套100,000.00 100,000.003一体式智能专业定制一体式会议主机，集成服务器、声卡、局域网、 KVM 显示等能力，用于安装部署智能1 台93,000.0093,000.00#*会议主机语音转写引擎及应用系统，为会议提供稳定的转写服务。4应用端主控电脑华硕 PRO453U，Intel Core i5-6200U 2.3GHz/8GB/Intel 500GB SATA/Intel HD Graphics 520 集显+Nvidia GeForce 920M 2GB 独显（满足同等配置均可）1 台5,000.005,000.005质保服务1、提供首次上门安装、调试；2、提供系统使用培训；3、提供每年两次的软件版本升级及升级后培训；4、提供每年一次的移机安装服务；1 年免费免费#*5、提供 7*24 小时的故障现场处理及远程技术支持服务。合计（元）498,000.00

展开阅读全文