《通用听见智能会议系统建设方案.docx》由会员分享,可在线阅读,更多相关《通用听见智能会议系统建设方案.docx(24页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、听见智能会议系统建设方案安徽听见科技2023 年 1 月名目1. 工程概述错误!未定义书签。. 建设背景 错误!未定义书签。. 建设重要性 错误!未定义书签。2. 建设内容及目标 . 错误!未定义书签。3. 产品施工条件错误!未定义书签。4. 建设方案错误!未定义书签。. 系统概述 错误!未定义书签。. 软件具体配置错误!未定义书签。中文语音转写引擎 错误!未定义书签。应用系统根本功能 错误!未定义书签。用户治理 . 错误!未定义书签。音频采集处理 错误!未定义书签。实时语音转写 错误!未定义书签。历史语音转写 错误!未定义书签。内容编辑 . 错误!未定义书签。效果优化 . 错误!未定义书签。
2、内容展现 . 错误!未定义书签。内容治理 . 错误!未定义书签。全文检索 . 错误!未定义书签。. 硬件设备配置错误!未定义书签。一体式智能会议主机 错误!未定义书签。应用端主控电脑错误!未定义书签。5. 工程报价错误!未定义书签。1.1.1. 建设背景工程概述随着信息时代的到来,海量语音的猎取和存储力量愈发强大,基于会议办公的实际场景,会存在需要大量的人力投入、工作效率不高的状况、语音技术在会议场景中的应用质量和效果不高。因此,结合会议会务场景对语音技术的实际应用需求,开展了基于会议场景下的语音技术应用关键技术争论,突破语音合成、语音识别、语音转写等核心技术,提升语音技术在会议会务场景中的应
3、用水平,切实提升日常会议办公的工作效率和效果。1.2. 建设重要性语音识别 Speech Recognize 技术, 是让机器通过识别和理解过程使之听懂人类语言的技术。语音识别技术是信息技术中人机交互的关键技术,目前已经在呼叫中心、电信增值业务、企业信息化系统中有了广泛的应用。随着语音识别在语音搜寻、语音掌握等全应用领域的深入应用 ,语音识别技术被业界权威人士誉为有可能引发人机界面领域革命的关键技术。近年来,语音识别技术取得了长足的进步。智能会议系统是基于语音识别技术所研发,可满足会议演讲、会议研讨、沟通沟通、大型会议等一系列需要进展实时文字转写的场景。此局部工程的实施主要解决会议记要整 理时
4、间长、会议中心思想因记录人员的理解而可能消灭的偏差、会议录音及关键点难以查找等问题。工程建成后当天即可完成全部相关会议记要的整理工作,同时,每一个人的发言均可记录在纪要当中,可有效削减因不同缘由造成的会议中心内容理解的偏差, 提升纪要整理的效率。2. 建设内容及目标本工程打算选取 1 个会议室分别部署单机版听见智能会议系统,进展基于会议场景下的型语音转写技术的应用,实现会议过程中音频实时转写成文字,关心会议记录人员进展纪要的整理与校正,实现快速成稿,在整体上打造样板化智能语音转写会议室。3. 产品施工条件听见智能会议系统的部署环境整体要求如下:电源机柜要求音频接口麦克风 需配置麦克风对每个说话
5、人声音进展采集视频接口环境指标要求高度:6U深度: 500MM对应机柜托盘一个需供给一路音频接 口,支持卡侬公或大三芯或双莲花如需上屏,需供给投屏接 口,支持HDMI 或 VGA具体说明如下: 环境要求智能会议系统承受专业定制一体机的硬件形态,一体机的安装机柜需要 6U 空间, 安装于正常室外室内即可,设备深度为500MM,系统本身局域网组建自带,网络带宽在 100M 以上,主控 PC 需要连接局域网下使用,整套设备局域网下运行即可。同时需要电源。音视频需求该系统是基于音频根底上实现语音转写, 麦克风等音响设备利用会议室现有环境。为实现对现场音频的采集,需要现场音响设备调音台或相关音频设备供给
6、会议话筒音频供转写,同时设备接口支持卡侬公、大三芯、双莲花输入。如有展板上屏需求,需要会议室内配有投影仪或者电视机,且具备 VGA 或者 HDMI 接口任意一种,展板通过连接投影仪或者电视机进展投屏展现。4. 系统连线图听见智能会议系统的配套硬件设备,其形态为:通过国家 CCC 认证和专业定制一体机+应用端主控电脑。一体式智能会议主机为讯飞听见专业定制设备,集成了包括效劳节点、应用节点、声卡、显示器、路由器等部件,用于部署引擎等核心力量软件,并供给录音效劳处理、数据传递等力量;主控端笔记本电脑主要用于部署客户端软件,掌握会议的开头和完毕,供给软件各个功能的操 作。会议室现场的发言音频输出给一体
7、机, 同时如需显示,一体机支持显示输出,主控电脑通过网线与一体机连接,整套产品即可使用。一体机整体外观图示意图及背后面板图如下:参数说明:整机电源:AC 100-240V 700W;效劳器节点:XEON20M 2023P 8CORE,E5-2620 V3*2;32G DDR4REG/ECC;接口 2*千网口 Intel I210AT ,1* RS232,GPIO,Watch dog, VGA-切换器;USB:6*USB(前置1*+后置2*USB 2*USB ;应用节点:CORE6M 1151P 4 COREI5-6500;8G DDR4,2*千兆网口 Intel 82579V 1*千兆网口 I
8、ntel82579V ,1*RS 232,1*VGA,1*PS2,外接:DVI转 HDMI;坦克声卡:一个麦克风输入并自带音量增益旋钮,XLR/混合式接头 一个乐器输入并自带音量增益旋钮,接头 4个模拟输入(RCA接头) 一组唱盘输入并内建RIAA等化放大及自带音量增益旋钮 6个模拟输出(RCA接头) 一个耳机接孔接头)并自带音量增益旋钮 一个光纤数字输出/输入 一个同轴数字输出/输入 一组MIDI I/O。产品连线说明:本产品为一体机形态,只需要接通一根电源线、一根音频线、一根视频线,并通过一根网线连接主控,就可使用。5.5.1. 系统概述建设方案听见智能会议系统由软件、硬件共同构 成,实现
9、在会议场景下的实时音频或录音采集,并通过语音识别技术实时转化为文字。用户可以通过系统供给延时播放、按句回 听、重点标记等功能便利快速整理出会议材料;并且通过系统供给的语气词过滤、自动分段等功能自动优化文字结果;同时,用户可以使用全文检索功能便利检索历史音频。系统具备会议音频治理、即时校对编辑、敏感词屏蔽、转写文字实时直播等根本功能。麦克风一体机主控电脑实时字幕5.2. 性能参数系统关键性能指标如下:1) 转写结果能够实时上屏展现;2) 转写结果能够音字比照、编辑校正;3) 一般话转写指标:安静环境下的标准一般话转写正确率90%;4) 系统响应指标:常规页面操作的响应时间5 秒;5) 转写效率指
10、标:实时语音转写效率500 毫秒。5.3. 软件功能配置5.3.1. 中文语音转写引擎听见智能会议系统需要解决语音转换成 文字的问题。机器语音识别技术是一种实现从“声音”到“文字”转换的技术,通过将人的语音直接转换成相应的文本。语音识别技术的争论工作开头于上世纪五十年月。Bell 试验室的争论人员利用模拟元器件提取了语音信号元音共振峰频率变化的信息, 有史以来第一次实现了识别十个英文数字 的语音识别系统-Audry 系统。八十年月, Bell 试验室的 Rabiner 等科学家将原本晦涩难懂的隐马尔科夫模型 Hidden Markov Model-HMM理论工程化,形成了较为完善的概率统计模型
11、体系,识别性能也得到了很大的提高。2023 年以来 Deep Learning 理论和技术成为了模式识别领域的一个热门 争论方向,G. E. Hinton 等深入争论了深度置信网络Deep Belief Network-DBN 以 及 深 度 神 经 网 络 Deep NeuralNetwork-DNN等模型构造,微软通过与Hinton 合作领先将 DNN 应用于语音识别任务,识别性能取得了显着提升。此后谷歌、蒙特利尔,以及 IBM 又将循环神经网络Recurrent Neural Netwok-RNN成功应用于语音识别领域,特别是长短时记忆Long-Short Term Memory神经网络
12、构造, 取得格外精彩的语音识别性能。加上目前图形处理器GPU计算力量的提升,以及互联网时代大规模标注数据猎取成为可能,基于深度学习的语音识别技术已经在多个领 域到达有用水平。传统的语音识别技术主要用于解决人与机器的交互问题。而在会议场景需要需要转成文字的音频内容是人与人之间交互,听见智能会议系统需要基于机器语音识别技术构建语音转写引擎。听见智能会议系统构建的语音转写引擎需要能够实时、高效的把人与人之间沟通的语音转换为文字的力量,具体包括中文语音转写引擎与英文语音转写引擎,本系统需要完成中文语音转写引擎的建设。5.3.2. 应用系统根本功能听见智能会议系统,可以实现在会议、教学、演讲等场景下的实
13、时音频或录音采集, 并通过语音识别技术实时转化为文字。用户可以通过系统供给延时播放、按句回听、重点标记等功能便利快速整理出会议材料;并且通过系统供给的语气词过滤、自动分段等功能自动优化文字结果,可人工进展角色分别;同时,用户可以使用全文检索功能便利检索历史音频。5.3.2.1. 实时语音转写听见智能会议系统需要通过对实时音频 流信号的处理完成从信号猎取、转换、处理、识别、输出、展现等一整套流程动作,需要由强大的音频采集处理模块。系统讲通过使用特定的录音效劳,通过麦克风收集后,送达后台效劳端完成编码工作,实时上传到系统,供后续的转写文字等功能使用,同时保存到内容治理模块中。系统通过专业麦克风对会
14、议全程进展高保真录音,并针对连续中文语流进展实时语音转写识别,并持续进展转写结果文本内容的输出。5.3.2.2. 历史语音转写相比于实时语音转写模块,历史语音转写模块供给对于已经录制好的历史音频需要转写状况下的解决力量;用户可以通过系统供给的功能按钮,导入历史音频并实现快速离线转写;支持音频批量导入。图:历史音频转写编辑效果图5.3.2.3. 内容编辑在实时语音转写过程中用户可以实时对转写出的文本结果进展编辑,并进展重点内容标记。在实时编辑的过程中承受延时播放的策略,用户可以在查看到转写文本之后准时依据听到的音频进展文本校对编辑。用户也可不戴耳机直接听现场的实时音频。支持选择查看原始结果,比照
15、修改,便利快捷,会议完毕后即可直接成稿 ,并依据重点内容,整理导出会议纪要。具体功能包括: 延时播放:在实时语音转写过程中,识别结果呈现之后再开头连续播放音频,即用户在看到转写文本的时候,同步听到对应的音频,使得校对和编辑更加便利。重点内容标记:在实时语音转写过程中或者暂停和完毕时,用户均可以选中文原来进展重点内容的标记,已标记的文本也可以进展修改和标记取消,便利整理睬议纪要,会议完毕会后即可或直接成稿。音字比照:在实时语音转写暂停的时候, 用户假设对于有些内容没有听清,对于文本内容不确定的状况下,双击原始结果即可听到文本对应的音频,便利用户对写结果进展编辑,尤其是不留神误删除了编辑文本,可以
16、通过回听原始结果来进展回溯。实时语音转写完毕状态时, 原始结果及编辑结果均可双击进展音频回听。图:实时语音转写效果图5.3.2.4. 效果优化在实时语音转写过程中,听见智能会议系统通过供给语气词过滤、自动分段等功能自动优化文字转写和显示结果。具体包括:自动分段:在会议内容实时语音转写成文字的过程中,为了便利用户编辑何查看,系统供给依据 VAD+固定字数和 VAD+固定关键词两种自动分段方式。系统供给 最正确的默认自动分段方式,用户也可依据实际状况进展设置。语气词过滤:用户可以在实时语音转写开头前或者进展文稿整理时可以依据需要选择是否开启语气词过滤按钮,假设开启按钮可将语气词和多余的词汇去除,以
17、保证文稿的规整。语气词过滤只针对转写的结果,已经修改正的内容不支持过滤。关键词优化:用户可通过关键词优化功能将此次会议相关的关键词进展添加,能有效提升该关键词的识别准确率。实时转写过程中用户也可添加关键词,并且可以实时生效,后续识别结果可得到有效优化。5.3.2.5. 内容展现系统通过供给展板上屏等形式进展实时语音转写结果的展现。具体功能包括:实时上屏:通过展板上屏展现中实时语音转写结果。并且,字体颜色和展板背景颜色可以依据实际状况需要进展调整。图:展板效果图上屏后台修改:假设在实时转写过程中使用了实时上屏功能,期望保障上屏效果,那么可以使用上屏后台修改功能进展展板端 的结果订正。在开头时点击
18、展板按钮,调出展板,此时该展板端会同步消灭识别文字。假设在转写过程中消灭明显错误或不适宜 展现的词语,则可以在主控端进展展板编 辑,可以修改或删除,修改之后按 Enter 键则修改的内容会同步到现场的投影屏幕上。5.3.2.6. 内容治理全部通过听见智能会议系统转写的实时录制的音频文本数据和本地上传的音频文本数据系统都会以列表形式进展治理,后台通过分布式存储集群实现高效安全存储,整个过程用户无感知。用户可以通过内容治理模块随时查看和编辑,并且可以依据名称等信息快速检索。此外,编辑后的全文本、重点文本以及音频、某一角色的文本,用户都可以快速导出,便利快捷。系统通过自然语言理解、语音识别和语义分析
19、技术理解用户意图,执行用户的检索指令包括语音、文本等,实现资源文本内容的语音搜寻效劳力量,不仅能检索文本资源,也能依据文件名对音视频内容进展搜寻。该效劳在传统的文字输入搜寻方式根底上,不仅能支持搜寻语音时的相对自由表述,也应当能够支持传统文字检索时的相对自由表述。5.4. 硬件参数配置听见智能会议系统的配套硬件设备,具体包括:一体式智能会议主机、应用端主控电脑。产品参数如下:名参数配置数单称量位讯飞听见专业定制一体式智能会议主机,供给 4U 设备形态,集成定 了包括效劳节点、应用节点、声卡、制 显示器、路由器等部件。效劳节点配置: 2*E5-2620V3 1 台体32G/900G*3SAS10
20、KRPM机+raid5/1*USBkey+3*1000M NIC;应用节点配置: Intel Core i5/8G/500GSATA7200RPM/VGA+HDMIDVIDP/3*1000M NIC;KVM 掌握器:二路信号切换, 支持一键切换效劳端、应用端信号源;键鼠支持切换使用二切一。声音采集工作站: DMX 6Fire USB,单路声卡支持路由功能,供给三个连接外网标准网络 LAN 接口、1 个标准网 WAN 口,配备 1 个加密狗。主 华硕 PRO453U。cpu:Intel Core控 i5-6200U ,内存:8G,硬盘:500GB 1 台电 SATA,显卡:2GB 独显满足同等脑
21、 配置均可本产品为软硬件一体的离线式单机产品, 主机承受专业定制一体机,依据每天八小时的应用数据进展估算,产品可满足 2 年的数据存储,产品的容量空间可以通过历史会议信息删除得到释放数据建议定期导出本地备份。6.序 类 模功能描述号 别 块语 智能中文连续语音音 识别转写引擎,实识 现对一般话连续语1别 音的实时转写,并工程报价数 单价小计量1 ¥300, ¥300,转 供给对已转写文字 套写 的后处理及字音同软擎件部署在主控笔记本应上的客户端软件,用供给实时速录、历终端史录音整理、会议信息治理、用户管1套软理、上屏展现、会件议编辑及效果优化等功能。硬一专业定制一体式会1件体议主机,集成效劳台
22、引 步对齐力量。¥100, ¥100,3¥93, ¥93,式 器、声卡、局域网、智 KVM 显示等力量,用能 于安装部署智能语会 音转写引擎及应用议 系统,为会议供给主 稳定的转写效劳。机华 硕 PRO453U ,应Intel?Core?用i5-6200U4端主控8GB/Intel500GB SATA/Intel?HDGraphics 520 集显1台¥5,¥5,电+NvidiaGeForce脑920M 2GB 独显满足同等配置均可 1、 供给首次上门安装、质 调试;2、 供给系统使5保服用培训;3、 供给每年两次的软件版本升级及1年免费免费务升级后培训;4、 供给每年一次的移机安装服务;5、供给 7*24 小时的故障现场处理及远程技术支持效劳。合计元¥498,