《通用听见智能会议系统建设设计规划方案设计(一体机).doc》由会员分享,可在线阅读,更多相关《通用听见智能会议系统建设设计规划方案设计(一体机).doc(25页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、#*听见智能会议系统听见智能会议系统 建设方案建设方案安徽听见科技有限公司安徽听见科技有限公司 20172017 年年 1 1 月月#*目录1.1.项目概述项目概述.1 1.1. 建设背景 1 1.2. 建设重要性 12.2.建设内容及目标建设内容及目标 .13.3.产品施工条件产品施工条件.24.4.建设方案建设方案.2 4.1. 系统概述 2 4.2. 软件详细配置4 4.2.1.中文语音转写引擎 4 4.2.2.应用系统基本功能 4 4.2.2.1.用户管理 5 4.2.2.2.音频采集处理 5 4.2.2.3.实时语音转写 5 4.2.2.4.历史语音转写 5#*4.2.2.5.内容编
2、辑 6 4.2.2.6.效果优化 7 4.2.2.7.内容展示 7 4.2.2.8.内容管理 8 4.2.2.9.全文检索 8 4.3. 硬件设备配置9 4.3.1.一体式智能会议主机 9 4.3.2.应用端主控电脑 105.5.项目报价项目报价.10#*1.1.项目概述项目概述1.1.建设背景建设背景随着信息时代的到来,海量语音的获取 和存储能力愈发强大,基于会议办公的实 际场景,会存在需要大量的人力投入、工 作效率不高的情况、语音技术在会议场景 中的应用质量和效果不高。 因此,结合会议会务场景对语音技术的 实际应用需求,开展了基于会议场景下的 语音技术应用关键技术研究,突破语音合 成、语音
3、识别、语音转写等核心技术,提 升语音技术在会议会务场景中的应用水平, 切实提升日常会议办公的工作效率和效果。1.2.建设重要性建设重要性语音识别(Speech Recognize )技术, 是让机器通过识别和理解过程使之听懂人 类语言的技术。语音识别技术是信息技术 中人机交互的关键技术,目前已经在呼叫 中心、电信增值业务、企业信息化系统中 有了广泛的应用。随着语音识别在语音搜#*索、语音控制等全新应用领域的深入应用 ,语音识别技术被业界权威人士誉为有可 能引发人机界面领域革命的关键技术。近 年来,语音识别技术取得了长足的进步。 智能会议系统是基于语音识别技术所研发, 可满足会议演讲、会议研讨、
4、沟通交流、 大型会议等一系列需要进行实时文字转写 的场景。 此部分项目的实施主要解决会议记要整 理时间长、会议中心思想因记录人员的理 解而可能出现的偏差、会议录音及关键点 难以查找等问题。项目建成后当天即可完 成所有相关会议记要的整理工作,同时, 每一个人的发言均可记录在纪要当中,可 有效减少因不同原因造成的会议中心内容 理解的偏差,提升纪要整理的效率。2.2.建设内容及目建设内容及目 标标本项目计划选取 1 个会议室分别部署单 机版听见智能会议系统,进行基于会议场 景下的新型语音转写技术的应用,实现会#*议过程中音频实时转写成文字,辅助会议 记录人员进行纪要的整理与校正,实现快 速成稿,在整
5、体上打造样板化智能语音转 写会议室。3.3.产品施工条件产品施工条件听见智能会议系统的部署环境整体要求 如下:电源电源机柜要机柜要 求求音频接音频接 口口麦克麦克 风风视频接视频接 口口环 境 指 标 要 求1.5KW高度: 6U 深度: 500MM 对应机 柜托盘 一个需提供 一路音 频接口, 支持卡 侬公或 大三芯 或双莲 花需配 置麦 克风 对每 个说 话人 声音 进行 采集如需上 屏,需 提供投 屏接口, 支持 HDMI 或 VGA详细说明如下: 环境要求 智能会议系统采用专业定制一体机的硬#*件形态,一体机的安装机柜需要 6U 空间, 安装于正常室外室内即可,设备深度为 500MM,
6、系统本身局域网组建自带,网络 带宽在 100M 以上,主控 PC 需要连接局 域网下使用,整套设备局域网下运行即可。 同时需要 1.5KW 电源。 音视频需求 该系统是基于音频基础上实现语音转写, 麦克风等音响设备利用会议室现有环境。 为实现对现场音频的采集,需要现场音 响设备(调音台或相关音频设备)提供会 议话筒音频供转写,同时设备接口支持卡 侬公、大三芯(6.5) 、双莲花输入。 如有展板上屏需求,需要会议室内配有 投影仪或者电视机,且具备 VGA 或者 HDMI 接口任意一种,展板通过连接投影 仪或者电视机进行投屏展示。4.4.系统连线图系统连线图听见智能会议系统的配套硬件设备,其 形态
7、为:通过国家 CCC 认证和专业定制一 体机+应用端主控电脑。一体式智能会议主#*机为讯飞听见专业定制设备,集成了包括 服务节点、应用节点、声卡、显示器、路 由器等部件,用于部署引擎等核心能力软 件,并提供录音服务处理、数据传递等能 力;主控端笔记本电脑主要用于部署客户 端软件,控制会议的开始和结束,提供软 件各个功能的操作。会议室现场的发言音 频输出给一体机,同时如需显示,一体机 支持显示输出,主控电脑通过网线与一体 机连接,整套产品即可使用。一体机整体外观图示意图及背后面板图 如下:#*参数说明:参数说明: 整机电源:AC 100-240V 700W; 服务器节点:XEON 2.6G 20
8、M 2011P 8CORE,E5-2620 V3*2;32G DDR4 REG/ECC;接口 2*千网口( Intel I210AT ) ,1* RS232,GPIO,Watch dog,VGA-切换器;USB:6*USB(前 置1*USB2.0+后置(2*USB 2.0/2*USB 3.0) ; 应用节点:CORE 3.2G 6M 1151P 4 CORE I5-6500;8G DDR4,2*千兆网 口( Intel 82579V )1*千兆网口( Intel 82579V ) ,1*RS 232,1*VGA,1*PS2,外接:DVI转 HDMI; 坦克声卡:一个麦克风输入并自带音 量增益旋
9、钮,XLR/6.3mm混合式接头 一#*个乐器输入并自带音量增益旋钮, 6.3mm接头 4个模拟输入(RCA接头) 一组唱盘输入并内建RIAA等化放大及 自带音量增益旋钮 6个模拟输出(RCA 接头) 一个耳机接孔(6.3mm接头)并自 带音量增益旋钮 一个光纤数字输出/输 入 一个同轴数字输出/输入 一组MIDI I/O。 产品连线说明:产品连线说明: 本产品为一体机形态,只需要接通一根 电源线、一根音频线、一根视频线,并通 过一根网线连接主控,就可使用。#*5.5.建设方案建设方案5.1.系统概述系统概述听见智能会议系统由软件、硬件共同构 成,实现在会议场景下的实时音频或录音 采集,并通过
10、语音识别技术实时转化为文 字。用户可以通过系统提供延时播放、按 句回听、重点标记等功能方便快速整理出 会议材料;并且通过系统提供的语气词过 滤、自动分段等功能自动优化文字结果; 同时,用户可以使用全文检索功能方便检 索历史音频。系统具备会议音频管理、即 时校对编辑、敏感词屏蔽、转写文字实时 直播等基本功能。一体机主控电脑实时字幕麦克风#*5.2.性能参数性能参数系统关键性能指标如下: 1)转写结果能够实时上屏展示; 2)转写结果能够音字对照、编辑校正; 3)普通话转写指标:安静环境下的标准 普通话转写正确率90%; 4)系统响应指标:常规页面操作的响应 时间5 秒; 5)转写效率指标:实时语音
11、转写效率 500 毫秒。 5.3.软件软件功能功能配置配置5.3.1. 中文语音转写引擎中文语音转写引擎听见智能会议系统需要解决语音转换成 文字的问题。机器语音识别技术是一种实 现从“声音”到“文字”转换的技术,通 过将人的语音直接转换成相应的文本。语 音识别技术的研究工作开始于上世纪五十 年代。Bell 实验室的研究人员利用模拟元 器件提取了语音信号元音共振峰频率变化 的信息,有史以来第一次实现了识别十个 英文数字的语音识别系统-Audry 系统。八#*十年代,Bell 实验室的 Rabiner 等科学家将 原本艰涩难懂的隐马尔科夫模型(Hidden Markov Model-HMM)理论工
12、程化,形成 了较为完善的概率统计模型体系,识别性 能也得到了很大的提高。2006 年以来 Deep Learning 理论和技术成为了模式识别 领域的一个热门研究方向,G. E. Hinton 等 深入研究了深度置信网络(Deep Belief Network-DBN)以及深度神经网络(Deep Neural Network-DNN)等模型结构,微软 通过与 Hinton 合作率先将 DNN 应用于语 音识别任务,识别性能取得了显著提升。 此后谷歌、蒙特利尔,以及 IBM 又将循环 神经网络(Recurrent Neural Netwok- RNN)成功应用于语音识别领域,特别是 长短时记忆(
13、Long-Short Term Memory) 神经网络结构,取得非常出色的语音识别 性能。加上目前图形处理器(GPU)计算 能力的提升,以及互联网时代大规模标注 数据获取成为可能,基于深度学习的语音 识别技术已经在多个领域达到实用水平。 传统的语音识别技术主要用于解决人与#*机器的交互问题。而在会议场景需要需要 转成文字的音频内容是人与人之间交互, 听见智能会议系统需要基于机器语音识别 技术构建语音转写引擎。听见智能会议系 统构建的语音转写引擎需要能够实时、高 效的把人与人之间交流的语音转换为文字 的能力,具体包括中文语音转写引擎与英 文语音转写引擎,本系统需要完成中文语 音转写引擎的建设。
14、5.3.2. 应用系统基本功能应用系统基本功能听见智能会议系统,可以实现在会议、 教学、演讲等场景下的实时音频或录音采 集,并通过语音识别技术实时转化为文字。 用户可以通过系统提供延时播放、按句回 听、重点标记等功能方便快速整理出会议 材料;并且通过系统提供的语气词过滤、 自动分段等功能自动优化文字结果,可人 工进行角色分离;同时,用户可以使用全 文检索功能方便检索历史音频。 5.3.2.1.5.3.2.1. 实时语音转写实时语音转写 听见智能会议系统需要通过对实时音频#*流信号的处理完成从信号获取、转换、处 理、识别、输出、展示等一整套流程动作, 需要由强大的音频采集处理模块。系统讲 通过使
15、用特定的录音服务,通过麦克风收 集后,送达后台服务端完成编码工作,实 时上传到系统,供后续的转写文字等功能 使用,同时保存到内容管理模块中。 系统通过专业麦克风对会议全程进行高 保真录音,并针对连续中文语流进行实时语 音转写识别,并持续进行转写结果文本内 容的输出。 5.3.2.2.5.3.2.2. 历史语音转写历史语音转写 相比于实时语音转写模块,历史语音转 写模块提供对于已经录制好的历史音频需 要转写情况下的解决能力;用户可以通过 系统提供的功能按钮,导入历史音频并实 现快速离线转写;支持音频批量导入。 #*图:历史音频转写编辑效果图 5.3.2.3.5.3.2.3. 内容编辑内容编辑 在
16、实时语音转写过程中用户可以实时对 转写出的文本结果进行编辑,并进行重点 内容标记。在实时编辑的过程中采用延时 播放的策略,用户可以在查看到转写文本 之后及时根据听到的音频进行文本校对编 辑。用户也可不戴耳机直接听现场的实时 音频。支持选择查看原始结果,对比修改, 方便快捷,会议结束后即可直接成稿,并根 据重点内容,整理导出会议纪要。具体功 能包括: 延时播放:延时播放:在实时语音转写过程中,识别 结果展现之后再开始连续播放音频,即用 户在看到转写文本的时候,同步听到对应#*的音频,使得校对和编辑更加便利。 重点内容标记:重点内容标记:在实时语音转写过程中 或者暂停和结束时,用户均可以选中文本
17、来进行重点内容的标记,已标记的文本也 可以进行修改和标记取消,方便整理会议 纪要,会议结束会后即可或直接成稿。 音字对照:音字对照:在实时语音转写暂停的时候, 用户如果对于有些内容没有听清,对于文 本内容不确定的情况下,双击原始结果即 可听到文本对应的音频,方便用户对写结 果进行编辑,尤其是不小心误删除了编辑 文本,可以通过回听原始结果来进行回溯。 实时语音转写结束状态时, 原始结果及编 辑结果均可双击进行音频回听。 图:实时语音转写效果图#*5.3.2.4.5.3.2.4. 效果优化效果优化 在实时语音转写过程中,听见智能会议 系统通过提供语气词过滤、自动分段等功 能自动优化文字转写和显示结
18、果。具体包 括: 自动分段:自动分段:在会议内容实时语音转写成 文字的过程中,为了方便用户编辑何查看, 系统提供根据 VAD+固定字数和 VAD+固 定关键词两种自动分段方式。系统提供 最 佳的默认自动分段方式,用户也可根据实 际情况进行设置。 语气词过滤:语气词过滤:用户可以在实时语音转写 开始前或者进行文稿整理时可以根据需要 选择是否开启语气词过滤按钮,若开启按 钮可将语气词和多余的词汇去除,以保证 文稿的规整。语气词过滤只针对新转写的 结果,已经修改过的内容不支持过滤。 关键词优化:关键词优化:用户可通过关键词优化功 能将此次会议相关的关键词进行添加,能 有效提升该关键词的识别准确率。实
19、时转 写过程中用户也可添加关键词,并且可以 实时生效,后续识别结果可得到有效优化。#*5.3.2.5.5.3.2.5. 内容展示内容展示 系统通过提供展板上屏等形式进行实时 语音转写结果的展示。具体功能包括: 实时上屏:通过展板上屏展示中实时语 音转写结果。并且,字体颜色和展板背景 颜色可以根据实际情况需要进行调整。图:展板效果图 上屏后台修改:如果在实时转写过程中 使用了实时上屏功能,希望保障上屏效果, 那么可以使用上屏后台修改功能进行展板 端的结果纠正。在开始时点击展板按钮, 调出展板,此时该展板端会同步出现识别 文字。如果在转写过程中出现明显错误或#*不适宜展示的词语,则可以在主控端进行
20、 展板编辑,可以修改或删除,修改之后按 Enter 键则修改的内容会同步到现场的投 影屏幕上。 5.3.2.6.5.3.2.6. 内容管理内容管理 所有通过听见智能会议系统转写的实时 录制的音频文本数据和本地上传的音频文 本数据系统都会以列表形式进行管理,后 台通过分布式存储集群实现高效安全存储, 整个过程用户无感知。用户可以通过内容 管理模块随时查看和编辑,并且可以根据 名称等信息快速检索。此外,编辑后的全 文本、重点文本以及音频、某一角色的文 本,用户都可以快速导出,方便快捷。 系统通过自然语言理解、语音识别和语 义分析技术理解用户意图,执行用户的检 索指令(包括语音、文本等) ,实现资源
21、文 本内容的语音搜索服务能力,不仅能检索 文本资源,也能根据文件名对音视频内容 进行搜索。该服务在传统的文字输入搜索 方式基础上,不仅能支持搜索语音时的相 对自由表述,也应当能够支持传统文字检#*索时的相对自由表述。5.4.硬件硬件参数参数配置配置听见智能会议系统的配套硬件设备,具 体包括:一体式智能会议主机、应用端主 控电脑。产品参数如下: 名名 称称参数配置参数配置数数 量量单单 位位定 制 一 体 机讯飞听见专业定制一体式智能会 议主机,提供 4U 设备形态,集成 了包括服务节点、应用节点、声 卡、显示器、路由器等部件。 服务节点配置:2*E5-2620V3 2.6GHZ/32G/900
22、G*3 SAS 10KRPM +raid5/1*USBkey+3*USB2.0/100 0M NIC; 应用节点配置:Intel Core i5/8G/500G SATA 7200RPM/VGA+HDMIDVIDP/ 3*USB2.0/1000M NIC; KVM 控制器:二路信号切换,1 台#*支持一键切换服务端、应用端信 号源;键鼠支持切换使用二切一。声音采集工作站:DMX 6Fire USB,单路声卡 支持路由功能,提供三个连接外 网标准网络 LAN 接口、1 个标 准网 WAN 口,配备 1 个加密狗。主 控 电 脑华硕 PRO453U。cpu:Intel Core i5-6200U
23、2.3GHz,内存:8G,硬 盘:500GB SATA,显卡:2GB 独 显(满足同等配置均可)1 台本产品为软硬件一体的离线式单机产品, 主机采用专业定制一体机,按照每天八小 时的应用数据进行估算,产品可满足 2 年年 的数据存储,产品的容量空间可以通过历 史会议信息删除得到释放(数据建议定期 导出本地备份) 。6.6.项目报价项目报价序序 类类 模模功能描述功能描述数数单价单价小计小计#*号号 别别 块块量量1语 音 识 别 转 写 引 擎智能中文连续语音 识别转写引擎,实 现对普通话连续语 音的实时转写,并 提供对已转写文字 的后处理及字音同 步对齐能力。1 套300,000.00 30
24、0,000.00软 件 应 用 终 端 软 件部署在主控笔记本 上的客户端软件, 提供实时速录、历 史录音整理、会议 信息管理、用户管 理、上屏展示、会 议编辑及效果优化 等功能。1 套100,000.00 100,000.003一 体 式 智 能专业定制一体式会 议主机,集成服务 器、声卡、局域网、 KVM 显示等能力, 用于安装部署智能1 台93,000.0093,000.00#*会 议 主 机语音转写引擎及应 用系统,为会议提 供稳定的转写服务。4应 用 端 主 控 电 脑华硕 PRO453U,Intel Core i5-6200U 2.3GHz/8GB/Intel 500GB SATA/Intel HD Graphics 520 集 显+Nvidia GeForce 920M 2GB 独显(满足同等配 置均可)1 台5,000.005,000.005质 保 服 务1、 提供首次上门安 装、调试;2、 提供 系统使用培训;3、 提供每年两次的软件 版本升级及升级后培 训;4、 提供每年一 次的移机安装服务;1 年免费免费#*5、提供 7*24 小时的 故障现场处理及远程 技术支持服务。 合计(元)498,000.00