《基于~AI技术的媒资内容管理平台.doc》由会员分享,可在线阅读,更多相关《基于~AI技术的媒资内容管理平台.doc(6页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、|基于 AI 技术的媒资内容管理平台语音识别需求书2017 年 11 月|文档信息产品名称 项目需求确认书产品负责人 徐志亮负责人联系方式 22005899-51472文档修改记录版本 修改时间 修改人 修改章节 修改说明|目 录1. 简介 .42. 产品需求 .42.1、产品需求概述 .42.1.1、视频预处理 .52.1.2、语音识别文字输出 .52.1.3 高识别率 .62.1.4 支持多种音频格式 .62.1.5 多语言识别 .62.1.5 高识别效率 .63. 其他需求 .63.1 服务器环境配置 .63.2 测试需求 .63.3 运维保障需求 .7|1. 简介1.1. 项目背景随着
2、计算机自动化技术的发展,语音识别、字幕识别、场景分割等技术已经日趋成熟,智能语义分析、智能素材关联、人脸识别技术也在迅速发展,日本 NHK 等发达国家已实际应用。SMG 的自动编目可从语音识别和字幕识别入手,以新闻、戏曲类节目为切人点,在节目素材入库媒资时将语音和字幕自动进行文字化,减少编目人员工作量。之后,以自动场景分割技术为基础,结合智能语义分析,逐步对节目和素材实现全自动的标引,提高整个媒资编目的自动化率,降低媒资运营的人工成本。2. 产品需求2.1、产品需求概述随着计算机自动化技术的发展,语音识别、字幕识别、场景分割等技术已经日趋成熟,智能语义分析、智能素材关联、人脸识别技术也在迅速发
3、展,日本 NHK 等发达国家已实际应用。SMG 可从语音识别入手,在节目素材入库媒资时将语音和字幕自动进行文字化。之后,以自动场景分割技术为基础,结合智能语义分析,逐步对节目和素材实现全自动的标引。|该项目的目标是通过语音识别,对视频进行文字内容和关键词的提取,提取后的内容和关键词按照视频名称和视频时间信息进行存储,最终为用户提供文字内容和关键词的检索服务。2.1.1、视频预处理视频预处理主要实现对视频进行提取音频视频提取音频,从视频文件中提取音频文件,音频格式为(mp3 或 wav) 。2.1.2、语音识别文字输出自动识别音、视频(包括主流格式高、低码格式)中的语音,并将其识别为文本内容,并
4、页面中展示。语音识别文本应包含时间戳,即表示在该段时间内音频的识别结果,语音识别的结果按照时间的顺序(入点时间,出点时间)在每个视频素材的详情页进行展示。语音识别文字输出应当为完整句子形式、词等,另外应具有智能的功能,例如,电话号码、车牌、日期、时间以及量词的规整,如“五点三十”会识别规整为“5:30” 。自动断句,并且在文本中加入标点如好,并且能够识别词属性,词属性包括:普通词;语气犹豫词,如“嗯” 、 “啊” 、 “呃”或者无意义的重复词等;标点符号,如“, ”等|2.1.3 高识别率在音频中为标准普通话的情况下,语音识别率需要达到 90%以上。若音频中为较为不标准普通话,则语音识别率可以
5、稍微降低识别率要求。2.1.4 支持多种音频格式语音识别应支持多种视频格式,例如 wav,flac,opus,m4a,mp32.1.5 多语言识别语音识别可能需要识别普通话,上海话,以及英语等,根据目前项目需求,至少需要能够识别普通话以及上海话,并且达到较好的识别效果。2.1.5 高识别效率由于音频量大,所以需要高效率的语音识别软件。音频时长与识别时间的比要大于 6:1。否则无法正常完成语音识别业务。3. 其他需求 3.1 测试需求兼容性测试压力测试流程测试安全性测试兼容性测试需求:PC 端兼容要求:浏览器:IE8+ 、Chrome、火狐屏幕分辨率:1024*768 1920*1080系统:winXP win10