基于~AI技术的媒资内容管理平台.doc-淘文阁

资源描述

《基于~AI技术的媒资内容管理平台.doc》由会员分享，可在线阅读，更多相关《基于~AI技术的媒资内容管理平台.doc（6页珍藏版）》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、|基于 AI 技术的媒资内容管理平台语音识别需求书2017 年 11 月|文档信息产品名称项目需求确认书产品负责人徐志亮负责人联系方式 22005899-51472文档修改记录版本修改时间修改人修改章节修改说明|目录1. 简介 .42. 产品需求 .42.1、产品需求概述 .42.1.1、视频预处理 .52.1.2、语音识别文字输出 .52.1.3 高识别率 .62.1.4 支持多种音频格式 .62.1.5 多语言识别 .62.1.5 高识别效率 .63. 其他需求 .63.1 服务器环境配置 .63.2 测试需求 .63.3 运维保障需求 .7|1. 简介1.1. 项目背景随着

2、计算机自动化技术的发展，语音识别、字幕识别、场景分割等技术已经日趋成熟，智能语义分析、智能素材关联、人脸识别技术也在迅速发展，日本 NHK 等发达国家已实际应用。SMG 的自动编目可从语音识别和字幕识别入手，以新闻、戏曲类节目为切人点，在节目素材入库媒资时将语音和字幕自动进行文字化，减少编目人员工作量。之后，以自动场景分割技术为基础，结合智能语义分析，逐步对节目和素材实现全自动的标引，提高整个媒资编目的自动化率，降低媒资运营的人工成本。2. 产品需求2.1、产品需求概述随着计算机自动化技术的发展，语音识别、字幕识别、场景分割等技术已经日趋成熟，智能语义分析、智能素材关联、人脸识别技术也在迅速发

3、展，日本 NHK 等发达国家已实际应用。SMG 可从语音识别入手，在节目素材入库媒资时将语音和字幕自动进行文字化。之后，以自动场景分割技术为基础，结合智能语义分析，逐步对节目和素材实现全自动的标引。|该项目的目标是通过语音识别，对视频进行文字内容和关键词的提取，提取后的内容和关键词按照视频名称和视频时间信息进行存储，最终为用户提供文字内容和关键词的检索服务。2.1.1、视频预处理视频预处理主要实现对视频进行提取音频视频提取音频，从视频文件中提取音频文件，音频格式为（mp3 或 wav）。2.1.2、语音识别文字输出自动识别音、视频（包括主流格式高、低码格式）中的语音，并将其识别为文本内容，并

4、页面中展示。语音识别文本应包含时间戳，即表示在该段时间内音频的识别结果，语音识别的结果按照时间的顺序（入点时间，出点时间）在每个视频素材的详情页进行展示。语音识别文字输出应当为完整句子形式、词等，另外应具有智能的功能，例如，电话号码、车牌、日期、时间以及量词的规整，如“五点三十”会识别规整为“5:30” 。自动断句，并且在文本中加入标点如好，并且能够识别词属性，词属性包括：普通词；语气犹豫词，如“嗯” 、 “啊” 、 “呃”或者无意义的重复词等；标点符号，如“， ”等|2.1.3 高识别率在音频中为标准普通话的情况下，语音识别率需要达到 90%以上。若音频中为较为不标准普通话，则语音识别率可以

5、稍微降低识别率要求。2.1.4 支持多种音频格式语音识别应支持多种视频格式，例如 wav,flac,opus,m4a,mp32.1.5 多语言识别语音识别可能需要识别普通话，上海话，以及英语等，根据目前项目需求，至少需要能够识别普通话以及上海话，并且达到较好的识别效果。2.1.5 高识别效率由于音频量大，所以需要高效率的语音识别软件。音频时长与识别时间的比要大于 6:1。否则无法正常完成语音识别业务。3. 其他需求 3.1 测试需求兼容性测试压力测试流程测试安全性测试兼容性测试需求：PC 端兼容要求：浏览器：IE8+ 、Chrome、火狐屏幕分辨率：1024*768 1920*1080系统：winXP win10

展开阅读全文