2022年语音识别程序开发方法 .pdf

上传人:Q****o 文档编号:30540980 上传时间:2022-08-06 格式:PDF 页数:9 大小:227.01KB
返回 下载 相关 举报
2022年语音识别程序开发方法 .pdf_第1页
第1页 / 共9页
2022年语音识别程序开发方法 .pdf_第2页
第2页 / 共9页
点击查看更多>>
资源描述

《2022年语音识别程序开发方法 .pdf》由会员分享,可在线阅读,更多相关《2022年语音识别程序开发方法 .pdf(9页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、VB6.0 环境下的语音识别程序开发方法王 军童强(湖北师范学院计算机科学与技术学院,湖北黄石 435002 )摘要:语音识别技术是将音频数据转换成文本或其它形式的计算机可以处理的信息的技术。而语音识别程序就是基于该类技术的计算机应用程序,这类应用程序也正越来越多的受到广大用户的青睐。 通过介绍一种基于VB6.0 环境下的语音识别程序的开发方法,以此开发方法为切入点分析该开发方法的优缺点及其应用前景,并结合当前技术的发展趋势展望这类技术的发展方向和可能的发展结果。关键词: 语音识别程序;VB6.0 环境;语音识别程序开发方法The method of Speech Recognition pr

2、ogram development in VB6.0 Wangjun TongQiang (College of Computer Science & Tecnology ,Hubei normal University,Huangshi 435002 china)Abstract: Speech recognition technology is the audio data into text or other forms of information that could be dealt with computer technology. The speech recognition

3、process is based on such technology, computer applications, such applications are more and more favored by the majority of users. In this paper, by introducing the VB6.0 environment based on the speech recognition program to develop methods and entry points to the development of methods for the anal

4、ysis of the advantages and disadvantages of the development methodology and its application prospects, combined with the current trend of technological development prospects of such technologies the direction and development of possible results. Key words:Speech recognition procedures VB6.0 program

5、development environment Speech recognition devolopment method 中图分类号:文献标志码:A 1 引言语音识别是一个复杂的过程,语音识别技术, 也被称为自动语音识别Automatic Speech Recognition ,(ASR) ,其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、 二进制编码或者字符序列。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。1 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师

6、精心整理 - - - - - - - 第 1 页,共 9 页 - - - - - - - - - 语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。 语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。2 语音识别技术具有广阔的应用前景, 即使语音识别技术目前尚未成熟,很多领域也积极将其引入,掌握语音识别程序的基本开发方法有助于更好地运用这一新技术。2 基于 VB6.0 环境下的语音识别程序的开发方法2.1 开发工具语音识别程序一般是基于语音开发工具包开发的,目前常用的工具包有Microso

7、ft Speech SDK 和 IBM VoiceType两种。而前者毋庸置疑是基于Windows平台下开发该类应用程 序 的 最 佳 工 具 , 其SAPI ( Microsoft?Win32? -compatible speech application programming interface) 提供了实现文字- 语音转换 (Text-to-Speech)和语音识别 (Speech Recognition)程序的基本函数,大大简化了语音编程的难度,降低了语音编程的工作量。3 因此Microsoft Speech SDK 备受语音识别程序开发者们的青睐。同时在Microsoft Spee

8、ch SDK 中还包含一系列支持COM (组件对象模型)组件的语音自动控制接口, 只要具备支持 OLE(对象连接与嵌入) 自动控制的通用语言就可实现该类语音识别应用程序的开发。而VB语言正是具备以上条件的通用性语言,因此在VB6.0 环境下实现语音识别程序的开发就变得十分简单 , 这是因为在一些基于Windows 的语言开发工具中都会提供与语音识别引擎的良好接口,这使得在基于这些语言开发工具下开发语音识别程序变得异常方便。在 Visual Basic环境下,利用事件驱动的编程机制、新颖易用的可视化设计工具,使用 Windows内部的广泛应用程序接口(API)函数,以用动态链接库(DLL)、对象

9、的链接与世隔嵌入( OLE )、开放式数据连接(ODBC )等技术,可以高效、快速地开发Windows环境下功能强大、图形界面丰富的应用软件系统。4 基于VB6.0 环境下的语音识别程序的软硬件配置要求为:安装Microsoft Speech SDK 5.1 ,安装麦克风,安装VB6.0 集成开发环境,安装Notepad2 软件(用于编写XML文件,其他能用于编写XML文件的工具软件也可)。2.2 开发目标语音识别系统的心脏即为语音识别内核,语音识别内核能识别音频输入信息并将其转化为应用程序能够识别的目标文本,该目标文本最终被作为命令输入来控制程序的执行。根据识别的对象不同,语音识别任务大体可

10、分为3 类,即孤立词识别 (isolated word recognition) ,名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 2 页,共 9 页 - - - - - - - - - 关键词识别(或称关键词检出,keyword spotting)和连续语音识别。其中,孤立词识别的任务是识别事先已知的孤立的词,如“ 开机 ” 、“ 关机 ” 等;连续语音识别的任务则是识别任意的连续语音, 如一个句子或一段话;连续语音流中的关键词检测针对的是连续语音,但它并不识别全部文字, 而只是检

11、测已知的若干关键词在何处出现,如在一段话中检测“ 计算机 ” 、“ 世界” 这两个词。 2 根据语音设备和通道,可以分为桌面 (PC)语音识别、 电话语音识别和嵌入式设备(手机、 PDA 等)语音识别。不同的采集通道会使人的发音的声学特性发生变形,因此需要构造各自的识别系统。由此可见,语音识别程序的开发范围是非常广泛的。这里通过VB6.0这种最常见而且通用性非常强的开发平台来对该类应用程序的开发方法进行实和践推广,并引发一些开发人员对该类应用程序的关注和更深入的研究。2 2.3 基于 VB6.0 环境下语音识别程序的开发过程实例(1)参见 2.1 中基于 VB 语言的语音识别程序的软硬件配置要

12、求安装相关软硬件。(2)建立用户词汇表。用户词汇表即用户对应用程序所说的内容,用户对应用程序所说的词或词组所组成的集合便构成用户词汇表。用户词汇表也是开发语音识别程序必不可少的组成部分。 用户对应用程序的控制只能通过用户词汇表中词或词组来实现,用户词汇表中的内容将会与应用程序中的相关命令对应而最终转化为可供应用程序执行的控制命令。用户词汇表中的内容也是用户在进行音频信息输入时唯一可被输入的信息,音频输入信息的类容必须在词汇表所覆盖的内容范围之内,一旦其超出词汇表范围,应用程序将无法识别。另外,词汇表中的具体词或词组的内容一般与其所要实现的控制命令相对应,如在词汇表中定义“stop ”这个词时,

13、一般是要实现关闭程序的命令,当用户向应用程序说出“ stop ”时,应用程序便可执行关闭命令。对于本程序中建立词汇表是要用到Notepad2这个文本编辑工具。同时在建立用户词汇表时还必须遵循相关语法规则。下面演示具体实现过程:打开 Notepad2,并将以下代码编写到Notepad2的空白编辑框中 - - - 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 3 页,共 9 页 - - - - - - - - - now start now next now stop now paus

14、e now select one ok 以上代文本码符合XML 语法规则,在此要特别注意中的编号809 ,809 为英文识别引擎使用编号,若使用中文识别引擎则应使用编号804 。我们需要知道如何将用户的词或词组添加进去并最终组成一个用户词汇表。这里我们需要做的工作就是在这些语句中的 之间添加用户所要添加的词或词汇,如以上 now start中即表明“ now start”这个词已经添加进用户词汇表,若要继续添加只需执行相同操作即可。当用户将所有要对应用程序说的词或词汇全部添加完毕后,即可将该文件命名并保存为.xml文件。由此,用户词汇表即创建完毕。在此需要说明的是,本示例中是使用英文识别引擎,

15、因此该方法中常见用户词汇表不支持中文词汇或词组的模式,虽然能将中文词或词汇写入进该文件中,但在程序执行时是无法识别的。如有特别需求,中文词或词汇的输入可采用拼音的形式录入进去来作为代替,在用户读入音频信息时可直接说中文。若使用中文识别引擎,则可以直接添加中文词汇表,但必须要将 中的 ID 号改为 804 ,其他操作相同同上。另需说明的是,语音识别引擎的配置可在Windows控制面板中的语音中设置,在此可配置不同语言的语音识别引擎。(3)在 VB6.0环境下开发语音识别应用程序内核和控制界面。进入 VB6.0编程环境,在进行程序开发前,必须在引用项中添加Microsoft Speech Obje

16、ct Library ,其添加方法如下:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 4 页,共 9 页 - - - - - - - - - 图 1 引用项中添加Microsoft Speech Object Library 引用添加完毕后即可开始设计和开发前台控制界面,具体实现如下:图 2 前台界面图前台界面制作完成后便进入开发本程序的关键阶段核心代码的编写。在此本程序中的源码实现如下:Public WithEvents RC As SpSharedRecoContext /定义

17、RC为共享文本语音识别对象Public myGrammar, b As IspeechRecoGrammar /定义词汇表语法对象Private Sub Form_Load() Set RC = New SpSharedRecoContext Set myGrammar = RC.CreateGrammar myGrammar.CmdLoadFromFile e:tempsol.xml, SLODynamic /依据用户词汇表的语法规则调用语法词汇表/ 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - -

18、 - - - 第 5 页,共 9 页 - - - - - - - - - myGrammar.CmdSetRuleIdState 0, SGDSActive End Sub Private Sub RC_FalseRecognition(ByVal StreamNumber As Long, ByVal StreamPosition As Variant, ByVal Result As SpeechLib.ISpeechRecoResult) Label1.Caption = (不可识别信息 ) End Sub Private Sub RC_Recognition(ByVal StreamN

19、umber As Long, ByVal StreamPosition As Variant, ByVal RecognitionType As SpeechLib.SpeechRecognitionType, ByVal Result As SpeechLib.ISpeechRecoResult) Label1.Caption = Result.PhraseInfo.GetText Select Case Result.PhraseInfo.GetText Case kaishi MsgBox 现在开始运行程序 Case now start MsgBox 这是我编写的第一个语音程序,好高兴哦

20、! Case hello Text1.Text = hii, 你好,很高兴见到您! Case now stop End End Select End Sub 以上代码具有较强易读性,这也是 VB 语言的优点之一,而由以上代码可以看出此类应用程序的编码并非十分困难(本程序只是简单的应用实例开发,如开发较之功能强大的语音识别程序也会有较高的复杂度)。(4)运行该应用程序通过调试运行该应用程序,执行结果如下:名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 6 页,共 9 页 - - - -

21、 - - - - - 图三运行效果图在运行该应用程序时,只需按照界面上的提示信息,用麦克风说出文本框中提示的命令信息,该应用程序即可有所反应并执行相关操作来实现用户的预定义操作。本程序中只用麦克风说出“hello” ,文本框中将会出现hii, 你好,很高兴见到您!,同时若麦克风说出“开始”,将会弹出对话框并显示现在开始运行程序等等一些基本的功能。需要说明的是该程序中的语音识别为非特定人语音识别,即程序可识别任何人的语音信息,使用十分方便。3 基于 VB6.0环境下开发语音识别程序的分析该开发方法及开发过程同开发一般应用程序一样具有简单易用,开发过程简洁,开发周期短,出错率低,程序可读性强等诸多

22、优点。而与此同时其缺点也是很明显的,这主要表现在 VB 语言自身的缺点上, 如其不是真正的面向对象,没有自己的类库, 和系统打交道难,程序员对资源的分配所能做的很有限,不支持指针,将太多的东西“ 隐蔽 ” 起来,程序员不能知道 VB 程序的真正工作流程等等。而同时,VB 缺乏工程支持,难以实现大型工程的开发等等。但 VB 作为一门功能很强大,开发方便,应用范围广泛,使用人数多等这些绝对的优势也是十分有利于语音识别应用程序的进一步发展和推广的。在以上实例中只用到简单的语音识别同应用程序的接口间的操作,而VB 语言同语音识别引擎的良好接口的强大功能在此时并未真实无法体现出来,在此基础上开发出更多更

23、实用的用语音识别类控制应用程序,甚至是控制计算机硬件的应用程序都是不难实现的。而更多的深入研究工作便是不断的开展实践开发工作,只有在实践中才能摸索出更多先进的技术手段来为开发语音识别程序服务。4 基于该开发方法的应用及新技术展望名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 7 页,共 9 页 - - - - - - - - - 基于 VB6.0环境的语音识别程序的开发方法只是众多开发方法中的一种,该开发方法也并不能列入先进开发方法的行列,但该开发方法是从事语音识别程序开发最基本的方

24、法,也是有志于从事该类程序开发人员较好入门技术。其简单实用的开发过程,以及其具备强大的功能支持, 该开发方法依旧有较好的应用价值,并能有效的开发出一些有实用功能的应用程序。因此掌握该开发方法也是十分有必要并且是很实用的。对于除此开发方法之外的新型开发方法有很多,以及由此而将会发展起来的基于web、基于 Internet 下的开发方法也将是未来的发展趋势。同时也不难想象将来会有语音搜索引擎的出现, 以及将来越来越多的具有语音查询功能的应用程序的出现等等。这些必将是语音识别技术的发展的结果所在。而这些,在我们的生活当中其实也是早就存在的,如Microsoft office2003 中的语音输入技术

25、,以及一些手机中的语音拨号功能等等都是语音识别程序最基本的应用。除此之外,开发一些专用于特殊用户的语音识别程序也有较大的需求量。5 结语语音识别技术在生活中是大量需要的,并且会越来越多的被广大用户使用。目前关于语音识别技术的研究正发展越来越快,大多基于Windows 平台的应用程序大量出现,而事实上更多的需要在其他各类平台上实现的该类应用程序也正大量出现,如何开发出更多能在各类平台上实现的语音识别程序正成为一种发展目标。本文通过介绍一种简单的开发方法既是对这类开发方法的推广和传播,也是希望有更多的开发人员能提出更多更好的有利于该类程序开发的方法。参考文献:1 王炳锡 实用语音识别基础M 国防工

26、业出版社 2005 年 1 月 【页码】 5-15 【版次】 1-1 2 刘幺和宋庭新语音识别与控制应用技术 M 科学出版社 2008 年 2 月【页 码】21-30 【版次】 1-1 3 Microsoft Speech SDK 5.1 Help S(Microsoft Speech SDK 5.1工具包帮助文件)4 周晓宏乔晓琳李群先 VisualBasic程序设计实用教程高等教育出版社 2007 年 2月【页码】 301-323 【版次】 :1-1 收稿日期: 2009-05-25基金项目: 2009 年湖北师范学院学生科研立项项目,项目编号:200976 作者简介:童强( 1968-)

27、 ,男(汉族) ,湖北黄石人,湖北师范学院计算机科学与技术学院副教授,主名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 8 页,共 9 页 - - - - - - - - - 要研究方向为人工智能、人机交互。王 军(1987-) , 男 ( 汉 族 ), 湖 北 黄 冈 人 , 湖 北 师 范 学 院 计 算 机 科 学 与 技 术 学 院06 级本科生(学号2006115010134) ,主要研究方向为人机交互。联系方式:地址:湖北省黄石市湖北师范学院计算机科学与技术学院王军Email: 名师资料总结 - - -精品资料欢迎下载 - - - - - - - - - - - - - - - - - - 名师精心整理 - - - - - - - 第 9 页,共 9 页 - - - - - - - - -

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 技术资料 > 技术总结

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁