《第3章文本处理技术课件.ppt》由会员分享,可在线阅读,更多相关《第3章文本处理技术课件.ppt(45页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第1页第第3章章 文本处理技术文本处理技术本章概述 本章的学习目标主要内容第2页 本章概述本章概述l文本文本(Text)是多媒体信息最基本的表示形式之一,可以清是多媒体信息最基本的表示形式之一,可以清楚、准确地表达思想,描述概念,叙述事实等。它是人们楚、准确地表达思想,描述概念,叙述事实等。它是人们最熟悉的信息表示方式,例如,文章,书等都以文本形式最熟悉的信息表示方式,例如,文章,书等都以文本形式出现。出现。l文本的最显著的特点是在组织上是线性的和顺序的。在计文本的最显著的特点是在组织上是线性的和顺序的。在计算机系统中,文字和数值都是用二进制编码表示的,文字算机系统中,文字和数值都是用二进制编
2、码表示的,文字信息和数值信息统称为文本信息。信息和数值信息统称为文本信息。l与其他媒体相比,文本是最容易处理、占用存储空间最少、与其他媒体相比,文本是最容易处理、占用存储空间最少、最方便利用计算机输入和存储的媒体。最方便利用计算机输入和存储的媒体。l本章主要介绍了文本的基本知识,文本的获取及处理。本章主要介绍了文本的基本知识,文本的获取及处理。第3页 本章的学习目标本章的学习目标l理解文本的基本知识理解文本的基本知识l掌握常用的文本获取方法掌握常用的文本获取方法l熟练掌握文本的编辑熟练掌握文本的编辑l掌握电子图书的制作掌握电子图书的制作第4页 主要内容主要内容3.1 文字信息在计算机中的表示文
3、字信息在计算机中的表示3.2 文本的类型文本的类型 3.3 获取文本信息获取文本信息3.4 处理文本信息处理文本信息3.5 本章小结本章小结 第5页 3.1 文字信息在计算机中的表示文字信息在计算机中的表示l文本是以文字和各种专用符号表达的信息形式,文本是以文字和各种专用符号表达的信息形式,它是现实世界中使用的最多的一种信息存储和传它是现实世界中使用的最多的一种信息存储和传递方式,主要用于对信息的描述性表示。递方式,主要用于对信息的描述性表示。l计算机系统通过指定的二进制编码来存储数字、计算机系统通过指定的二进制编码来存储数字、字母和其它字符。因此,要想在计算机中表示文字母和其它字符。因此,要
4、想在计算机中表示文字信息,需要将文字用二进制编码的形式表示出字信息,需要将文字用二进制编码的形式表示出来。来。l在计算机系统中,西文字符和汉字的编码方式是在计算机系统中,西文字符和汉字的编码方式是不同的。不同的。 第6页 3.1.1 西文编码西文编码 lASCII码码西文采用西文采用ASCII码码(American Standard Code for Information Interchange,美国信息交换标准代码,美国信息交换标准代码)表表示,包括数字、字母、特殊符号等。示,包括数字、字母、特殊符号等。 ASCII码用码用7位二进制数表示一个字符,共能表示位二进制数表示一个字符,共能表示
5、27=128个不同的字符,包括了计算机处理信息常用的个不同的字符,包括了计算机处理信息常用的26个英文大写字母个英文大写字母A-Z,26个英文小写字母个英文小写字母a-z,数字,数字符号符号0-9,算术与逻辑运算符号、标点符号等。,算术与逻辑运算符号、标点符号等。 l扩展扩展ASCII码码 第7页 3.1.2 汉字编码汉字编码国标码国标码区位码区位码机内码机内码输入码输入码第8页 国标码国标码l我国国家标准局于我国国家标准局于1981年年5月颁布了月颁布了信息交换信息交换用汉字编码字符集用汉字编码字符集基本集基本集,代号为,代号为GB 2312-1980,是国家规定的用于汉字信息处理使,是国家
6、规定的用于汉字信息处理使用的代码依据,这种编码称为国标码。用的代码依据,这种编码称为国标码。l由连续两个字节组成。在国标码字符集中共收录由连续两个字节组成。在国标码字符集中共收录6763个常用汉字和个常用汉字和682个数字和图形字符,其中个数字和图形字符,其中一级汉字一级汉字3755个,按拼音顺序排列,二级汉字个,按拼音顺序排列,二级汉字3008个,按部首排列。个,按部首排列。第9页 区位码区位码l国标国标GB 2312-1980规定,所有的汉字与符号组成规定,所有的汉字与符号组成一个一个9494的矩阵,在此方阵中,每一行称为一的矩阵,在此方阵中,每一行称为一个个“区区”(区号为区号为0194
7、),每一列称为一个,每一列称为一个“位位”(位号为位号为0194),该方阵实际组成了一个,该方阵实际组成了一个94个区,每个区内有个区,每个区内有94位的汉字字符集,每一个位的汉字字符集,每一个汉字或符号在码表中都有一个唯一的位置编码,汉字或符号在码表中都有一个唯一的位置编码,称为该字符的区位码。称为该字符的区位码。l国标码是由区位码稍作转换得到,其转换方法为:国标码是由区位码稍作转换得到,其转换方法为:先将十进制区位码转换为十六进制的区位码,这先将十进制区位码转换为十六进制的区位码,这样就得了一个与国标码有一个相对位置差的代码,样就得了一个与国标码有一个相对位置差的代码,再将这个代码的第一个
8、字节和第二个字节分别加再将这个代码的第一个字节和第二个字节分别加上上20H,就得到国标码。,就得到国标码。第10页 机内码机内码l国标码是汉字信息交换的标准编码,但因其两字国标码是汉字信息交换的标准编码,但因其两字节的最高位为节的最高位为0,与,与ASCII码发生冲突,如码发生冲突,如“刘刘”字,国标码为字,国标码为41H和和75H,而西文字符,而西文字符“A”和和“u”的的ASCII也为也为41H和和75H,现假如内存中有两个字,现假如内存中有两个字节为节为41H和和75H,这到底是一个汉字,还是两个西,这到底是一个汉字,还是两个西文字符文字符“A”和和“u”?于是就出现了二义性。显然,?于
9、是就出现了二义性。显然,国标码是不可能在计算机内部直接采用的。国标码是不可能在计算机内部直接采用的。l于是,汉字的机内码采用变形国标码。其变换方于是,汉字的机内码采用变形国标码。其变换方法为:将国标码的每个字节都加上法为:将国标码的每个字节都加上128,即将两个,即将两个字节的最高位由字节的最高位由0改改1,其余,其余7位不变。也就是说,位不变。也就是说,如果国标码是如果国标码是16进制的,直接加上进制的,直接加上8080H即可。即可。 第11页 输入码输入码 l汉字输入码是使用英文键盘输入汉字时的编码。目汉字输入码是使用英文键盘输入汉字时的编码。目前,我国已推出的输入码有数百种,但用户使用较
10、前,我国已推出的输入码有数百种,但用户使用较多的只有十几种。按输入码编码的主要依据大体可多的只有十几种。按输入码编码的主要依据大体可分为顺序码、音码、形码、音形码四类。分为顺序码、音码、形码、音形码四类。l现在最普及的是拼音输入法现在最普及的是拼音输入法(如紫光拼音、搜狗拼如紫光拼音、搜狗拼音等音等)和五笔输入法。如和五笔输入法。如“刘刘”字,用全拼,输入字,用全拼,输入码为码为码为码为“liu”,用五笔字型则为,用五笔字型则为“yjh”。l需要指出的是,不管采用什么样的编码输入法需要指出的是,不管采用什么样的编码输入法(例例如拼音、五笔字型等如拼音、五笔字型等)来输入一个汉字,其机内码来输入
11、一个汉字,其机内码都是相同的。都是相同的。第12页 3.1.3 Unicode编码编码 lUnicode(统一字符编码标准,又叫万国码、单一码统一字符编码标准,又叫万国码、单一码)是一是一种在计算机上使用的字符编码。从种在计算机上使用的字符编码。从1990年开始,来自许年开始,来自许多知名计算机公司的语言学家、信息专家和工程师携手合多知名计算机公司的语言学家、信息专家和工程师携手合作,采用作,采用16位对多种文字文本和字符进行编码,最后形成位对多种文字文本和字符进行编码,最后形成了一个统一的编码方案,为每种语言中的每个字符设定了了一个统一的编码方案,为每种语言中的每个字符设定了统一并且唯一的二
12、进制编码,以满足跨语言、跨平台进行统一并且唯一的二进制编码,以满足跨语言、跨平台进行文本转换、处理的要求。文本转换、处理的要求。lUnicode于于1994年正式公布,年正式公布,Unicode标准中包含了超过标准中包含了超过18000个汉字个汉字(日本、中国和韩国使用的象形文字日本、中国和韩国使用的象形文字),以后,以后的版本中还将包括一些生僻字,例如楔形文字、象形文字的版本中还将包括一些生僻字,例如楔形文字、象形文字和古代汉字。此外,还保留了一些字符编码空间,用于用和古代汉字。此外,还保留了一些字符编码空间,用于用户的专门用途。户的专门用途。第13页 主要内容主要内容3.1 文字信息在计算
13、机中的表示文字信息在计算机中的表示3.2 文本的类型文本的类型 3.3 获取文本信息获取文本信息3.4 处理文本信息处理文本信息3.5 本章小结本章小结 第14页 3.2 文本的类型文本的类型 l无格式文本无格式文本l格式文本格式文本l超文本超文本第15页 无格式文本无格式文本l无格式的文本只存储文字信息本身,文字以固定无格式的文本只存储文字信息本身,文字以固定的大小和风格输出,因而也称为纯文本,通常保的大小和风格输出,因而也称为纯文本,通常保存为存为.txt类型的文件。类型的文件。l一般使用简单的文本编辑软件即可进行编辑,如一般使用简单的文本编辑软件即可进行编辑,如Windows操作系统中的
14、操作系统中的“记事本记事本”。使用。使用“记事记事本本”软件,用户无法定义文本格式和版面格式,软件,用户无法定义文本格式和版面格式,只能进行最基本的文本和临时的简单格式处理。只能进行最基本的文本和临时的简单格式处理。l由于是纯文本文件,所以这些简单格式不能随文由于是纯文本文件,所以这些简单格式不能随文字内容一起保存。字内容一起保存。第16页 格式文本格式文本l格式文本不仅包含文字的基本信息,还包括文字的字号、格式文本不仅包含文字的基本信息,还包括文字的字号、颜色、字体以及其他用于规定输出格式的排版颜色、字体以及其他用于规定输出格式的排版(如表格、如表格、分栏等分栏等)信息。编辑这类文件,可设置
15、文本的字体、字号、信息。编辑这类文件,可设置文本的字体、字号、颜色、字形颜色、字形(正常、加粗、斜体、下划线、上标、下标等正常、加粗、斜体、下划线、上标、下标等)、字间距、行间距和段间距等。字间距、行间距和段间距等。l格式文本要用功能较强的字处理软件来编辑,如格式文本要用功能较强的字处理软件来编辑,如Microsoft Word和金山和金山WPS等。通过这些软件用户可以等。通过这些软件用户可以定义和编辑文本的格式和版面信息。定义和编辑文本的格式和版面信息。l格式文本是计算机文字处理的重要内容之一。格式文本是计算机文字处理的重要内容之一。 第17页 超文本超文本l超文本是以非线性方式组织的,它将
16、文本内容按其内容含超文本是以非线性方式组织的,它将文本内容按其内容含义分割成不同的文本块,再按其固有的逻辑关系通过超链义分割成不同的文本块,再按其固有的逻辑关系通过超链接组织成非线性的网状结构,从而提供了一种符合人们思接组织成非线性的网状结构,从而提供了一种符合人们思维习惯的联想式阅读方式。纯粹的超文本文件是由超文本维习惯的联想式阅读方式。纯粹的超文本文件是由超文本标记语言标记语言(HTML)和被分割的不同文本块按照和被分割的不同文本块按照HTML规定规定的格式要求组成的。的格式要求组成的。l当超文本中的内容不仅包含文本块,而且还包含图片、声当超文本中的内容不仅包含文本块,而且还包含图片、声音
17、、视频、动画等多种媒体信息,且通过超级链接实现各音、视频、动画等多种媒体信息,且通过超级链接实现各种媒体信息的组合使用时,则这种超文本又被称为超媒体。种媒体信息的组合使用时,则这种超文本又被称为超媒体。目前流行于目前流行于Internet上的网页大多是超媒体。上的网页大多是超媒体。 第18页 常用文本的存储类型常用文本的存储类型 第19页 主要内容主要内容3.1 文字信息在计算机中的表示文字信息在计算机中的表示3.2 文本的类型文本的类型 3.3 获取文本信息获取文本信息3.4 处理文本信息处理文本信息3.5 本章小结本章小结 第20页 3.3 获取文本信息获取文本信息l文本信息的获取主要是指
18、利用不同的设备和输入途径,快速文本信息的获取主要是指利用不同的设备和输入途径,快速准确地输入文本信息的方法。准确地输入文本信息的方法。l一般情况下计算机系统是通过英文键盘来输入英文信息的,一般情况下计算机系统是通过英文键盘来输入英文信息的,中文信息的输入方法也一样,但这并不等于所有的文本信息中文信息的输入方法也一样,但这并不等于所有的文本信息只能通过键盘来输入。只能通过键盘来输入。l在多媒体应用项目的开发过程中,首先要解决的就是文本信在多媒体应用项目的开发过程中,首先要解决的就是文本信息的输入问题,有的应用需要在短时间输入大量的文本信息,息的输入问题,有的应用需要在短时间输入大量的文本信息,仅
19、靠键盘输入内容很难满足需要。仅靠键盘输入内容很难满足需要。l随着多媒体技术的发展,人们己经开发出了手写输入、语音随着多媒体技术的发展,人们己经开发出了手写输入、语音输入、输入、OCR识别输入等多种文本信息输入方法。识别输入等多种文本信息输入方法。 第21页 3.3.1 键盘输入键盘输入 l键盘输入是传统的文本输入方法,是随时可用的主键盘输入是传统的文本输入方法,是随时可用的主要的输入方法。要的输入方法。l通过键盘,可直接输入英文信息;而中文信息则需通过键盘,可直接输入英文信息;而中文信息则需通过不同的中文输入法来完成。通过不同的中文输入法来完成。l常用的中文输入方法有常用的中文输入方法有“搜狗
20、拼音搜狗拼音”输入法、输入法、“五五笔字型笔字型”输入法和输入法和“微软拼音微软拼音”输入法等。输入法等。l一般来说,使用键盘输入信息特别是中文信息时,一般来说,使用键盘输入信息特别是中文信息时,需要经过不断的练习,才能熟练掌握一种汉字输入需要经过不断的练习,才能熟练掌握一种汉字输入方法。方法。 第22页 3.3.2 手写输入手写输入 l手写输入法是近年来一种比较成熟的人性化中英手写输入法是近年来一种比较成熟的人性化中英文输入法,适合于不习惯键盘操作的人群和没有文输入法,适合于不习惯键盘操作的人群和没有标准英文键盘的场合,常用的掌上电脑、台式机标准英文键盘的场合,常用的掌上电脑、台式机以及部分
21、手机产品都配备了手写输入系统。以及部分手机产品都配备了手写输入系统。l常规的手写输入系统由一个手写笔、一块手写板常规的手写输入系统由一个手写笔、一块手写板和手写识别软件三部分组成,使用时只要把手写和手写识别软件三部分组成,使用时只要把手写板与电脑主机正确连接,并安装识别软件,即可板与电脑主机正确连接,并安装识别软件,即可像真正在纸上写字一样向电脑输入信息。像真正在纸上写字一样向电脑输入信息。l与键盘输入相比,手写输入的最大特点就是操作与键盘输入相比,手写输入的最大特点就是操作简单,只要会写字即可输入文字。简单,只要会写字即可输入文字。 第23页 3.3.3 语音输入语音输入 l语音输入是通过计
22、算机系统中的音频处理系统语音输入是通过计算机系统中的音频处理系统(主主要包括声卡和麦克风要包括声卡和麦克风),采集处理人的语音信息,采集处理人的语音信息,再经过语音识别处理,将说话内容转换成对应的再经过语音识别处理,将说话内容转换成对应的文字来完成输入的。文字来完成输入的。l利用语音识别技术将声音通过计算机转换为文本,利用语音识别技术将声音通过计算机转换为文本,是最方便、最自然、最快捷的文本输入方式。是最方便、最自然、最快捷的文本输入方式。l语音输入的最大特点是只要会说话,就能把信息语音输入的最大特点是只要会说话,就能把信息输入到电脑中,但在具体使用之前需经过短时间输入到电脑中,但在具体使用之
23、前需经过短时间的语音的语音“适应适应”训练。训练。第24页 3.3.4 扫描输入扫描输入 扫描输入的核心是光学字符识别技术扫描输入的核心是光学字符识别技术(Optical Character Recognition,OCR),OCR输入就是指用扫输入就是指用扫描仪将印刷文字以图像的方式扫描到计算机系统中,再用描仪将印刷文字以图像的方式扫描到计算机系统中,再用OCR文字识别软件将图像中的文字识别出来,并转换为文文字识别软件将图像中的文字识别出来,并转换为文本格式的文件,完成文本信息的输入。本格式的文件,完成文本信息的输入。 使用扫描输入之前,首先要安装扫描仪,并安装相应使用扫描输入之前,首先要安
24、装扫描仪,并安装相应的的OCR识别软件。使用扫描输入一般要经过以下识别软件。使用扫描输入一般要经过以下3个步骤:个步骤: 1扫描扫描 2纠偏和翻转纠偏和翻转 3识别识别第25页 主要内容主要内容3.1 文字信息在计算机中的表示文字信息在计算机中的表示3.2 文本的类型文本的类型 3.3 获取文本信息获取文本信息3.4 处理文本信息处理文本信息3.5 本章小结本章小结 第26页 3.4 处理文本信息处理文本信息 l文本信息处理是指根据不同的要求和使用目的,文本信息处理是指根据不同的要求和使用目的,选择相适应的文本格式,进行内容、形式选择相适应的文本格式,进行内容、形式(版面版面)、风格等的编辑与
25、设计工作,并通过设计特殊图符风格等的编辑与设计工作,并通过设计特殊图符和效果来美化文本。和效果来美化文本。l文本信息处理的复杂情况根据文本结构的不同而文本信息处理的复杂情况根据文本结构的不同而不同。不同。l对于格式文本来说,内容输入完成后,还需要进对于格式文本来说,内容输入完成后,还需要进行相关的处理,比如版面设计、风格设计、文字行相关的处理,比如版面设计、风格设计、文字属性编辑、特殊效果处理、打印输出等。属性编辑、特殊效果处理、打印输出等。第27页 3.4.1 文本信息处理文本信息处理l文本信息是格式文本的内容,是主体部分;文本文本信息是格式文本的内容,是主体部分;文本属性信息、版面信息用来
26、表现和反映文本的形式。属性信息、版面信息用来表现和反映文本的形式。内容与形式的适当搭配,是格式文本处理的基本内容与形式的适当搭配,是格式文本处理的基本要求。要求。l格式文本处理的主要目的是为了出版发行格式文本处理的主要目的是为了出版发行(包括包括打印、电子发行等打印、电子发行等)。除了创意和设计风格外,。除了创意和设计风格外,格式文本处理在技术方面包括以下几方面的内容:格式文本处理在技术方面包括以下几方面的内容: 1版面格式设置版面格式设置 2文字属性编辑文字属性编辑 3非文本内容排版非文本内容排版第28页 1 1版面格式设置版面格式设置 在进行格式文本处理时,主要内容就是在进行格式文本处理时
27、,主要内容就是根据应用目的和场合,选择合适的版面格式,根据应用目的和场合,选择合适的版面格式,并通过文字处理软件进行设置。主要包括页并通过文字处理软件进行设置。主要包括页边距、页眉及页脚的设置,版心区域文字的边距、页眉及页脚的设置,版心区域文字的排列方向排列方向(横向、纵向横向、纵向)和纸张类型和纸张类型(空白纸、空白纸、横格纸、竖格纸横格纸、竖格纸)等内容。等内容。 第29页 2文字属性编辑文字属性编辑l文本中的文字属性包括:文本中的文字属性包括:字体字体(Font)字号字号(Size)风格风格(Style)颜色颜色(Color)对齐方式对齐方式(Align)l属性编辑就是通过相应的操作实现
28、对这些属属性编辑就是通过相应的操作实现对这些属性值的设置和修改。性值的设置和修改。第30页 字体字体(Font)lWindows系统提供系统提供了许多中文字体,了许多中文字体,主要包括宋体、仿主要包括宋体、仿宋、黑体、楷体、宋、黑体、楷体、隶书、行楷等近隶书、行楷等近20种,如图所示。种,如图所示。l在处理文本时,应在处理文本时,应根据文本的使用需根据文本的使用需要选择合适的字体。要选择合适的字体。第31页 字号字号 l文本中字的大小用两种方式来描述。文本中字的大小用两种方式来描述。l汉字的大小通常用规定大小的字号来描述,分为初号、小汉字的大小通常用规定大小的字号来描述,分为初号、小初号、一号
29、、二号一直到八号,初号字最大,八号字最小。初号、一号、二号一直到八号,初号字最大,八号字最小。l西文字符通常则是直接给出字符的大小,以西文字符通常则是直接给出字符的大小,以“磅磅”(Point)为单位,最小字为为单位,最小字为5磅,最大字为磅,最大字为72磅。磅。“磅磅”值越大,值越大,字就越大。字就越大。l汉字也可以在字号设置框内直接输入汉字也可以在字号设置框内直接输入“磅磅”值。值。汉字字号与汉字字号与“磅磅”以及毫米之间的对应关系以及毫米之间的对应关系第32页 风格风格l字体的风格主要指在选定的字体、字号基础上,字体的风格主要指在选定的字体、字号基础上,再使文字在造型方面有所变化,从而表
30、现出不同再使文字在造型方面有所变化,从而表现出不同的风格。的风格。l具体风格选项有:普通、加粗、斜体、下划线、具体风格选项有:普通、加粗、斜体、下划线、字符边框、字符底纹和阴影等。字符边框、字符底纹和阴影等。l在具体应用中,可以通过字处理软件的风格选项在具体应用中,可以通过字处理软件的风格选项设置文字的不同风格,使整个文本显得活泼、多设置文字的不同风格,使整个文本显得活泼、多样。样。第33页 颜色颜色 l格式文本中的文字属性还包含了显示颜色。格式文本中的文字属性还包含了显示颜色。l多媒体计算机的显示系统均提供真彩显示,所以多媒体计算机的显示系统均提供真彩显示,所以对文字来说也有丰富的颜色供选择
31、。对文字来说也有丰富的颜色供选择。l在文字处理过程中,可通过颜色选择与修改操作在文字处理过程中,可通过颜色选择与修改操作对文字指定任何显示颜色,使整个文本更加丰富对文字指定任何显示颜色,使整个文本更加丰富多彩。多彩。 第34页 位置位置l文字的位置主要有:左对齐、右对齐、居中、两文字的位置主要有:左对齐、右对齐、居中、两端对齐以及分散对齐等设置,使用时可根据需要端对齐以及分散对齐等设置,使用时可根据需要进行选择。进行选择。 l在文本处理过程中,可通过文字处理软件的相应在文本处理过程中,可通过文字处理软件的相应操作,方便地设置和修改文本内容的这些属性。操作,方便地设置和修改文本内容的这些属性。l
32、对于正式的印刷出版物来说,不同类型的出版物对于正式的印刷出版物来说,不同类型的出版物都有各自的格式和字体字号等的使用规定。都有各自的格式和字体字号等的使用规定。第35页 3非文本内容排版非文本内容排版 除了以上的格式处理之外,目前的文字处理除了以上的格式处理之外,目前的文字处理软件在处理格式文本时,还具有在文本的不同位软件在处理格式文本时,还具有在文本的不同位置插入非文本内容的功能,如插入图片、表格、置插入非文本内容的功能,如插入图片、表格、数学公式、文本框等。合理地使用和处理这些内数学公式、文本框等。合理地使用和处理这些内容,不仅可实现版面中文、图、表等表现形式的容,不仅可实现版面中文、图、
33、表等表现形式的综合利用,还能将格式文本应用于科技资料处理综合利用,还能将格式文本应用于科技资料处理中,以增加格式文本的表现力和说明力。中,以增加格式文本的表现力和说明力。 第36页 3.4.2 Word字处理软件字处理软件 Word字处理软件是字处理软件是Microsoft公司开发的办公套公司开发的办公套件件Microsoft Office中的一中的一个专门用来进行文字处理的个专门用来进行文字处理的软件产品,可运行于软件产品,可运行于Windows平台和平台和Power Mac平台。平台。 Windows平台下的平台下的Word字处理软件经历了字处理软件经历了Word 3.0、Word 6.5
34、、97版、版、2000版、版、XP版、版、2003版、版、2007版、版、2010版,且每个版版,且每个版本都提供了简体中文版。本都提供了简体中文版。Word 2007中文版界面中文版界面第37页 Word字处理软件功能字处理软件功能l内容编辑:键盘和鼠标结合,可以方便地实施插入、修改、内容编辑:键盘和鼠标结合,可以方便地实施插入、修改、删除、复制等操作。删除、复制等操作。l图文混排:可任意地链接或插入各种剪贴画、图片、图像、图文混排:可任意地链接或插入各种剪贴画、图片、图像、艺术字或声音等对象,获得图文并茂的效果。艺术字或声音等对象,获得图文并茂的效果。l表格功能:提供了不同种类的多种风格的
35、表格模式,可以根表格功能:提供了不同种类的多种风格的表格模式,可以根据数据的宽度自动调节表格的列宽,对数据进行汇总计算及据数据的宽度自动调节表格的列宽,对数据进行汇总计算及逻辑处理。逻辑处理。l排版功能:提供了丰富的字体、字号、字样、颜色、艺术字排版功能:提供了丰富的字体、字号、字样、颜色、艺术字处理功能以及灵活、规范、可选的版面格式定义和不同风格处理功能以及灵活、规范、可选的版面格式定义和不同风格的排版形式,可以快速设置字符格式与文本段落格式;可以的排版形式,可以快速设置字符格式与文本段落格式;可以插入页眉或页脚等对象;可以选定用来打印文档的纸张的大插入页眉或页脚等对象;可以选定用来打印文档
36、的纸张的大小;可以设定打印纸的上、下、左、右页边距。小;可以设定打印纸的上、下、左、右页边距。l特殊功能:主要有公式编辑、文件格式转换、打印预览、连特殊功能:主要有公式编辑、文件格式转换、打印预览、连接接Internet进行网页浏览及制作进行网页浏览及制作Web页功能等。页功能等。 第38页 3.4.3 制作电子图书制作电子图书 电子图书具备纸质书籍所不可比拟的优势,电子图书具备纸质书籍所不可比拟的优势,它是以数字方式将图、文、声、像等信息存储它是以数字方式将图、文、声、像等信息存储在磁、光、电介质上,通过计算机或类似设备在磁、光、电介质上,通过计算机或类似设备的使用,可复制发行的大众传播媒体
37、。常见的的使用,可复制发行的大众传播媒体。常见的电子图书格式很多,比如电子图书格式很多,比如TXT、HTML、EXE、PDF、CHM、等格式。这里以、等格式。这里以PDF格式为例介格式为例介绍电子图书的制作方法。绍电子图书的制作方法。第39页 1Adobe Acrobat软件的安装软件的安装 lAdobe Acrobat软件是软件是Adobe公司发布的公司发布的PDF文文档阅读、制作及编辑软件,档阅读、制作及编辑软件,可以直接打开可以直接打开TXT、HTML、DOC、PPT等多等多种文件格式,并将它们快种文件格式,并将它们快速转换为图文并茂的速转换为图文并茂的PDF文件。文件。l在安装在安装A
38、dobe Acrobat的的同时,注意选择同时,注意选择“自定义自定义”安装方式,并在安装选项安装方式,并在安装选项中选取中选取“亚洲语言支持亚洲语言支持”选项,这样就可以提供对选项,这样就可以提供对中文、日文、韩文等多种中文、日文、韩文等多种文字的支持了,如图所示。文字的支持了,如图所示。 第40页 2检查虚拟打印设备检查虚拟打印设备 完成安装以后,打开完成安装以后,打开Windows控制面板中的控制面板中的“打印打印机机”,此时即可看到已经安装了,此时即可看到已经安装了Acrobat的虚拟打印方的虚拟打印方式式Acrobat PDF,如图所示,这时就可以使用文档编,如图所示,这时就可以使用
39、文档编辑器编辑文本,并通过虚拟打印机进行打印。辑器编辑文本,并通过虚拟打印机进行打印。 第41页 3制作电子文档制作电子文档l对文本进行编辑,可以使用对文本进行编辑,可以使用Word软件编辑处理为软件编辑处理为DOC文件格式,并对文件格式,并对版面进行设置。编辑完成后就可以打印输出版面进行设置。编辑完成后就可以打印输出PDF文档。具体步骤如下:文档。具体步骤如下:l执行执行Word菜单命令菜单命令“文件文件”“打印打印”,弹出,弹出“打印打印”对话框,在对话框,在“打打印机名称印机名称”选项中选择选项中选择“Adobe PDF”,如图左所示。,如图左所示。l单击单击“属性属性”按钮打开按钮打开
40、“Adobe PDF文档文档 属性属性”对话框,在对话框,在“Adobe PDF 设置设置”选项卡中可以查看相关设置,如图右所示。设置后单击选项卡中可以查看相关设置,如图右所示。设置后单击“确定确定”按钮返回按钮返回“打印打印”对话框,单击对话框,单击“确定确定”按钮即可将文档打印按钮即可将文档打印为为PDF文件。文件。第42页 4对对PDF文档的编辑文档的编辑 可以在可以在Adobe Acrobat中对中对PDF文档进行进文档进行进一步的编辑与处一步的编辑与处理。比如利用理。比如利用“注释注释”菜单下菜单下的工具为文章增的工具为文章增加注释及标记等,加注释及标记等,如图所示。如图所示。 第4
41、3页 5电子图书的保护电子图书的保护l如果要保护文档,可以为文档设置阅读密码、禁止复制、打印等。如果要保护文档,可以为文档设置阅读密码、禁止复制、打印等。l打开打开PDF文件,选择文件,选择“文件文件”“文档属性文档属性”,弹出,弹出“文档属性文档属性”对话框,对话框,选择选择“安全性安全性”标签,如左图。标签,如左图。 默认为默认为“无安全性设置无安全性设置”。l单击单击“安全性方法安全性方法”右边的下拉列表按钮,在弹出的选项中选择右边的下拉列表按钮,在弹出的选项中选择“口令安全口令安全性性”,弹出如右图所示的,弹出如右图所示的“口令安全性口令安全性-设置设置”对话框,在其中进行对话框,在其
42、中进行“文档打文档打开口令开口令”、“许可许可”等的设置即可。完成设置后,单击等的设置即可。完成设置后,单击“确定确定”按钮返回。按钮返回。 第44页 主要内容主要内容3.1 文字信息在计算机中的表示文字信息在计算机中的表示3.2 文本的类型文本的类型 3.3 获取文本信息获取文本信息3.4 处理文本信息处理文本信息3.5 本章小结本章小结 第45页 3.5 本章小结本章小结 l本章介绍了文本信息处理的相关技术。本章介绍了文本信息处理的相关技术。l首先,介绍了文本的概念及编码方案。首先,介绍了文本的概念及编码方案。l其次,介绍了文本类型及文本的获取。其次,介绍了文本类型及文本的获取。l接下来,对文本的处理及电子图书的制作进行了接下来,对文本的处理及电子图书的制作进行了研究。研究。