《古籍数字化过程中汉字字库不足的解决思路,信息管理论文.docx》由会员分享,可在线阅读,更多相关《古籍数字化过程中汉字字库不足的解决思路,信息管理论文.docx(8页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、古籍数字化过程中汉字字库不足的解决思路,信息管理论文古籍数字化是加快古籍流通,有效保卫古籍的重要手段。中文古籍数字化肇始于 1978 年,美国人P J Ivanhoe 使用电子计算机编制了(戴震孟子字义疏证索引(王阳明大学问索引(王阳明传习录索引(朱熹中庸章句索引(朱熹大学章句索引机读目录。 当前在美国,由北美 36 家图书馆组成的美国图书馆研究学会,拥有 25 000 条数据的数据库做到了馆际资源分享,并还在不断地扩大完善中。哈fo燕京图书馆拥有的 线装古籍计算机检索系统 中的 1 000 余种家谱的资料,当前已经编目完成。在英国,大量中国贵重文献和古籍珍藏在大英图书馆,大英图书馆开发的 古
2、版书简明标题目录 是当下全球古籍文献数据库最大的联机数据库。以上这些成果为我们国家古籍数字化建设提供了难得珍贵的经历体验。 据 2018 年不完全统计,我们国家大陆地区有 179 家单位从事古籍数字化,构成各类数据库包括各种古籍书目数据库、古籍全文数据库等415 个,很多数据库的字数都在 1 亿以上。较权威的统计表示清楚,2020年我们国家公藏机构已经拥有超过 20 亿字的数字化文本格式的古籍。一些已成规模的大型古籍数据库还在原有基础上不断拓展和完善。 中国大陆地区开场中文古籍数字化工作以来,制约古籍数字化进程的主要问题是汉字字库问题。业界就这一问题进行了深切进入的研究和讨论。 1 国内外古籍
3、数字化经过中对汉字字库问题的研究大概情况 1.1 汉字字库的研究情况 我们国家从20世纪50年代就开场了计算机中文信息处理的理论和技术的研究,自 20 世纪 70 年代中期开场,我们国家逐步加快在计算机中文信息处理方面的发展步伐,在汉字键盘输入技术、汉字输出技术、汉字编码技术、汉字储存、检索和辨别、电子照排、中文平台等多方面获得了一系列重大成就。陆续开发的汉字键盘输入方式方法,解决了汉字进入计算机的难题;汉字输出实现了多字体、多字号;汉字字库的制作也由点阵字库、矢量字库逐步过渡到曲线轮廓字库;汉字自动辨别技术到达国际先进水平,并有商品投入市场;ISO/IEC 10646 的 CJK 字符集,由
4、早期的 20 902个 CJK 统一汉字逐步扩大,扩大集 A 和扩大集 B 已经完成,如今正讨论扩大集 C1。待扩大集 C1 完成后,中日韩编码汉字已经 7 万多。这些成就,促进了中国计算机的普及,为发展计算机应用技术和信息化创造了基本条件。 1.2 汉字字库的缺乏 中国古籍数字化经过近 30 年的努力,汉字字库得到了飞速发展,并开发出了超大字符集字库。在汉字信息化标准制定方面,国内外相继制定了多个汉字编码标准。最新的 GB 180302005 标准能够涵盖 70 244 个汉字。然而,古籍中的汉字大约有 10 万多个,GB 180302005 的字库还是远没有覆盖所有汉字。因而,在古籍数字化
5、时仍然会碰到不少缺字现象,补字工作不可避免。汉字字库的缺乏是影响古籍数字化质量及进程的主要问题之一。 2 我馆古籍数字化经过中应对汉字字库问题的策略 井冈山大学地处素称 江南望郡 、 金庐陵 、 文章节义之邦 的吉安,一直以来注重庐陵文化相关文献资料的购买和珍藏,为充分挖掘庐陵文化的精华真髓和内涵,又组织气力对相关的馆藏资源进行数字化加工,建成了特色数据库,为研究者提供了更快速、更丰富、更深层次的服务。 所谓庐陵文化,主要是指读书人多,建功立德者多,文教设施多,发表著述多等等。在数字化庐陵文化名人的古籍作品时,比方在(欧阳修文萃的数字化经过中,尽管安装了超大字符集字库,对计算机也作了相应的设置
6、,但还是碰到不少问题。故笔者将三年来数字化庐陵古籍文献中的实践经历体验进行总结,希望对从事古籍数字化的同仁有所启发和帮助,以期更多的古籍文化得以展示和传承。 2.1 选择适宜的输入法 在古籍数字化经过中,安装大的汉字字体库,能解决大部分汉字的输入与显示问题。当前比拟成熟的输入法有很多,但任何一种输入法都难以囊括字体库中的所有汉字。因而,对输入法的选择至关重要。适宜的输入法,不但决定了汉字的输出能力,更影响着古籍数字化的效率。 笔者建议选择 极点五笔 输入法,其一,此输入法既可单独进行 五笔字形、拼音输入法 的选择,可以选择 五笔拼音输入法 ,在这种输入状态下,对于那些当前还不能通过五笔输出的汉
7、字,可直接输入该字的拼音进行输出,省去了在五笔和拼音之间来回切换的操作;其二,该输入法的繁简切换非常直观、明了、方便,对于那些不是很熟悉的繁体字,通过输入其简体字就能显示对应的繁体字,这样建库人员能很快地确定其正误。比方 齋 和 齊 ,不仔细区别感觉像是同一个字,但实际上它们分别是 斋 和 齐 的繁体字。 2.2 偏远字的录入技巧 当前汉字字库中有大量的生僻字,无法通过五笔输入法输出,需通过拼音输入法才能输出,此时可在Word 中输入与生僻字偏旁和笔画相近的字,并选定该字,点击右键,在弹出菜单中选择 符号 ,便很快能找到所需文字,双击该字,即可直接输入到 Word中,这样建库人员在不知道其读音
8、的情况下,也能很快地输入该字,进而提高古籍数字化的进程。 2.3 自造古字 当前在古籍文献数字化处理的经过中,通用于业界的 Uni-code 字符集具有近 7 万字的容量,但在古籍数据库建设中还是不够用。因而,我们使用微软操作系统自带的 TrueType 造字程序进行造字,避免数据库中使用符号或讲明性文字代替当前输入法无法正常输出的文字现象。 3 古籍数字化汉字处理经过中需注意的问题及对策 古籍数字化汉字处理经过中碰到的最大障碍是汉字字库问题,它不但影响着古籍数字化的进程,还制约着古籍数字化的发展。汉字字库问题多年来经过专家学者的研究,正在不断的完善中,但仍未囊括古籍中的所有汉字,在进行古籍数
9、字化时仍有不少字需要利用相关程序进行造字。当前有一些具备造字功能的程序,笔者主要介绍使用微软操作系统自带的 TrueType 造字程序进行造字时需要注意的问题及解决方式方法。 3.1 造字时截取字库中已有字的有关部位 在造字时,最好截取现成字中需要的部分进行造字,这样比分别输入所造字的各个部分而造出的字要美观。比方:我们通过截取 映 的左半部和 换 的右半部造出的字比直接输入 日 和 奂 字而造出的字,看上去要自然美观。 3.2 自造字大小的调节 自造的字假如不通过区位码输入法进行输出,而是直接将其复制粘贴到 Word 或 Excel 文档中的话,字号大小的调节不要在造字程序中进行,而应在Wo
10、rd或 Excel 文档中进行,否则字的笔划线条太粗,放入相应文档中也会显得很不协调。 3.3 自造字的输出 将自造字直接放入 Excel 单元格中时,单元格的状态应处于编辑状态即单击该单元格而不是可修改状态即双击单元格,否则无法将自造字粘贴到指定位置。但这种直接将自造字复制粘贴到 Excel 或Word 文档中的操作,当需对其进行排版时,它不会随之移动,要人工调整它所在的位置,故生僻字造好后,应利用区位码输入法输出到相应文档中,这样排版时就不会出现自造字不随文移动的现象了。 3.4 自造字的显示 自造的字缺乏通用性,因而若要在不同的计算机上都能够正常显示 Excel 或数据库中的自造字,就必
11、须将eudc.euf和eudc.tff这两个自造字库文件拷贝到字体目录下。需要指出的是,将这二个文件拷贝到指定目录时,根据计算机设置的不同,其拷贝方式方法也不同。即:操作系统中没有携带 TrueType 造字程序,只需直接将自造字的二个文件粘贴到指定目录,重启计算机就行了;其他情况就只要通过 command 命令进行拷贝操作,当然假如造字程序或自造字文件处于运行状态,则拷贝操作无法进行。 4、 结束语 古籍数字化建设是一项艰巨而复杂的系统工程,尽管当前古籍数字化建设中还存在一些问题,但随着国家 中国古籍数字化工程 的启动及数字化技术的发展与完善,相信在不久的将来,古籍数字化经过中所碰到的问题都
12、将逐步得到解决。 以下为参考文献: 1赵雪云,刘宗利,赵瑞生.浅谈我们国家古籍数字化J.才智,2020(12):115-116. 2高娟,刘家真.中国大陆地区古籍数字化问题及对策J.中国图书馆学报,2020,39(4):110-119. 3黄坚.无字库智能造字系统在计算机上的实现D.广州:华南理工大学,2018:1-89. 4李宇明.搭建中华字符集大平台J.中文信息学报,2003,17(2):1-6,53. 5李实明,李玖蔚,傅林红,等.宋代庐陵文化名人研究数据库建设概述J.井冈山学院学报哲学社会科学,2018,30(11):9-11. 6郭伟玲,戴艳清.论古籍数字化的检索问题J.图书馆理论与实践,2018(10):13-16.