印刷体汉字的统计特性及分析.ppt

上传人:wuy****n92 文档编号:91545402 上传时间:2023-05-27 格式:PPT 页数:44 大小:572KB
返回 下载 相关 举报
印刷体汉字的统计特性及分析.ppt_第1页
第1页 / 共44页
印刷体汉字的统计特性及分析.ppt_第2页
第2页 / 共44页
点击查看更多>>
资源描述

《印刷体汉字的统计特性及分析.ppt》由会员分享,可在线阅读,更多相关《印刷体汉字的统计特性及分析.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。

1、第9讲 印刷体汉字的统计特性及分析要点:统计特性分析的意义 常用统计特性的分析 课堂练习统计特性分析的意义 对印刷体汉字的结构特性做统计分析,不仅对汉字研究和汉字编码很有意义,而且对印刷体汉字识别的特征选择和分类器的设计也有很大意义。返回常用统计特性的分析 周边特征分析 游程统计特性分析 笔划特性分析 字根统计特性分析 返回周边特征分析 汉字的3232 点阵表示 汉字的1616 点阵表示 空程长度及计算举例 周边空程长度熵 周边空程长度熵的特点 返回汉字的3232 点阵表示 每个汉字用3232 点阵表示。返回汉字的1616 点阵表示 每个汉字用1616 点阵表示。返回空程长度 把汉字表示为N

2、N 点阵,分别从左、右、上、下四个周边顺次扫描汉字点阵。在第n次扫描线上第一次遇到黑像素前白像素的个数,称为相应的周边空程长度。空程长度用l 表示 用 分别表示四个方向上空程长度l 的概率分布。返回空程长度的计算举例 左边 右边 上边 下边 返回左边空程长度 2,3,3,6,0,1,1,3,3,2,0,2,2,2,2,16返回右边空程长度 13,12,2,3,3,4,4,4,5,5,6,5,3,1,2,16返回上边空程长度 4,5,0,1,5,2,2,2,2,2,2,2,2,2,13,16返回下边空程长度 5,5,1,7,9,2,2,3,4,5,4,3,2,1,2,16返回周边空程长度熵 左周

3、边熵:右周边熵:上周边熵:下周边熵:返回3232 点阵左周边熵分布图 返回3232 点阵右周边熵分布图 返回3232 点阵上周边熵分布图 返回3232 点阵下周边熵分布图 返回周边空程长度熵的特点 周边空程长度熵是四边结构特征所包含信息量的度量,其最大值为:统计结果表明:返回 周边熵较高,一般均大于2 角部位置区域的熵值最大 说明提取周边特征和角部特征具有合理性游程统计特性分析 游程的定义 游程统计分析的意义 不同角度的平均黑游程长度 黑游程的分布特点 返回游程的定义 游程是指在同一方向上,宽度为一个像素的扫描线条的长度。由笔划像素组成的黑游程长度记为BRL 由背景像素组成的白游程长度记WRL

4、 返回游程统计分析的意义 可以反映汉字内部笔划结构的分布情况 对汉字特征选择和汉字压缩编码都有一定参考意义 返回不同角度的平均黑游程长度 从八个离散方向对4040 点阵的汉字进行游程分布统计,不同角度的平均黑游程长度列于下表中:返回离散方向0090045013507001 1002001600平均黑游程4.159 4.470 2.667 2.939 3.445 3.547 2.261 3.348黑游程的分布特点 横竖方向的黑游程比其余方向长 从水平方向看,黑游程长度(BRL)大多是1-5 个像素,白游程长度(WRL)大多是1-15 个像素。游程的概率随长度迅速下降。返回笔划特性分析 笔划特性统

5、计的方法 不同笔划的出现频率 不同的笔划总数直方图 不同的笔划长度直方图 返回笔划特性统计的方法 采用已有的图像处理算法,对4848 点阵的国际两级汉字(6763 个)自动提取横、竖、撇、捺,统计整个两级汉字的笔划分布情况 一级汉字3755个 返回不同笔划的出现频率 每种笔划在汉字中出现的频率是不同的。据统计,横为28%,竖为18%,撇为15%,点、捺为13%,折为7%,其他为19%返回不同的笔划总数直方图 用 分别表示一个字的笔划总数、横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。返回 笔划总数直方图 横笔划总数直方图 竖笔划总数直方图 撇笔划总数直方图 捺笔划总数直方图笔划总数直方图 返

6、回横笔划总数直方图 返回竖笔划总数直方图 返回撇笔划总数直方图 返回捺笔划总数直方图 返回不同的笔划长度直方图 用 分别表示一个字的横笔划长度、竖笔划长度、撇笔划长度和捺笔划长度。返回 横笔划长度直方图 竖笔划长度直方图 撇笔划长度直方图 捺笔划长度直方图横笔划长度直方图 返回竖笔划长度直方图 返回撇笔划长度直方图 返回捺笔划长度直方图 返回字根统计特性分析 提取字根的困难性 统计字根与传统字根的区别 几种字根的统计结果 返回提取字根的困难性 汉字有很多字根,这些字根繁简不一,用图像处理技术自动提取这些字根还不能达到实用水平 返回统计字根与传统字根的区别 在进行统计分析时,所用的字根与传统意义上的字根有所不同 例如,“俺”和“缚”中都不包含传统意义上的字根“田”,但是它们都含有图形“田”。使用程序寻找传统意义上的字根更困难,因此统计时认为“俺”和“缚”都含有字根“田”返回几种字根的统计结果 几种字根在6763个汉字中出现的频率见下表:返回课堂练习 计算右边字符矩阵的四周边空程长度 计算结果返回计算结果 返回100421000121111111101 0 0 0 0 0 1 91 0 0 0 1 0 0 0

展开阅读全文
相关资源
相关搜索

当前位置:首页 > 教育专区 > 大学资料

本站为文档C TO C交易模式,本站只提供存储空间、用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。本站仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知淘文阁网,我们立即给予删除!客服QQ:136780468 微信:18945177775 电话:18904686070

工信部备案号:黑ICP备15003705号© 2020-2023 www.taowenge.com 淘文阁