《印刷体汉字的统计特性及分析.ppt》由会员分享,可在线阅读,更多相关《印刷体汉字的统计特性及分析.ppt(44页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、第9讲 印刷体汉字的统计特性及分析要点:统计特性分析的意义 常用统计特性的分析 课堂练习统计特性分析的意义 对印刷体汉字的结构特性做统计分析,不仅对汉字研究和汉字编码很有意义,而且对印刷体汉字识别的特征选择和分类器的设计也有很大意义。返回常用统计特性的分析 周边特征分析 游程统计特性分析 笔划特性分析 字根统计特性分析 返回周边特征分析 汉字的3232 点阵表示 汉字的1616 点阵表示 空程长度及计算举例 周边空程长度熵 周边空程长度熵的特点 返回汉字的3232 点阵表示 每个汉字用3232 点阵表示。返回汉字的1616 点阵表示 每个汉字用1616 点阵表示。返回空程长度 把汉字表示为N
2、N 点阵,分别从左、右、上、下四个周边顺次扫描汉字点阵。在第n次扫描线上第一次遇到黑像素前白像素的个数,称为相应的周边空程长度。空程长度用l 表示 用 分别表示四个方向上空程长度l 的概率分布。返回空程长度的计算举例 左边 右边 上边 下边 返回左边空程长度 2,3,3,6,0,1,1,3,3,2,0,2,2,2,2,16返回右边空程长度 13,12,2,3,3,4,4,4,5,5,6,5,3,1,2,16返回上边空程长度 4,5,0,1,5,2,2,2,2,2,2,2,2,2,13,16返回下边空程长度 5,5,1,7,9,2,2,3,4,5,4,3,2,1,2,16返回周边空程长度熵 左周
3、边熵:右周边熵:上周边熵:下周边熵:返回3232 点阵左周边熵分布图 返回3232 点阵右周边熵分布图 返回3232 点阵上周边熵分布图 返回3232 点阵下周边熵分布图 返回周边空程长度熵的特点 周边空程长度熵是四边结构特征所包含信息量的度量,其最大值为:统计结果表明:返回 周边熵较高,一般均大于2 角部位置区域的熵值最大 说明提取周边特征和角部特征具有合理性游程统计特性分析 游程的定义 游程统计分析的意义 不同角度的平均黑游程长度 黑游程的分布特点 返回游程的定义 游程是指在同一方向上,宽度为一个像素的扫描线条的长度。由笔划像素组成的黑游程长度记为BRL 由背景像素组成的白游程长度记WRL
4、 返回游程统计分析的意义 可以反映汉字内部笔划结构的分布情况 对汉字特征选择和汉字压缩编码都有一定参考意义 返回不同角度的平均黑游程长度 从八个离散方向对4040 点阵的汉字进行游程分布统计,不同角度的平均黑游程长度列于下表中:返回离散方向0090045013507001 1002001600平均黑游程4.159 4.470 2.667 2.939 3.445 3.547 2.261 3.348黑游程的分布特点 横竖方向的黑游程比其余方向长 从水平方向看,黑游程长度(BRL)大多是1-5 个像素,白游程长度(WRL)大多是1-15 个像素。游程的概率随长度迅速下降。返回笔划特性分析 笔划特性统
5、计的方法 不同笔划的出现频率 不同的笔划总数直方图 不同的笔划长度直方图 返回笔划特性统计的方法 采用已有的图像处理算法,对4848 点阵的国际两级汉字(6763 个)自动提取横、竖、撇、捺,统计整个两级汉字的笔划分布情况 一级汉字3755个 返回不同笔划的出现频率 每种笔划在汉字中出现的频率是不同的。据统计,横为28%,竖为18%,撇为15%,点、捺为13%,折为7%,其他为19%返回不同的笔划总数直方图 用 分别表示一个字的笔划总数、横笔划总数、竖笔划总数、撇笔划总数和捺笔划总数。返回 笔划总数直方图 横笔划总数直方图 竖笔划总数直方图 撇笔划总数直方图 捺笔划总数直方图笔划总数直方图 返
6、回横笔划总数直方图 返回竖笔划总数直方图 返回撇笔划总数直方图 返回捺笔划总数直方图 返回不同的笔划长度直方图 用 分别表示一个字的横笔划长度、竖笔划长度、撇笔划长度和捺笔划长度。返回 横笔划长度直方图 竖笔划长度直方图 撇笔划长度直方图 捺笔划长度直方图横笔划长度直方图 返回竖笔划长度直方图 返回撇笔划长度直方图 返回捺笔划长度直方图 返回字根统计特性分析 提取字根的困难性 统计字根与传统字根的区别 几种字根的统计结果 返回提取字根的困难性 汉字有很多字根,这些字根繁简不一,用图像处理技术自动提取这些字根还不能达到实用水平 返回统计字根与传统字根的区别 在进行统计分析时,所用的字根与传统意义上的字根有所不同 例如,“俺”和“缚”中都不包含传统意义上的字根“田”,但是它们都含有图形“田”。使用程序寻找传统意义上的字根更困难,因此统计时认为“俺”和“缚”都含有字根“田”返回几种字根的统计结果 几种字根在6763个汉字中出现的频率见下表:返回课堂练习 计算右边字符矩阵的四周边空程长度 计算结果返回计算结果 返回100421000121111111101 0 0 0 0 0 1 91 0 0 0 1 0 0 0