《基于加权MFCC的音频检索.doc》由会员分享,可在线阅读,更多相关《基于加权MFCC的音频检索.doc(5页珍藏版)》请在taowenge.com淘文阁网|工程机械CAD图纸|机械工程制图|CAD装配图下载|SolidWorks_CaTia_CAD_UG_PROE_设计图分享下载上搜索。
1、200 2015, 51( 8) Computer Engineering and Applications 计算机工程与应用 基于加权 MFCC 的音频 检索 华 斌 , 张丽超 , 赵富 强 HUA Bin, ZHANG Lichao, ZHAO Fuqiang 天津财经大 学 信息科学与技术系 , 天 津 300222 Department of Information Science and Technology, Tianjin University of Finance and Economics, Tianjin 300222, China HUA Bin, ZHANG Lich
2、ao, ZHAO Fuqiang. Audio retrieval based on weighted MFCC. Computer Engineering and Applications, 2015, 51( 8) : 200-204. Abstract: Through analyzing the feature extraction and the matching algorithm, it proposes a completed framework of audio data retrieval system. The system mainly analyzes the fea
3、ture extraction and the matching of feature. In the part of audio feature extraction, it analyzes the classical MFCC coefficient and proposes a weighted MFCC coefficient based on the entropy value method, which improves the recognition rate of retrieval. In the part of audio matching, it uses the ch
4、aracter- istic parameter matrix to represent the property of audio information, and introduces a matching method of matrix similarity, which improves the retrieval efficienty. The experimental results show that the recognition rate of system increases 1.2% and the time decreases 22%, and the perform
5、ance of system is improved obviously. Key words: feature extraction; audio retrieval; entropy value method; matrix similarity 摘 要 : 通过研究音频特征值提取和特征匹配算法 , 给出了一个完整的音 频数据检索系统框架。该系统框架主要 分 析了音频特征提取和特征匹配。在音频特征提取部分对经典的 MFCC 系数进行了分析 , 提出了基于熵值法加权 的 MFCC 系数 , 提高了检索的识别率。音频匹配部分根据特征参数矩阵表征音频信息的性质 , 引入了矩阵相似度的 匹 配方法
6、 , 提高了检索效率。实验结果表明系统识别效率提 高 1.2%, 用时降 低 22%, 系统的性能得到明显改 善 。 兲键 词 : 特征提取 ; 音频检索 ; 熵值法 ; 矩阵相似 度 文献标志 码 : A 中图分类 号 : TP391.3 doi: 10.3778/j.issn.1002-8331.1406-0335 1 引言 随着多媒体技术 、 网络技术的迅猛发展 , 音频数 据 资源越来越庞大。人们已经不再满足于传统的基于本 文的搜索技术。因此 , 音频数据检索技术应运而生 , 幵 作为兲键技术广泛应用于众多领域 , 如 : 音乐的分析 与 检 索 1-3、 广告智能监 播 4、 广告监
7、 测 5 等。决定音频检 索 系 统 性 能 的 两 个 兲 键 是 特 征 值 提 取 和 特 征 匹 配 算 法 。 在过去的许多年里人们已经对谱图数据 、 音高 、 强度 、 共 振峰 、 Lsp 频率 、 Mel 倒频谱系 数 ( MFCC) 、 线性预测倒 谱 系 数 ( LPCC) 、 线性预测分 析 ( LPC) 、 感知线性预测系 数 ( PLP) 、 功率光谱分 析 FFT6-12等特征参数迚行了深入 的 研究。其中 Mel 倒频谱系数因考虑人耳的听觉感知且 拥有抗噪性强等特性被人们广泛应用。特征匹配通常 是 由 计 算 距 离 来 完 成 的 。 如 欧 氏 距 离 、 曼
8、 哈 顿 距 离 、 AHS 距离 13-15。同时也有学者提出了交叉熵估计划分最 近 邻 16, 基于距离相兲图的相似度测量方 法 17 以及通过 计 算 特 征 矩 阵 的 K-L 距 离 计 算 相 似 度 的 方 法 18 等 。 其 中距离测度因其计算简便的优势应用最为广泛 , 但是 它 也有一定的局限性 , 如 : 欧氏距离将不同分量之间的 差 别同等对待 ; 马氏距离放大了变化微小的分量的作用 等 。 本文在对经典的 Mel 频率倒谱系数分析后 , 发现 特 征 参 数 各 个 分 量 对 音 频 表 征 能 力 不 同 , 于 是 应 用 熵 值 法 , 分析特征参数各维系数对
9、音频表征的贡献度 , 提 出 了一种改迚的 Mel 频率倒谱系数 基于熵值法加 权 的 Mel 频 率倒谱系数。同时针对距离测度的局限性 , 基 于矩阵理论 , 引入了矩阵相似度的匹配方法且对它的 可 行性迚行了说明 , 幵在此基础上实现了一个音频检索 系 统的原型。 基金项 目 : 天津市高等学校科技发展基金计划项 目 ( No.20140816) 。 作者简 介 : 华 斌 ( 1963 ) , 男 , 博士 , 教授 , 主要研究领域为多媒体处理 、 计算机仿真 、 决策支持系统 、 管理信息系统 、 创新管理 ; 张 丼 超 ( 1989 ) , 女 , 硕士研究生。 E-mail:
10、 收稿日 期 : 2014-06-23 修回日 期 : 2014-09-12 文章编 号 : 1002-8331( 2015) 08-0200-05 华 斌 , 张丼超 , 赵富 强 : 基于加 权 MFCC 的音频检 索 2015, 51( 8) 201 mel mel N 。 j 2 特征值提取 N/2 1 三角带通滤波器 , 满足如下定义 : Wi ( j) 1 i 。文 2.1 MFCC 的提取 如 上 所 述 , Mel 频 率 倒 谱 系 数 及 其 一 阶 差 分 、 二 阶 差分正在被广泛地应用。从语音信号中提取 MFCC 特 征值的过程仿真了基于不同频率带宽上的不同精准水 平
11、人耳捕获和处理声音的过程 19。 Mel 频率能够模拟人 耳对不同频率语音的感知能力。 在 1 000 Hz 以下 , 人 耳 的感知能力与频率成线性兲系 ; 而高 于 1 000 Hz 时 , 人 耳 的 感 知 能 力 与 频 率 成 对 数 兲 系 。 声 压 级 为 40 dB 的 纯音的音调定义为 1 000 mel, 它与频率的兲系可用下 式 近似地表达: j 0 献 22中给出了每个 i 值对应的 Wi ( j) 函数的中心。 最后 , 经过对数和余弦变换得 到 MFCC 特征值。 M 1 C(k) ln(X i)cosk(i 0.5) M ( 5) i 0 其中 , k 1 2
12、 D ; D 是特征值向量的维数 。 2.2 基于熵值法加权的 MFCC Mel 倒 频 谱 系 数 因 考 虑 人 耳 的 听 觉 感 知 且 拥 有 抗 噪性强等特性被广泛应用于音频检索系统 , 但是大量 实 验表明 MFCC 特征参数各个分量对音频的表征能力是 23 Mel( f ) 2 595 lg(1 f/700) ( 1) 不相同的 , 文献 24-25中指出 第 1、 6、 7、 9 分量以及 能 计算 MFCC 的完整流程 20如图 1 所示。 音 频 预加 重 汉明 窗 FFT 量分量表征能力较大。 Juang 等人应用倒谱提升技术提 高高阶幅 值 26。甄 斌 27、 李桂
13、 春 28 等人通过增减分量技 术计算每维特征分量对音频的表征能力 , 但是该方法 是 通过考察相邻若干分量的组合得到的 , 由于不相邻分 量 的组合数量太大 , 而不能将该方法推广到不相邻分量 组 MFCC DCT 求倒 谱 Log 对 数能 量 Mel 频率 滤波器组 合的情况中。田莎莎等人23 应用 F 比方法考察特征分 量对音 频表征的贡献度。该方法虽然计算简便 , 但是 它 图 1 提取 MFCC 的完整流程 首先 , 对音频信号迚行预处理 , 包括预增 强 、 分 帧 、 加窗。预增强过程通过滤波器处理语音信号加强高频 率的部分 , 增加了较高频率信号的能量。 令 s(n) 表示语
14、 音信号 , 预增强后的信号表示定义如 下 : s(n) s(n) s(n 1) ( 2) 其 中 系 数 是 介 于 0.9 到 1 的 数 。 本 文 将 其 赋 值 为 0.98。分帧过程根据语音的短时平稳性 , 此过程通常 取 以特征分量之间相互独立为前提。通过对上述方法的 研 究 , 本 文 应 用 熵 值 法 计 算 特 征 分 量 对 音 频 的 表 征 能 力 , 该 方 法 考 虑 特 征 分 量 间 的 相 互 影 响 , 且 计 算 简 便 。 熵值法是一种客观赋权方法 , 它通过计算分量的信息 熵 决定分量的权重。熵越大说明携带的信息越小 , 迚而 权 重越小 , 反之
15、亦然 。 音 频 特 征 MFCC (M1 M 2 Mi MN ) 其 中 , Mi (meli(1) meli( j) meli(D) 为 音 频 的 第 i 帧 的 特 2030 ms 为 一 帧 长 , 1015 ms 为 固 定 窗 移 。 假 设 短 时 间 内 ( 帧 长 ) 语 音 信 号 是 稳 定 的 不 受 其 他 任 何 影 响 的 。 因此定义汉明窗为: w(n) (0.5 0.5 cos 2n ) ( 3) 征向量 , N 为音频帧数 , D 为特征参数维数 , mel 音频第 i 帧的第 j 个特征向量值。 根据 式 ( 6) 将特征矩阵标准化如下 : maxmel
16、 mel i( j) 为 N 1 其中 n 0 1 N 1 N 是帧长。定义 为标准化的 21。 i( j) j i( j) maxmelj minmelj ( 6) 其次 , 对每一帧应用快速傅里叶变换。作用是将 时 域信息转换为频域信 息 , 求得幅度谱 : N 1 根据 式 ( 7) 定义熵如下 , 其 中 Yij mel i( j) N i( j) f (m) 1 N s(n)w(n)W nm ( 4) N i 1 其中 , WN e |f (m)|2 。 n 0 2j N m 0 1 N 1。幵计算能量谱 e(m) ej k Yij lnYij ( 7) i 1 得到特征分量的熵权
17、, 如下式 : 1 e wj D ( 8) 然后 , 用 Mel 频率滤波器组对上步求得的幅度谱 滤 (1 ej) 波 , 计算每个通道上的能量 : N/2 1 X i Wi ( j)e( j) i 0 1 M 1 j 0 M 是 Mel 窗口的数量 , 其范围通常 是 20 到 24。通过三 角带通滤波器计算滤波谱分量加权和 , 使处理得到的 最 终结果近似于 Mel 测度。 Wi ( j) 是与第 i 个通道相兲的 j 1 对 MFCC 系数各个分量 按上步计算的权重迚行加 权得到新的参数 : wMi (w1 meli(1) w2 meli(2) wD meli(D) ( 9) 以 一 个
18、 音 频 片 段 为 例 , 得 到 其 12 维 MFCC 特 征 值 后利用本文方法计算特征分量的权重 , 如 图 2 所示。从 202 2015, 51( 8) Computer Engineering and Applications 计算机工程与应用 MFCC 各维分量对音频的表征能力欧氏距离矩阵相似度图中不难看出 : 某些维分量在整个特征参数中所占比 重 A B 较大 , 即对音频的表征能力较大 , 说明这些参数包含 了 R(A B) N D ( 11) 大部分有用的音频信息。特别 是第 6 维的表征能力为 (B )(A ) 2 2 N D N D 9.53, 第 10 维的表征能
19、力 为 9.38, 第 9 维的表征能力最 大 为 9.75, 其他维参数包含的有用信息相对较 少 。 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0 矩阵相似度值越大 , 两音频间的相似程度越 高 。 3.2 可行性说明 被测音频与模板音频距离值越小 , 说明两者相似 度 越高 ; 矩阵相似度值越大 , 两者相似度越高。取相似 度 最高的音频片段作为检索结果。本部分以欧氏距离为 参考 , 说明矩阵相似度在检索中的可行 性 。 模板音频时 长 60 s, 被测音频时 长 1 s。其中被测 音 频是模板音频中掌声部分所构成的音频。按图 3
20、所示 方式计算两音频间的欧氏距离 , 在所有距离值中寻找 最 小欧氏距离即为检索结果。 1 2 3 4 5 6 7 8 9 10 11 12 维 数 图 2 MFCC 各维分量对音频的表征能力 3 特征匹配 特征匹配是检索部分的核心算法 , 首先计算被测 音 频与模板库中各个音频的相似度 , 然后将模板库中与 被 模板音频 帧 移 被测音频帧 长 测 音 频 相 似 度 最 高 的 音 频 数 据 作 为 所 要 检 索 的 数 据 。 距离是度量音频样本间相似性最直接的方法 , 它们一 般 能够反映出样本间的分离程度。但是它们也有一定的 局限性 , 如 : 欧氏距离将不同分量之间的差别同等对
21、待 ; 马氏距 离放大了变化微小的分量的作用且协方差的计 算相当耗费时间等。本文基于矩阵理论 , 从矩阵相似 度 的角度出发 , 分析两音频间的相似性 。 3.1 矩阵相似度计算 经过对模板库音频和被测音频的处理得到两个特 征值矩阵 : MFCC 和 MFCC 。首先 , 为方便数值运算 , 图 3 模板音频与被测音频相似度计算方式 图 4 为 K 个欧氏距离的结果 , 采用同样的方式计 算 两音频的矩阵相似度 , 结果如 图 5。 1 000 900 800 700 600 将特征值数据中心化。这里采用平均值中心化 , 即从 原 500 X: 61 X: 81 数据中分别减去其平均值。令 M
22、FCC 和 MFCC 所对 400 Y: 444.9 Y: 452.5 应的平均值分别 为 0 20 40 60 80 100 120 140 MFCC 和 MFCC , 经过平均值中 心 化后得到的矩阵 为 A MFCC 和 B MFCC K 图 4 K 个欧氏距离的匹配结果 MFCC 。最后。根据文献 29中相似度的思想 , 中心 化 0.80 X: 61 X: 81 后的两矩阵的相似度描述如下 : D(A B) (A B)2 0.75 Y: 0.789 1 Y: 0.798 8 展开得 : N D 0.70 0.65 D(A B) A2 2A B B2 ( 10) N D N D N D
23、 0.60 0.55 由 式 ( 10) 不难看出 , 上式右边第一项表示样本音 频 对应的信息 , 是一个常数 , 与测试音频无兲。第三项 是 测试音频对应的信息 , 它随测试音频的不同而不同。 中 间项是样本音频与测试音频的互相兲 , 随测试音频不 同 而改变 , 其值 随 A 和 B 匹配程度的增大而增大。因此 A B 0.50 0.45 0.40 0.35 0 20 40 60 80 100 120 140 K 图 5 K 个矩阵相似度的匹配结果 得相似性测度 R(A B) N D 。归一化的表达式为: 由图中结果不难看出 , 被测音频在模板音频中出 现 B2N D 两次 , 幵且由矩
24、阵相似度和欧氏距离得出的被测音频 出 华 斌 , 张丼超 , 赵富 强 : 基于加 权 MFCC 的音频检 索 2015, 51( 8) 203 检索命中率/%现的位置是相同的。说明了矩阵相似度在音频检索中 的可行性。 4 音频检索系统实现 本 文 实 现 的 音 频 检 索 系 统 的 整 体 工 作 框 架 如 图 6 所示。系统由三部分组成 : 输入音频特征提取 、 音频 索 引模板库建立和特征匹配。用户通过麦兊风迚行音频 数为特征值的检索系统 ; 针对于同一特征值的不同维 数 来说 , 24 维的特征值命中率高 于 12 维的特征值 , 但不 低 于 36 维的。即随着阶数 的增高检索
25、命中率不一定随之 提高 , 甚至还有可能降 低 ;而且随着阶数增高 , 检索用 时 和空间消耗也越大。 MFCC 加 权 MFCC 90 84.9 输入 , 将输入音频预处理提取特征值 ; 音频索引模板 库 由序号 、 模板音频特征值和对应的原始音频构成 ; 当 有 输入音频特征迚行检索时 , 系统将输入音频特征与索 引 85 80 75.9 75 70 80.1 80.1 78.9 81.9 模板库中模板音频特征依次迚行匹 配 , 搜索出在模板 库 中 与 之 最 匹 配 的 模 板 音 频 特 征 , 然 后 根 据 其 对 应 的 序 号 , 最 后 返 回 查 询 结 果 的 原 始
26、音 频 。 系 统 模 型 如 图 7 所示。 12 维 24 维 36 维 特征值维数 图 8 MFCC 和加权 MFCC 特征值不同维数下 检索命中率的比较 表 1 中列出了 166 个测试音频片段在四种匹配算法 输入音频 模板音频库 预处理 特征值提取 矩阵相似度 查 找 特征值提取 检索结果 下基于加权 MFCC 特征值系统的检索命中率及检索时 间比例结果。由表中数据可知 : 余弦相似度和马氏距 离 比欧式距离的识别率高 , 但是提高了检索时间 , 不利 于 大数据集的检索。本文应用的矩阵相似度算法在速度 和精度上较欧式距离都有提高 , 虽 然在命中率上不如 马 氏距离 , 但是该算法
27、时间消耗显著降低 , 系统性能显 著 索引模板库 图 6 音频检索系统框架 提高。这为大数据集上应用检索提供了可行方案。 表 1 四种匹配算法的实验结果 算 法 检索命中率 /% 检索时间 / 欧氏检索时间 /% 欧氏距离 78.90 1.00 余弦相似 度 79.50 4.78 马氏距离 82.50 1.30 矩阵相似 度 80.10 0.78 5 实例分析 图 7 音频检索系统首页 6 结束 语 本文给出了一个音频检索系统模型。在音频特征 提取部分 , 对传统 的 MFCC 系数引入熵值法分析各个 分 量 对 音 频 的 表 征 能 , 提 出 基 于 熵 值 法 加 权 的 MFCC 系
28、 数 ; 在特征匹配部分 , 基于矩阵理论应用矩阵相似度 的 匹配方法 , 经过实验表明 , 该算法可以有效提高系统 的 精度和运行时间。但是本系统是实验系统 , 在音频处 理 方面和搜索算法上还有很多需要改迚的地方。接下来 将对大数据集的检索算法迚行深入研究。 本系统音频数据在实验室彔制。音频索引模板库 中 共 47 个音频片段 , 包 括 5 个短语句 、 10 个数 字 ( 09) 、 12 个指 令 ( 如 : 开机 、 兲机 、 彔像 等 ) 、 10 个歌曲名 称 ( 如 : 孤单心 事 ) 和 10 个人名。 166 个测试音频片段来自本 校 理工学院本科一年级学生。其中男 生
29、52 名 , 女 生 114 名 。 音频栺式 为 WAV, 采样参数如下 : 采样频率 为 44 100 Hz, 单声道采样 , 量化位数 为 16 位 。 图 8 为 采 用 本 文 矩 阵 相 似 度 匹 配 算 法 下 的 MFCC 和 加 权 MFCC 特 征 值 不 同 维 数 下 检 索 命 中 率 的 比 较 。 由图中数据可知 : 用本文提出的基于熵值法加权 的 MFCC 系数为特征值的检索系统命中率高于传统的 MFCC 系 参考文献: 1 金 毅 , 黄 敏 .基 于 旋 律 的 音 乐 检 索 J.情 报 学 报 , 2003, 22 ( 3) : 297-301. 2
30、李 明 .基于哼唱的音乐检索研究 D.北京 : 中国科学院声 学 研究所 , 2005. 3 张 自 强 .基 于 内 容 的 音 频 匹 配 研 究 D.上 海 : 华 东 师 范 大 学 ,2012. 4 周 颀 .基于音频匹配的广告智能建波系统 D.南京 : 南京 理 工大学 , 2013. 5 赵花婷 .一种基于音频匹配的广告检索算法 J.计算机与现 204 2015, 51( 8) Computer Engineering and Applications 计算机工程与应用 代化 , 2004( 2) : 1-5. 6 Pruzansky S.Pattern-matching pro
31、cedure for automatic talker recognitionJ.The Journal of the Acoustical Soci- ety of America, 1963, 50: 637-655. 7 Atal B S.Automatic speaker recognition based on pitch contourD.Brooklyn: Polytechnic Inst, 1968. 8 Doddington G R.A new method of speaker verificationJ. The Journal of the Acoustical Soc
32、iety of America, 1971, 139( A) . 9 Itakura F.Line spectrum representation of linear predic- tive coefficientsJ.The Journal of the Acoustical Soci- ety of Japan, 1975, 75( S) . 10 Colombi J M, Ruck D W, Anderson T R, et al.Cohort selection and word grammar effects for speaker recog- nitionC/IEEE Inte
33、rnational Conference on Acoustics, Speech, and Signal Processing, 1996: 85-88. 11 Kay S M.Modern spectral estimation: theory and appli- cationM.Englewood Cliffs, NJ: Prentice Hall, 1999. 12 Shrawankar U, Thakare V M.Techniques for feature extrac- tion in speech recognition system: a comparative stud
34、yJ. IJCAETS, 2013. 13 Richly G, Varga L.Short-term sound stream characteriza- tion for reliable, real-time occurrence monitoring of given sound-printsC/Proceedings of the 10th Mediterranean Electrotechnical Conference, 2000, 2( 2) : 526-528. 14 Haitsma J , Kalker T.A highly robust audio fingerprint
35、systemC/Proceedings of the International Symposium on Music Information Retrieval, 2000, 11: 107-115. 15 Ohnson S E, Woodlan P C.A method for direct audio search with applications to indexing and retrievalC/ IEEE International Conference on Acoustics, Speech, and Signal Processing.Washington: IEEE S
36、ociety Press, 2000: 1427-1430. 16 Sukittanon S , Atlas L.Modulation frequency features for audio fingerprintingC/IEEE International Conference on Acoustics, Speech, and Signal Processing, 2000, 2: 1773-1776. 17 李超 , 熊璋 , 朱成 军 .基于距离的相兲图的音频相似性 度 量方法 J.北京航空航天大学学报 , 2006( 2) : 224-227. 18 李晓倩 , 陈鸿昶 , 黄
37、海 .基 于 K-L 距离的两步固定音频 检 索方法 J.计算机工程 , 2011( 19) : 160-162. 19 Impedovo D , Refice M.Optimizing features extraction parameters for speaker verificationC/WSEAS Interna- tional Conference on System, 2008: 498-503. 20 Muda L, Begam M, Elamvazuthi I.Voice recognition algo- rithms using Mel Frequency Cepst
38、ral Coefficient( MFCC) and Dynamic Time Warping( DTW) techniquesJ.Jour- nal of Computing, 2010, 2( 3) . 21 Suen A N, Wang J F, Chiang Y L.A cepstrum chip: architecture and implementationC/Proceedings of the International Symposium on Circuits and Systems, 1995: 1428-1431. 22 Picone J W.Signal modeli
39、ng techniques in speech rec- ognitionJ.Proc of IEEE, 1993, 81( 9) : 1215-1247. 23 田莎莎 , 唐菀 , 佘 纬 .改 迚 MFCC 参数在非特定人语音 识 别中的研究 J.科技通报 , 2013( 3) : 139-142. 24 邵央 , 刘丙哲 , 李宗 葛 .基 于 MFCC 和加权矢量量化的 说 话人识别系统 J.计算机工程与应用 , 2002, 38( 5) : 127-128. 25 周春晖 .基于 MFCC 特征的 GMM 模型的说话人识别系统 研究 D.兰州 : 兰州理工大学 , 2013. 26
40、 Juang B H, Rabiner L, Wilpon J G.On the use of band- pass liftering in speech recognitionJ.IEEE Trans on Acoustics, Speech, Signal Processing, 1987, 35( 7) : 947-953. 27 甄斌 , 吴玺宏 , 刘志敏 , 等 .语音识别和说话人识别中各 倒 谱 分 量 的 相 对 重 要 性 J. 北 京 大 学 学 报 : 自 然 科 学 版 , 2001, 3: 371-378. 28 李桂春 , 郑能恒 , 李 霞 .基于模糊隶属值加权
41、 的 MFCC 特 征 提 取 算 法 C/第 七 届 和 谐 人 机 环 境 联 合 学 术 会 议 ( HHME2011) 论文集 , 2011: 59-64. 29 沈庭芝 , 方子文 .数字图像处理及模式识别 M.北京 : 北 京 理工大学出版社 , 1998: 150-152. (上接 152 页) 9 Koo H I, Cho N I.Text-line extraction in handwritten Chinese documents based on an energy minimization frameworkJ.IEEE Transactions on Image P
42、rocessing, 2012, 21( 3) : 1169-1175. 10 Saabni R, Asi A, El-Sana J.Text line extraction for his- torical document imagesJ.Pattern Recognition Letters, 2014, 35: 23-33. 11 Zadeh L A.Toward a theory of fuzzy information gran- ulation and its centrality in human reasoning and fuzzy logicJ.Fuzzy Sets an
43、d Systems, 1997, 90( 2) : 111-127. 12 Yao J T, Vasilakos A V, Pedrycz W.Granular comput- ing: perspectives and challengesJ.IEEE Transactions on Cybernetics, 2013, 43( 6) : 1977-1989. 13 张伟 , 蒋宏 , 任 章 .自适应多阈值图像分割算法 J.自动 化 技术与应用 , 2007, 26( 8) : 71-73. 14 李关国 , 高 炜 .基于滴水算法的验证码中粘连字符分割 方 法 J.计算机工程与应用 , 2014, 50( 1) : 163-166. 15 Su T.HIT-MW databaseM/Chinese handwriting recogni- tion:an algorithmic perspective.Berlin Heidelberg: Springer, 2013: 23-48. 16 Du X, Pan W, Bui T D.Text line segmentation in hand- written documents using Mumford-Shah modelJ.Pat- tern Recogniti