集成电路技术分享

 找回密码
 我要注册

QQ登录

只需一步,快速开始

搜索
查看: 774|回复: 0

基于FPGA的脱机手写体汉字识别系统(1)

[复制链接]
zxopen08 发表于 2017-7-24 16:26:56 | 显示全部楼层 |阅读模式
基于FPGA的脱机手写体汉字识别系统(1)

汉字输入, 语音识别, 计算机, 处理器, 手写体
1设计摘要
1.1项目背景
汉字作为非字母化、非拼音化的文字,在当今高度信息化的社会里,如何快速高效地将汉字输入计算机,已成为影响人机交流信息效率的一个重要瓶颈。目前,汉字输入主要分为人工键盘输入和机器自动识别输入两种,其中人工键入速度慢且劳动强度大。自动识别输入分为语音识别和汉字识别两种,其中汉字识别是将汉字点阵图形转换成电信号,然后输入给数字信号处理器或计算机进行处理,依据一定的分类算法在汉字字符集合中识别出与之相匹配的汉字。因此,研究脱机手写体汉字识别的目的就是解决汉字信息如何高速输入的问题,以更方便快速地进行信息加工处理。

脱机手写体汉字识别在以下领域中具有广泛的应用前途:

(1)信息处理领域中使用汉字识别技术可以大大提高纸质文档电子化的效率。若将汉字识别的准确度和速度均提高到比人工输入更高的程度,便可在提高效率的同时节省人力资源。

(2)汉字自动识别是办公自动化、新闻出版等最理想的输入方法。

(3)很大部分电子文献是以点阵图像存储的,经过汉字识别后以字符存储,会大大节省存储空间,并提高网络等传输速度。

(4)使用FPGA进行汉字识别可以采用并行化计算,从而实现高速低功耗的文字识别。而如果采用人工键盘输入的方式,计算机在大部分时间里处于等待键盘敲击的闲置状态,从而导致计算机系统利用率不高。

和所有模式识别系统一样,脱机手写体汉字识别的主要性能指标是正确识别率和识别速度,从实用角度看,还应考虑系统的复杂性、可靠性和价格等等。对识别系统识别率和识别速度的要求,很难有一种统一的、严格的标准,主要根据实际应用的需要来确定。但是作为一种输入手段,汉字识别系统的性能至少应该可以和其它输入手段(如人工输入)相比拟。

以上指标应该是汉字识别系统必须达到的最低要求(在某些需要大量输入的场合对识别系统性能的要求还应更高),但是由于手写体汉字的特殊性,要达到上述要求困难较大。手写体汉字的特殊性可归纳为如下几条:

(1)字量大,字体多,结构复杂

(2)部分字形相似

(3)书写变化大:笔画不规范;笔画之间、偏旁部首之间相对位置不固定;连笔书写或笔画粘连。

(4)字与字之间相互粘连

正因为手写体汉字存在以上四特殊之处,脱机手写体汉字识别被一些学者看成是模式识别的最终目标。目前存在的主要问题有:

(1)脱机手写体汉字的行、列切分正确率不高;

(2)在特征提取阶段,目前尚未找到一组适用于各种字体、笔迹的特征向量;

(3)由于汉字的特征向量维数较高,将待识别汉字的特征向量同样本库中的海量模板匹配会占用很多识别时间,直接导致识别性能不高。

如果能采用FPGA进行高速并行计算,使上述困难能得到最大程度的化解,从而使脱机手写体汉字识别系统达到实用阶段,则在实际应用方面和理论研究方面均有重大意义。由于汉字模式类别多,是大类别(或者称为超多类)模式识别问题,因此其识别涉及到模式识别、图像处理、数字信号处理、人工智能、模糊数学等多个学科,是一门综合性技术,有着重要的价值和意义。

1.2系统的设计目标
本次设计要实现的目标就是建立一个图像处理识别的平台,使手写的汉字以图像文件格式(BMP)的形式输入FPGA,提取出其特征向量,通过分类识别,转换为汉字文本。我们需要设计和实现脱机手写汉字识别系统,主要实现样本采集,预处理,特征提取,分类与识别五个方面。系统的具体目标如下:

(1)使用FPGA对字库图像文件进行前期处理,包括字符分割平滑去噪、二值化处理、归一化、细化等。

(2)使用处理后的标准字符图像对分类模型进行训练,使其成为具有字形识别功能的分类器。通过包括神经网络、笔画密度、字型特征、四角特征等多种分类器的测试,综合考虑每种分类器的并行化可能性、汉字特征针对性等,选出合适的分类器分别进行粗分类和细识别,以利用FPGA的并行运算特性大幅度提高识别的效率和准确度。

(3)对多个手写样本图像文件进行并行化的采集和预处理,提出具有价值的字形特征。采用适当的分类器对其进行分类识别,得到汉字国标码,从而实现手写体汉字从图片到文本的转换。

2系统原理和技术特点
2.1预处理
2.1.1行、字切分
从实际出发,一个完整的脱机手写体汉字识别系统必须能对输入的整个手写体汉字图像进行一些必要的处理,并从中正确切分出一个个手写体汉字,形成单个汉字的图像阵列,以便对其进行方便的单字识别处理。

通常的做法是对汉字图像从上到下逐行扫描,同时计算每扫描行的像素,获取图像的水平投影,利用文字行间空白间隔造成的水平投影空隙,将行分割,再利用字与字之间的空白间隔在图像行垂直投影上形成的空白间隙,将单个汉字的图像切割出来。

2.1.2平滑去噪处理
一幅汉字图像可能存在着各种噪声,消除图像中的这些噪声成分叫做图像的平滑化,其目的有两个:一是按特定的需要突出一幅图像中的有用信息,使汉字图像清晰,视觉效果好;另一是为适应计算机处理的需要,消除汉字在输入数字化时所混入的噪声。

常用的平滑去噪算法有中值滤波、邻域平均法去噪处理(均值滤波) 、Unger平滑算法等,在接下来的研究中我们将详细研究讨论每种算法的特性并选择最适合汉字和FPGA特性的一种。

2.1.3二值化
二值化就是把数字字符图像的灰度数字信号处理成只有O和1两级灰度的图像。对灰度图像二值化能显著的减小数据存储的容量,降低后续处理的复杂度。二值化的基本要求是笔划中不出现空白并较好的保持原来文字的特征。

最简单的二值化通过设定固定灰度阈值完成,其关键在于阈值的选择。常用方法有整体阈值法(由灰度级直方图确定整体阈值)、局部阈值法(由像素灰度值和像素周围点局部灰度特性确定阈值)、动态阈值法(不仅与灰度有关,还与该像素坐标位置有关)。局部阈值和动态阈值虽然能处理质量较差的文字,避免整体阈值法带来的不应有的失真。但是,一则时间开销大,二则考虑到实际的局部阈值和动态阈值选择算法往往在图像的某些部位上产生整体选择不会产生失真,所以,在文字识别中,一般采用整体阈值法。
您需要登录后才可以回帖 登录 | 我要注册

本版积分规则

关闭

站长推荐上一条 /1 下一条

QQ|小黑屋|手机版|Archiver|集成电路技术分享 ( 京ICP备20003123号-1 )

GMT+8, 2024-4-20 03:17 , Processed in 0.062340 second(s), 19 queries .

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表