字符识别技术
模板匹配法
模板匹配法故名思议就是用模板对待识别字符进行匹配。模板匹配的步骤如下 建立模板库,首先人工识别每个待识别字符,如果模板库中没有该字符,就将该字符的标准型加入模板库。在进行模板匹配时,用待识别字符对模 板库中的每一个模板进行对比,得到对比差别最小的模板,则可以认为这一模板代表的字符就是我们需要的字符。
模板库建成后,利用KNNK-Nearest Neighbor算法进行模板库匹配识别。对待识别验证码的运算过程,在前期预处理及中期切分阶段和对样本图片建库时的完全一致,待识别图片被提取出特征串后利用模板库数据进行KNN 计算,KNN 中的距离采用汉明距离,字符特征串样本在K 个近邻中最多的为识别结果。
字符特征法
针对每个字符的内部和外部特征进行分析得到每个字符的唯一区分的特征,然后根据这些特征去识别字符
神经网络法
的基本原理如下:利用神经网络的学习功能,以及神经网络的记忆功能,首先让神经网络进行大量的样本学习,让神经网络先记住这些样本的特征,在识别阶段,待识别字符输入神 经网络,通过神经网络的回忆功能,使用待识别字符与回忆出的样本进行比较,从而找到最接近待识别样本的所属类别。
卷积神经网络
在卷积神经网络出现之前,人们对于分类任务使用的是全连接神经网络,在面对图像识别任务的时候传统的神经网络面临三个严重缺陷:一:参数较多,将输入图片的像素值按照“从上到下,从左到右”的规则排列成一维向量,再和隐藏层的每个神经元进行运算。1000*1000的灰度图像,在100个节点的隐藏层参数便已经达到1亿个,太多的参数使得其运算变慢,且难以扩展;二:图像信息最重要的是内容空间关系,若将其像素值按照一维排列将无法捕捉到空间结构信息;三:深度学习中框架随着层数的加深,其表达能力更强,由于全连接网络的网络缺陷导致全连接网络难以超过三层
在CNN 框架中,使用三维特征图代替了一维向量。通过卷积操作来进行局部连接,代替了之前的全连接的形式。通过权值共享,每组连接共享一个权值的形式减少了大量的参数。最后采用降采样来提取重点信息并减少样本的数量,该操作不仅提高了训练的速度还提高了模型的鲁棒性。
支持向量机SVM
SVMSupport Vector Machine 同样是一种有监督学习方法,其基本思想是通过将输入样本映射到高维,寻找函数的最优解从而找到 使两个目标类具有最大分类间隔的平面,即最优分类超平面