OCR (Optical Character Recognition光学字符识)指电子设备(例扫描仪数码相机)检查纸印字符通检测暗亮模式确定形状然字符识方法形状翻译成计算机文字程文资料进行扫描然图文件进行分析处理获取文字版面信息程OCR实现程分步骤图获取预处理特征提取识分类处理识结果等
图获取:
二预处理:
图预处理包括二值化图增强噪声处理图滤波等
图二值化采阈值分割技术擅长处理物体背景具较强度图分割计算简单够封闭连通边界区分出交叠区域图素点灰度值等阈值判定属某特定区域 255 表示灰度值否素点排特定区域外判定背景区域0表示灰度值印手写文档般背景字符差较适合进行二值化处理直接设定阈值进行二值化
图增强处理方法分基空间域增强基频率域增强两类空间噪步骤通减少图采集系统产生伪迹改善图完整性步骤般够减少获取图空间改变然图原始图扭曲变形感兴趣区域通常高度特点保持完通灰度图展现噪声视素值相原始值机变化
噪声处理高斯滑滤波器进行滤波噪声
三特征提取字符识:
汉字处理方法:研究象4特定方矢量分(1)水方矢量(2)竖直方矢量(3)45度角方矢量(4)反45度角方矢量汉字基笔画里应标准横线竖线较反映出撇捺特征点外基笔画成四基笔画组合成四方矢量相准确描述出汉字基字形特征
英文字符处理方法:基字符结构方法更适字母识字母结构水方三种类型左右称左右左右竖直方三种类型称笔画两类直笔画弧笔画直笔画分横笔画竖笔画左斜笔画弧笔画条曲线段分两类开弧笔画闭弧笔画谓开弧笔画指该弧笔画没形成封闭环字母C根字符特点字母进行逐级分类形成颗判定树字符叶子种方法需分割字符进行化需建立样库完全字符身结构特征进行逼识
阿拉伯数字处理方法:先计算欧拉数提取凹陷区特征根特征组合识字符欧拉数种应广泛物体进行识特征定义连成分数减洞数ECH中ECH分欧拉数连成分数洞数凹陷区定义果连接图意两点直线属该图该图凸图果连接图两点直线部分属图称该图凹图凹图中意两点间直线中属图部分区域称图凹陷区分类结果:
四处理:
识结束文档清晰度识结果会较差利文信息语法逻辑识结果进行修正改善提高系统整体性处理结束终文档生成
五字符翻译发声:
已识字符通调翻译程序词典中查询相应词组获翻译含义词典存储系统硬盘存储版词典获更翻译效果提高翻译效率词典单词定序存放样较短时间完成单词查询工作
字符发声原理字符查询原理相查询相关单词 选择发声选项进行发声
文档香网(httpswwwxiangdangnet)户传
《香当网》用户分享的内容,不代表《香当网》观点或立场,请自行判断内容的真实性和可靠性!
该内容是文档的文本内容,更好的格式请下载文档