1.手语识别背景
根据世卫组织最近的一项报道表明,在全球有超过10亿的残疾人,就聋哑人占残疾人口的10%。截止2013年末,据第六次全国人口普查我国总人口数,及第二次全国残疾人抽样调查我国的残疾人口达8502万人,其中听力残疾2054万人,语言残疾130万人,这些人中只有少部分只听力或语言障碍,大多数人完全失去了与健康人类正常沟通的能力,手语则是他们唯一的交流方式。手语是聋哑人和听障人群的日常交流中自然发展出来的语言,是聋哑人间的主要沟通媒介。手语是一种肢体语言,它主要以手势表达信息,通过手的手形、位置、朝向和运动轨迹即可以传递一个手语,在个别情况下,表情、眼神、唇动和身体姿态也辅助参与到手语的表达上。
由于手语不是一门大众化的语言,在听觉正常的人中只有极少数人会使用或理解手语,即使在聋哑人群体中,标准化手语的普及率也很低,不同聋哑人群体使用的手语往往有很大区别,存在很严重的方言现象,由于环境差异,可能会有使用不同的表达方式,所以手势通常是一个不太明确的概念,有时手势表达的含义在不同情境下承载的信息是不同的。那么将手语转换成声音和图像并被人们轻易理解就变得很有实用价值,使正常人能通过机器的翻译“看懂”手语,利用相关语音识别合成技术将文字或语音合成出手语,帮助聋哑人“听出”声音。
2.国内外现状
从研究方法与技术应用中将手语识别技术大致分为两大主流:基于数据手套的手语识别和基于视觉的手语识别。基于数据手套的手语识别系统其实是一个多传感器融合系统,通过对手的角度信息、运动轨迹与时序信息融合处理来分类识别的系统。该系统能精确获取手的信息且识别性高,适合种类多的手语识别;但是使用时需要穿戴笨重的传感设备,这严重影响了人机交换的易用性和自然性,并且设备成本高,在实际生产生活中使用非常不便,难以批量使用。相对而言,基于视觉的手语识别是利用摄像头获取手语的二维图像或者视频,然后利用图像处理,机器学习等先关领域的算法进行手语的识别,该系统更加贴近社会的需求,最适合人机交互。但相对的,该模式手语识别系统很难实现手语特征提取的精确性以及很难有统一的手语识别方法等。因此通过视觉的手语识别系统存在识别率低、实时性差、适用性低的缺陷。
对手语识别技术的研究最早产生于国外,1983年,美国电话电报公司的G.J.Grimes取得了“数字数据输入手套接口设备”的专利。该设备能识别72个单字字母,被认定是最早进行手语识别研究的人。1995年,美国麻省理工学院对本国连续手语识别进行研究。提取手语的手形、方向与运动轨迹作为多特征,然后利用隐马尔可夫
进行跟踪识别。识别时要求佩戴有色手套。对组成的40个连续句子进行试验验证,正确率为91.3%。随后对句子给予相应语法约束后,识别率达到98%。2010年,日本Morpho公司研究出一项通过人脸寻找附近的手势进行动作识别,并对电视进行控制的人机交互技术。随后推出一款名为3D手势遥控器,利用手势的动作来达到遥控的功能。
目前,国内对基于视觉的手语识别研究还较少,主要集中在对简单的手势识别研究上。1995年,哈尔滨工业大学的吴江琴、高文对手语识别系统进行了分析与研究,提出了利用数据手套采集手语的方向、位置、形状等信息,通过人工神经网络和隐马尔科夫相结合
的方法实现手语识别方法,从而实现了对13个静态手势的识别以及简单的动作识别。2009年,西安建筑大学的郭彩龙等人针对如何提高手语识别率,通过研究图像的傅里叶描述子
的平移、缩放、旋转不变性的特征,研究出一种基于傅里叶描绘子的中国静态识别算法。采用Sobe检测边缘
,随后获取边缘的傅里叶系数
作为特征量,最后利用欧式距离
的模板匹配算法进行识别,识别率达到96.2%。2013年,西南科技大学的林水强等人针对如何实现自然手语识别交互,提出一种基于几何特征的手势识别方法。采用多序列背景模型、肤色跟踪与几何形状相结合
的分割算法提取手势。随后利用动态帧方法
获取多个几何特征用于决策树
进行分类识别。对规定的6种手势进行测试,合格率达94%。
图中只记录了部分相关研究。
3.关键词
按手语类型分类:
静态手语识别、孤立词手语识别、大规模连续动作手语识别
按研究方式分类:
基于数据手套和传感器识别系统、基于视觉图像处理识别系统
上述涉及相关算法:
隐形马尔科夫算法(HMM)、人工神经网络、傅里叶描述子算法、Sobe边缘检测、欧式距离、决策树、肤色聚类算法与Harr特征检测算法、人体骨骼匹配算法、KNN临近算法
3.1特征值
隐形马尔科夫算法(HMM)
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来描述一个含有隐含未知参数的马尔可夫过程。其难点是从可观察的参数中确定该过程的隐含参数。然后利用这些参数来作进一步的分析,例如模式识别。是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。
傅里叶描述子算法
傅立叶描述子是分析和识别物体形状的重要方法之一。利用基于曲线多边形近似的连续傅立叶变换方法 计算傅立叶描述子,并通过形状的主方向消除边界起始点相位影响的方法,定义了新的具有旋转、平移和尺度不变 性的归一化傅立叶描述子。与使用离散傅立叶变换和模归一化的传统傅立叶描述子相比,新的归一化傅立叶描述 子同时保留了模与相位特性,因此能够更好地识别物体的形状。
图片源文链接:OpenCV-python提取特征(批量处理数据)
Sobe边缘检测
索贝尔算子(Sobel operator)是图像处理中的算子之一,主要用于边缘检测。在技术上,它是一离散型差分算子,用来运算图像亮度函数的梯度之近似值 。在图像的任何一点使用此算子,将会产生对应的梯度矢量或是其法矢量。
肤色聚类算法与Harr特征检测算法
肤色检测算法:RGB、Ycrcb之cr分量+otsu阈值化、YCrCb、HSV、基于椭圆皮肤模型的皮肤检测
opencv自带肤色检测类AdaptiveSkinDetector等都是设定皮肤颜色的范围,再将其过滤出来,不同的是过滤的过程在不同的颜色空间下进行的。Haar分类器实际上是Boosting算法的一个应用,Haar分类器用到了Boosting算法中的AdaBoost算法,只是把AdaBoost算法训练出的强分类器进行了级联,并且在底层的特征提取中采用了高效率的矩形特征和积分图方法
人体骨骼匹配算法
基于骨架匹配的轮廓线提取方法可以生成静态图像中人体的轮廓线图。在图像中找到可以表征人体骨架的骨架关键点,通过骨架关键点,利用图像中各像素点所包含的边缘信息,结合人体形态学先验知识,构建了隐马尔科夫模型来匹配人体上对应骨架关键点的边缘关键点,少量的边缘关键点即可生成人体大致轮廓。
3.2分类决策
欧式距离
欧式距离也称欧几里得距离,是最常见的距离度量,衡量的是多维空间中两个点之间的绝对距离。也可以理解为:m维空间中两个点之间的真实距离,或者向量的自然长度(即该点到原点的距离)。在二维和三维空间中的欧氏距离就是两点之间的实际距离。
这里引用是用保存的已知手势特征点和预测手势图像特征点求取欧式距离再取均值,欧式距离越小,手势匹配度越高。
人工神经网络
人工神经网络,也就是ANN(Artificial Neural Network),它是模拟人类大脑处理信息的生物神经网络所产生出来的一种计算模型。而它主要用于机器学习的研究与调用,例如语音识别,计算机图像处理,NLP等。
通过前面不同手势保存的特征点,对不同手势进行学习,由已知手势预测新的手势。
决策树
决策树是一种机器学习的方法。决策树的生成算法有ID3, C4.5和C5.0等。决策树是一种树形结构,其中每个内部节点表示一个属性上的判断,每个分支代表一个判断结果的输出,最后每个叶节点代表一种分类结果。
KNN临近算法
近算法,或者说K最近邻(kNN,k-NearestNeighbor)分类算法是数据挖掘分类技术中最简单的方法之一。所谓K最近邻,就是k个最近的邻居的意思,说的是每个样本都可以用它最接近的k个邻居来代表。
引用:
[1] 江勇军. 基于Kinect的孤立词手语识别系统研究[D]. 2015.
[2] 刘伟康. 基于Kinect的静态数字手语识别研究及系统实现[D]. 2016.
[3] 孙丽娟. 基于边缘梯度方向直方图的中国静态手语识别[D]. 2009.
[4] 武红娇. 复杂背景下的静态手语识别技术研究[D].
[5] 韩宁江. 基于深度学习的手语识别方法研究[D].