1.1 工程背景及意义
在现实生活中,一个物体可以由多个特征共同表示,例如,一个基因可由它的活跃性状和文本特征一起表示[1];一个演讲者可以由他的面貌和声音一起表示[2]。这种数据称为多视图数据。由于这些特征表示总是反映了同一图像集的不同特性,因此,图像集的多视图数据分析十分有意义。另一方面,图像集的多种不同的表示会急剧的增加冗余信息及维数,从而引发了“维数灾难”,给后续的学习任务(例如分类和检索)加大了复杂度。因此,对图像集的多视图数据进行联合低维表示是一项重要研究内容,对后续学习任务来说具有重要的理论支撑和实际意义。
不仅如此,有文章表明人类视觉系统对稀疏图像很敏感[3]。而且现有的基于稀疏表示的方法主要针对于单幅图像,并在模式识别中取得极大的成功,基于图像集的稀疏表示研究还比较少。因此,从理论和实际应用的角度出发,图像集的多视图稀疏值得研究,对视觉感知的低维表示具有很大的价值。
1.2 相关技术现状
这几年,稀疏表示在机器学习中取得重大的突破和成功应用。稀疏表示的研究通常归结为字典的设计,从不同的角度出发,设计出的字典可以满足不同的应用需求,如经典的KSVD[4],DKSVD[5],LC-KSVD[6],FDDL[7]等。Wright等人[8]利用样本间的稀疏性,提出了一种线性表示分类器(SRC)。线性表示分类器的基本思想是构建字典表示训练集图像,然后将测试样本用字典来稀疏表示,从而分类。随着数字图像及通信技术的发展,稀疏表示也广泛的应用在图像集数据[9]中,Hu[10]等人利用稀疏最近相似点来衡量图像集间的相似性。为了降低模型的复杂度,Wu[11]提出了协同最近点方法,但这些方法通常对异常值和遮挡比较敏感。为了解决此类问题,Chen[12]等人提出了基于字典学习的图像集识别方法。该方法通过对每个图像集构建一个字典,之后利用这些字典度量图像集间的相似性,可以获得较好的识别效果。
1.3 总体技术方案及其社会影响
本文为了降低模型的复杂度,所以采用协同表示方法对图像集分类,但为了减少异常值和遮挡的影响,对图像集进行字典学习。然而,如果对每个图像集构建一个字典,就会降低图像集之间的辨别力,因此,本文对所有图像集学习一个费希尔有辨别的字典,一个图像集有其与之对应的类特定子字典,以此来放大不同子字典的区别,从而可以增强分类准确率。同时,多视图数据描述了对象的同一图像集,因此,它们之间自然地具有很强的相关性,而用于抽取两组随机变量的典型相关分析非常适合于高维多视图数据的低维表示学习,本文为了降低计算量,利用典型相关分析[13]进行特征提取,再将特征融合[14]。
该技术方案对使用人员健康不产生任何的影响且合法。如果用该方案做一个图像集分类系统或是分辨出视频中出现的人脸,可以有效的提高分辨的准确率,但缺点是所花的时间增加。
1.4 技术方案的经济因素分析
如果从经济角度分析,需要采用该方案。若是所分类的图像集中所包含的样本个数不够多时,该方案计算的准确率优于很多图像集分类算法;而当所分类的图像集中所包含的样本个数足够大时,该方案计算的准确率也高于绝大多数算法。在人脸识别方法中,准确率是毫无疑问的摆在第一位,比如,若是某个实验室有重要资料,只允许特定的人刷脸进入,此时,若是准确率较低,则会导致不法分子进入窃取资料,后果相当严重;相反,若是时间多花一点,而准确率提高,则会令人满意的。因此,该方案性价比较高,需要采用该方案。 基于字典学习的多视图低维相关表示方法研究(2):http://www.chuibin.com/jisuanji/lunwen_205646.html