Automatic fall detection of human in video using combination of features译文

来源:互联网 发布:怎么加入淘宝类目群 编辑:程序博客网 时间:2024/05/02 04:39

使用特征组合来自动检测视频中的人物

KunWang, Guitao Cao*, Dan Meng, Weiting Chen, Wenming Cao+

计算机科学与软件工程学院 华东师范大学 上海,中国200062

通讯作者Email:gtcao@sei.ecnu.edu.cn

+ 深圳大学信息工程学院 深圳 中国 518060

+ 共同作者Email:wmcao@szu.edu.cn

摘要:老年人自动跌倒检测问题是一个热门的研究课题,因为跌倒是65岁以上老龄人口中主要的健康危害之一,中国人口超过1亿。在本文中,我们提出了一种基于视频监控的自动人体跌倒检测框架,可以提高室内环境下老人的安全性。首先,使用视觉组件来检测和提取来自静态相机的视频中的移动人员。然后,结合面向梯度的直方图(HOG),局部二值模式(LBP)和深度学习框架Caffe提取的特征,形成一个新的增强特征,其特征命名为HLC。我们使用HLC来表示一个人在一个视频序列的帧中的运动状态。由于跌倒过程是一系列运动,我们使用从视频序列的连续帧中提取的HLC特征来实现跌倒检测。在HLC特征的帮助下,我们在三个不同的数据集上实现了灵敏度为93.7%的平均摔倒检测结果和92.0%的特异性结果。

关键词:跌倒检测; 视觉监控; 特征的组合

1.    引言

        人口老龄化已经成为世界性的问题。 中国早在1999年就进入了老龄化国家,根据“2015年中国统计年鉴”[1]中的年龄结构和人口抚养比,中国65岁以上人口为13755万人,占总人口的10.1%。由于老年人数量不断增加,对老年人的照顾越来越重要。根据N.Noury的说法,超过三分之一的65岁以上的老年人每年都有摔倒的事故[2]。在中国,独居老人达1亿多。如果他们倒在家里,没有人能立即照顾他们,会造成无法挽回的后果,甚至死亡。因此,出于帮助老年人安全和独立生活,具有摔倒检测和报警功能的室内生活保障系统技术的前景非常广阔。

        在回顾文献[2-5]之后,我们按照[3]中的方式将跌倒检测系统分为两类:情境感知系统和可穿戴设备。在第一类中,传感器被部署在环境中以检测跌倒。在所有可能的传感器类型中,最常见的是相机,地面传感器,红外传感器[6,7],麦克风[8]和压力传感器[9]。情境感知系统的主要优点是人不需要佩戴任何特殊的设备。但是,它们的操作仅限于先前部署传感器的地方。在第二类中,跌倒检测基于微型电子传感器设备,老年人需要佩戴。基于可穿戴设备的方法有两个子类别,分别是基于加速度机链接身体的方法[10-13]和基于智能手机的方法[14]。基于可穿戴设备的方法虽然能够取得良好的表现,但是它们有一个共同和严重的弱点,那就是对于长辈来说,记住穿戴设备似乎是一项艰巨的任务。

        在情境感知系统中,有一个独特的子类别,基于视频的系统,它使用不同于其他检测方法的计算机视觉技术。基于视频的方法的优点在于它可以实现良好的跌倒检测性能,并且不需要长辈佩戴任何设备。

        本文的其余部分安排如下。 第二部分解释了基于视觉的跌倒检测的相关工作。 第三部分介绍了我们的基于视觉的跌倒检测方法,其中特征HLC是通过分析HLC特征来模拟人体运动状态和实现跌倒检测的方法。 第四节讨论了实验结果,在第五节展示了我们工作的结论。

2.    相关工作

        近年来,随着计算机视觉技术的发展,基于视觉的跌倒检测一直是一个热门的研究课题[3,5,15]。 基于视觉的跌倒检测的主要挑战是如何提高准确性和降低计算复杂度。

        摔倒检测最常用的方法之一就是分析单个图像中人的边框[16,17]。该方法简单,易于实现。然而,当相机与人的相对位置变化时,准确度可能会大幅波动。此外,它不能准确地区分“跌倒”和“像跌倒”活动。一些研究人员使用基于形状的方法来实现跌倒检测[18-21]。在[18,19]中,人的宽度和高度的比率被用来检测跌倒。Mirmahboub等[21]使用简单的背景减法来获取人的轮廓,然后基于轮廓相关特征进行跌倒检测。Rougier等人[20]使用形状模型来获取视频剪辑中的人物轮廓。然后从这些轮廓中提取一些特征,并且基于使用高斯混合模型(GMM)的特征进行分类。不同于[20],在文献[22]中,自适应背景GMM被用来检测运动物体,并且两个隐马尔可夫模型(HMM)被用来实现跌倒检测。基于形状的方法可以获得比边界框方法更好的性能[16,17],但是像坐下和蹲下的类似跌倒的活动仍然被检测为跌倒事件。

3.    我们的方法

        在我们的方法中,我们提出了一种新的增强特征HLC,结合面向梯度的直方图(HOG),局部二值模式(LBP)和由深度学习框架Caffe提取的特征来表示人的轮廓区域。跌倒检测基于两个支持向量机(SVM)模型。我们的跌倒检测框架的过程如图1所示。我们的框架看起来像[23]中的框架,因为我们咨询了它。但我们是不同的。我们的方法和[23]的主要区别在于,我们使用了三个特征包含两个低级特征和一个高级特征来检测跌倒。经过两个训练阶段,我们获得了两个SVM模型。在第一个训练阶段,使用VIBE +[24]从视频序列中提取训练图像,这是一种用于检测来自静态相机的视频中的运动物体的最先进的前景检测方法。这里训练图像分为三类:步行,下降,说谎,然后通过训练图像获得单帧分类模型。在第二个训练阶段,我们将视频序列中每30个连续帧的预测作为输入。然后,基于预测获得跌倒检测模型。

图1:我们提出的用于跌倒检测的算法的框架

图2:人体检测和提取程序。(a)原始图像。(b)前景面具。(c)人类物体被贴上标签。(d)提取人物。

图3:特征提取和组合的过程

A.   人体检测

        人类跌倒检测的首要也是最重要的问题是如何准确成功地检测人体目标。人体检测是我们跌倒检测框架的重要组成部分。由于我们的跌倒检测框架的输入是来自静态相机的视频序列,因此可以使用众所周知的技术,即背景扣除来获得候选人。通过以像素方式计算当前图像与参考背景之间的差异,将运动对象与背景分离。在回顾背景扣除的文献[24-26]后,我们选择VIBE +[24]来实现人体检测和提取。第一步是使用背景减法VIBE+提取包含人的前景蒙板。第二步是使用连通分量分析和边框来提取人体对象。 图2说明了人体检测和提取的过程。

B.    特征提取和组合

        区分摔倒行为的能力主要取决于分类器输入的质量,因此人体特征是人体检测的有效性和鲁棒性的关键因素。在人体检测文献[27]中,对各种特征进行了研究。在这些特征中,面向梯度的直方图(HOG)和局部二值模式(LBP)在图像分类任务中表现良好,但是它们是手工制作的低级特征而不是通用的。为了保持人体跌倒检测的通用性和性能,本文提出了一种结合面向方向梯度直方图(HOG),局部二值模式(LBP)和深度学习框架Caffe提取的特征的增强特征向量HLC。Caffe是最先进的深度学习框架,它从感兴趣的数据中学习高级特征,提供更好的通用性。我们认为,HOG,LBP和Caffe提取的特征相结合可以更好地进行人体跌倒检测。我们的特征提取和组合的过程如图3所示。

        定向梯度直方图(HOG):Dalal和Triggs[28]提出的定向梯度直方图是一种众所周知的计算区域级边缘特征的方法。局部图像区域的边缘特征是通过将该区域中的像素的边缘信息量化成离散值并且被累积成量化值的直方图而获得的。在局部矩形区域中计算HOG,其中每个边缘像素投票选择对应于方向的直方图区域。边缘的大小也用来加权直方图箱。HOG在一定程度上适应了人体形状的局部变形。自2005年提出以来,HOG在物体检测和识别领域取得了巨大的成功。

        局部二值模式(LBP):最初提出用于纹理分类的局部二值模式被用来描述人体的外观[29]。类似于HOG,图像区域通过在该区域中的所有像素处计算的LBP的直方图来编码。LBP以抗照明变化,判别能力和计算简单性的鲁棒性而闻名。LBP的许多变体和扩展也已经被开发出来。

        Caffe:Yangqing Jia [30]提出的用于快速特征嵌入(Caffe)的卷积体系结构为多媒体及其从业者提供了一个清晰和可以修改的框架,用于最先进的深度学习算法和参考模型的集合。一个Caffe模型的剖析是Blob,Layers和Net。Blob是由Caffe处理和传递的四维数组,并在CPU和GPU之间提供同步功能。layer是模型的本质和计算的基本单位。图层卷积滤波器,池化,取内积,应用类似整流线性、S形和hinge等非线性函数。一个典型的网络从一个从磁盘加载的数据层开始,并以损失层结束,计算任务(如分类或重建)的目标。图4显示了一个Caffe网络(MNIST数字分类)在训练过程中的一个典型例子:数据层从磁盘中获取图像和标签,将其传递到卷积,池化和整流线性变换等多个层次,在分类损失层预测,产生损失和梯度,完成训练整个网络。

        在我们的特征提取过程中,我们使用一个8×8单元来获得HOG和LBP特征。为了构建Caffe特征,我们使用了基于Krizhevsky等人的网络体系结构捆绑了用于ImageNet的预训练模型CaffeNet。然后,我们使用提取的特征形成一个新的特征向量:

C.   跌倒检测

        由Chih-ChungChang和Chih-JenLin设计的支持向量机库(L1BSVM)是一个简单高效的工具,可以帮助用户轻松地将SVM应用到他们的应用中。 L1BSVM是目前最流行的SVM软件之一。

        在我们的方法中,我们训练了两个线性支持向量机模型:单帧分类模型和跌倒检测模型。 框架分为三类:走路,跌倒,躺着。如果在单个框架中获得的人走路,则框架的类别是“走路”。如果在单个帧中获得的人物正在跌倒,则该帧的类别是“跌倒”。如果在单个框架中获得的人在躺着,那么框架的类别是“躺着”。由于跌倒过程是一系列的动作,需要花费一些时间,我们每隔30帧连续执行一次跌倒检测。跌倒检测模型的输入是由单帧模型分类的30帧的类别。然后,跌倒检测模型得出人的状态是“跌倒”或“不跌倒”的结论。

4.    实验

        为了验证我们的跌倒检测方法的能力,我们对三个不同的数据集做了一些实验。第一个数据集是MultipleCameras Fall Dataset [31],它包含8个摄像机从不同角度拍摄的24种跌倒事件和24个日常活动(11蹲,9坐,4躺在沙发上)。第二个数据集可以在[32]中访问。它包含30个日常活动,如散步,坐下,蹲下,以及向前跌倒,落后,侧身跌倒等21次跌倒活动。第三个数据集是我们自己收集的。我们的数据集包含了来自四个不同角落的四台摄像机拍摄的168个视频,包括向前落下,落后,侧身落地和一些日常活动。为了形成数据集,我们邀请了四个个体,三个年轻人和一个长辈,来模拟不同的活动。我们要感谢他们的帮助。表1显示了实验数据集的图像样本和每个图像的状态。图像样本分为“走路”,“跌倒”,“躺着”三种状态,相应的标签为0,1,2。

        我们按照第3.2节所述的方法来实施跌倒检测的训练和测试。首先,我们进行人体检测和提取,然后获得新的人体可以被包围的图像。其次,新图像被归一化为64×64像素的分辨率。第三,通过特征提取和组合获得新的特征HLC。第四,基于HLC特征,图像得到由单帧分类模型预测的标签。 然后,通过分析图像的预测标签,我们得到最终的跌倒检测结果。

        在第一个实验中,我们使用的MultipleCameras Fall Dataset的70%来训练我们的跌倒检测模型,并使用最后30%的数据集来测试模型。在第二个实验中,像第一个实验一样,我们用70%的数据集来训练我们的模型,最后30%的数据集用于测试跌倒检测模型。在第三个实验中,我们使用MultipleCameras Fall Dataset来训练我们的跌倒检测模型,数据集2用来测试模型。在大多数情况下,跌倒检测的表现是以sensitivity和specificity来表示的。sensitivity是将跌倒正确分类为跌倒的能力,而specificity是将没跌倒正确分类为没跌倒的能力[33]。

这里:

        •正确(TP):正确识别的跌倒次数

        •误报(FP):错误识别的跌倒次数

        •真正否定(TN):正确识别未跌倒的次数

        •错误的否定(FN):未正确识别未跌倒的次数

表1 三个数据集的图像样本

表2 我们实验的结果

表3 我们提出的方法和其他先进方法的比较

        从表2可以看出,我们的实验平均sensitivity为93.7%,平均specificity为92.0%。实验一的性能是最好的,因为MultipleCameras Fall Dataset中只有一个相同的人类对象。我们的数据集包含三个年轻人和一个老年人,所以我们猜想在第二个实验中的跌倒检测应该比第一个实验更困难。第二次实验的sensitivity为93.3%,specificity为92.2%,这与我们的猜想相对应。 第三个实验的结果是最差的,因为我们使用一个数据集来训练模型,另一个完全不同的数据集来测试我们的模型。虽然第三次实验的specificity为86.4%,但sensitivity为92.9%,并不差。在一定程度上,第三个实验显示了我们的方法的普遍性。

        表3显示了我们的方法与其他四种最先进的基于视觉的方法的比较:Wang的方法[23],Chen的方法[34],Chua的方法[32]和基于MHI的方法[35]。实验表明,与其他方法相比,我们的方法取得了较好的效果。

5.    结论

        在本文中,我们提出了一种基于低级特征和高级特征相结合的跌倒检测新方法。我们提取了低级特征的HOG和LBP特征,并结合了Caffe感兴趣的数据学习的特征。然后使用L1BSVM训练两个SVM模型。实验表明,我们的方法可以实现比其他最先进的方法更好的性能。我们的方法在三个不同的数据集上实现了平均93.7%的sensitivity和92.0%的specificity的跌倒检测结果。 结果并不差,但我们相信,可以用更大的数据集来提高性能。 此外,HOG,LBP和由Caffe提取的不同比例的特征的适当缩放可以提高性能。

致谢

       这项工作得到了中国自然科学基金(61375015)的支持。

参考文献

1. Statistics, N., China statisticalyearbook 2015. 2015, China statistics Press, Beijing.

2. Noury, N., et aI., A proposal for theclassification and evaluation of fall detectors. Irbm, 2008. 29(6): p. 340-349.

3. Igual, R., C. Medrano, and I. Plaza,Challenges, issues and trends in fall detection systems. Biomedical engineeringonline, 2013. 12(1): p. 1.

4. Ambrose, AF., G. Paul, and J.M.Hausdorff, Risk factors for falls among older adults: a review of theliterature. Maturitas, 2013. 75(1): p. 51-61.

5. Mubashir, M., 1. Shao, and 1. Seed, Asurvey on fall detection: Principles and approaches. Neurocomputing, 2013. 100:p. 144-152.

6. Mastorakis, G. and D. Makris, Falldetection system using Kinect's infrared sensor. Journal of Real-Time ImageProcessing, 2014. 9(4): p. 635-646.

7. Han, ./., et aI., Enhanced computervision with microsoft kinect sensor: A review. IEEE transactions oncybernetics, 2013. 43(5): p. 1318-1334.

8. Li, Y, K. Ho, and M. Popescu, Amicrophone array system for automatic fall detection. IEEE Transactions onBiomedical Engineering, 2012. 59(5): p. 1291-130l.

9. Tzeng, H.-W, M.-Y Chen, and 1.-Y Chen.Design of fall detection system withfloor pressure and infrared image. in 2010International Conference on System Science and Engineering. 2010. IEEE.

10. Shan, S. and T. Yuan. A wearablepre-impact fall detector using feature selection and support vector machine. inIEEE 10th INTERNATIONAL CONFERENCE ON SIGNAL PROCESSING PROCEEDINGS. 2010.IEEE.

11. Bagal<'t, F., et aI., Evaluationof accelerometer-based fall detection algorithms on real-world falls. PloS one,2012. 7(5): p. e37062.

12. Yuwono, M., et aI., Unsupervisedmachine-learning method for improving the performance of ambulatoryfall-detection systems. Biomedical engineering online, 2012. 11(1): p. 1.

13. Cheng, 1., X. Chen, and M. Shen, Aframework for daily activity monitoring and fall detection based on surfaceelectromyography and accelerometer signals. IEEE journal of biomedical andhealth informatics, 2013. 17(1): p. 38-45.

14. Abbate, S., et aI., Asmartphone-based fall detection system. Pervasive and Mobile Computing, 2012.8(6): p. 883-899.

15. Zhang, Z., C. Conly, and V Athitsos.A survey on vision-based fall detection. in ACM International Conference onPervasive Technologies Related To Assistive Environments. 2015.

16. Williams, A, D. Ganesan, and AHanson. Aging in place: fall detection and localization in a distributed smartcamera network. in International Conference on Multimedia 2007, Augsburg,Germany, September. 2007.

17. Vishwakarma, V, C. MandaI, and S.Sural. Automatic detection of human fall in video. in International conferenceon pattern recognition and machine intelligence. 2007. Springer.

18. Tao, 1., et al. Fall IncidentsDetection for Intelligent Video Surveillance. in International Conference onInformation. 2005.

19. Miaou, S.-G., P.-H. Sung, and C.-YHuang. A customized human fall detection system using omni-camera images andpersonal information. in 1st Transdisciplinary Conference on DistributedDiagnosis and Home Healthcare, 2006. D2H2. 2006. IEEE.

20. Rougier, c., et aI., Robust videosurveillance for fall detection based on human shape deformation. IEEETransactions on Circuits and Systems for Video Technology, 2011. 21(5): p. 611-622.

21. Mirmahboub, B., et aI., Automatic monocularsystem for human fall detection based on variations in silhouette area. IEEEtransactions on bio-medical engineering, 2013. 60(2): p. 427-36.

22. Tra, K. and TV Pham. Human falldetection based on adaptive background mixture model and H MM. in AdvancedTechnologies for Communications (ATC), 2013 International Conference on. 2013.

23.Wang, S., et aI., Human falldetection in surveillance video based on PCANet. Multimedia Tools andApplications, 2015: p. 1-11.

24. Van Droogenbroeck, M. and O. Paquot.Background subtraction: Experiments and improvements for ViBe. in 2012 IEEEComputer Society Conference on Computer Vision and Pattern RecognitionWorkshops. 2012. IEEE.

25. Bamich, O. and M. Van Droogenbroeck,ViBe: a universal background subtraction algorithm for video sequences. IEEETransactions on Image Processing, 2011. 20(6): p. 1709-1724.

26. Sobral, A and A Vacavant, Acomprehensive review of background subtraction algorithms evaluated withsynthetic and real videos. Computer Vision and Image Understanding, 2014. 122:p. 4-21.

27. Nguyen, D.T., W Li, and P.O.Ogunbona, Human detection from images and videos: a survey. PatternRecognition, 2016. 51: p. 148-175.

28. Dalal, N. and B. Triggs. Histogramsof oriented gradients for human detection. in 2005 IEEE Computer SocietyConference on Computer Vision and Pattern Recognition (CVPR'05). 2005. IEEE.

29. Ojala, 1., M. Pietikainen, and D.Harwood, A comparative study of texture measures with classification based onfeatured distributions. Pattern recognition, 1996. 29(1): p. 51-59.

30. Jia, Y, et al. Caffe: Convolutionalarchitecture for fast feature embedding. in Proceedings of the 22nd ACMinternational conference on Multimedia. 2014. ACM.

31. Auvinet, E., et aI., Multiplecameras fall dataset. DIROUniversite de Montreal, Tech. Rep, 2010. 1350.

32.Chua, I.-L., YC. Chang, and WK. Lim,A simple vision-based fall detection technique for indoor video surveillance.Signal, Image and Video Processing, 2015. 9(3): p. 623-633.

33. Parikh, R., et aI., Understandingand using sensitivity, specificity and predictive values. Indian journal ofophthalmology, 2008. 56(1): p. 45.

34. Chen, YT, yc. Lin, and WH. Fang. Ahybrid human fall detection scheme. in IEEE International Conference on ImageProcessing. 2010.

35. Rougier, C., et al. FallDetectionfrom Human Shape and Motion History Using Video Surveillance. inInternational Conference on Advanced Information NETWORKING and ApplicationsWorkshops. 2007.

阅读全文
0 0