近日,在中国科学院科技战略咨询研究院、中国科学院文献情报中心、科睿唯安举办的“2021研究前沿发布暨研讨会”上,中国科学院自动化研究所模式识别国家重点实验室研究员王金桥指出,视频行为识别在很多领域都具有广泛的应用前景,目前研发主要聚焦于自监督学习、海量视频行为数据的自监督学习、时空特征表示以及跨域行为的自动识别等。以下为报告整理。
智能视觉的感知和理解是重点
视频行为识别进展和应用前景的探讨,是目前人工智能领域比较前沿的方向。智能视觉的感知和理解是人工智能的重要组成部分。人工智包括三条发展路径。第一个是类脑,即如何模拟人类大脑的感知特性,但目前发展得比较慢。第二个是数据智能,即通过监督与自监督学习的方法获取大量数据。这也是非常热门的一个方向,用海量数据让机器自动学习人类的语言等,主要发生在感知智能领域。第三条路径被称为“博弈的对抗”,通过强化学习使机器和人通过下棋、做游戏等交互,不断地获取新知识。
目前这三个路径中发展最快的是数据智能,而数据智能中感知智能发展迅速,决策智能发展得相对比较慢。随着人工智能的发展,尤其是深度学习模型即神经网络的发展,已经从几亿参数发展到现在的一千亿——目前最高约为1.75万亿神经元参数。但人类大脑的突出连接是一百万亿,这一数字距离人类理解能力的参数量还是有很大差距。
现在做得比较好的是目标的检测,就是图像里的目标在哪里、是什么、目标之间的关系是什么以及正做什么样的事情。换言之,就是人工智能对视频理解的几个重要的要素,剩下的就是情感。
源于每个人心情、状态、知识层面的不同,很多时候对图像和视频的理解也是不一样。比如我看见的一个人在压腿,而别人认为他是在健身。其实,每个人都是对的,只是他们出于不同的观察层面。因此,如何实现细力度的精确行为图像、内容以及丰富含义,是现在整体发展的重要的方向。
从应用价值来讲,行为识别尤其是以人为核心、以人和场景为核心的行为识别具有重要的价值。如安防、健康养老、运动分析以及最近的元宇宙等,真实世界和物理世界间的交互需要动作精细的识别和精细的操控。
从过去十年最流行的动作数据统计中可以看到,深度学习需要GPU,但GPU的整体算力受到很多的限制。数据集视频的整体数量不断地增加,为如何评价行为、识别效果提供了有效的基础。数据的规模也越来越大,从固定背景的识别发展到开放的场景。比如勇士队在2019年夺得美职篮总冠军时,就有六个安装在整个场景中的摄像头,可以精确分析每个人的持球时间、投篮高度以及球员在场上漫步的时间等以分析每个球员的价值。通过大数据的大算力,来为球员作出更公平的评测。
但实际上其中有很多的难点,首先就是行为识别姿态的多样性。每个人穿的衣服不同,不同的相机处于不同的视角拍到的角度也不同,而且每个人动作的时间跨度也不一样,拿物品的方式也不同。此外,遮挡等都给行为识别带来了非常大的挑战。
关键性行为的界限也具有不确定性。比如擦嘴和喝水,这两个动作有很强的混淆作用,站在不同的角度会带来许多错误的研判。人体行为识别包括视频行为识别等现在都非常热门,但目前的核心挑战是数据越来越涉及隐私问题。最新政策规定,从明年3月开始,所有的边缘计算设备和相机都不能上传抓拍到的人脸照片。
同时从今年12月开始,所有车企的摄像头都不能上传车内和车外人脸的照片,这是对个人隐私的重要保护,但也是对算法的巨大挑战。
此外,我们还要做各种层级力度的标注,同时数据的版权也给科研工作带来了很多的挑战。因为需要评测的数据非常多,但是往往学术的机构都没有版权。
视频行文识别发展迅速
从技术的发展来看,2014年前基本聚焦在静态的场景理解、静态目标和人的姿态识别。从2014年到现在视频行为的识别发展得非常快,代表性的就是三维的卷积。三维的卷积要把空间关系、时间关系,不同目标、区域之间的关系都融合进去,这需要高效的时空建模。因此,我们整个工作就围绕基本的核心科学问题做了很多的探索。
其中,最核心的是将行为识别做成图像分类的问题。我需要把每个视频切成一个片段让它重叠一半再做图像分类,就是把行为识别变成图像分类的问题,这是一个最早的方法。从原来的手工设计特征到深度学习,第一次用这种方法。相当于用DeepVideo把每个片段做成卷积特征,直接做成分类。但是,它的问题在于忽略了运动的信息与关键的空间。
这时出现了更具代表性的工作就是将时间和空间分开,一方面把专门用于深度学习的网络用于运动的分类,另外将静态图像也作一个分类,相当于把物体和动作的识别分开。但只用这些基本的分类,很难达到精细化视频的行为理解, 于是就出现围绕多模态的理解。一是将深度信息融合进去,二是单独把人像抠出来,将人的姿态即人的骨架模型单独抽出来。同时我们认为,世界如同人一样是一个多模态的。我们就把音频信息、场景信息以及人和场景怎么去交互,彼此时空的关联做了很多的探索,相当于多模态的探索。
最典型的是将二维的卷积变成三维,相当于做卷积时不只有时间还有空间信息。2015年计算机视觉领域具有代表性的一个工作,就是在二维卷积上加上时空卷积,性能得到了巨大的提升。但是它的缺点是计算量非常大,因为既要提取时间信息也要提取空间信息、尺度信息等。这些信息导致在有限的16G、8G显卡上计算起来特别慢。
因此随着算力的提升,近两年出现了引用次数非常高、被命名为SlowFast的网络。它模拟人类的神经系统,既可以捕获慢的动作——就是持续时间非常长的动作,还可以捕获空间动作等。这样得到非常好的效果,是目前非常主流的一个方法即多尺度、高效时空建模的重要方向。随着SlowFast系列的扩展,将时空结构做了很多的分拆,把相邻信息、时空信息融合再设计一些新的3D卷积结构,有效地实现算法性能的提升。
在稠密图像里实现快速算法是一种高效的行为识别。这需要设计更轻量化的深度学习模型,迅速地在检测和识别各种动作。这也是现在高效识别的发展趋势,而且要把这种模型做得轻量化,更加低碳环保。
使用Transformer模型已经成为2021年具有代表性的发展趋势。但是它的缺点是对算力的要求太高。如AI模型GPT-3训练约256天,仅电费就花费约480万美元。深度学习技术已经变成数据和算力的新竞争。人脑只有约20瓦的功耗,但算起来非常快。因此整个视觉的行为理解与人脑理解之间,其实仍有很大的差别。现在引入了很多自注意力的attention的机制,就是希望神经元能被激活,以激活一些研发者感兴趣的区域。而这种情况下,就会降低行为识别模型的一些参数,这也是现在一个重要的发展趋势。
这种行为识别仍以监督方式为主。当前中国的大部分人工智能产业都是亏钱的,但做数据标注的公司都是赚钱的,标注的人力成本还是挺高的。
自监督学习与垮域
人工智能其实是数据的智能,是由人标注的数据产生的智能。而现在已经慢慢转化到机器的自监督学习。目前直播等各种方式产生的视频数据非常丰富。在此背景下研究人员都在探索,让数据自动学习特征的表征。这种预训练的模型也是发展趋势之一,但更依赖于算力,这也是今年出现的一个非常典型的成果。通过海量的无监督数据做出预训练的模型,并且只需要现在的10%或十个样本就可以做到目前开放数据83.8%的精度。
另外从公开的数据集来看,整个数据的精度还不是特别高。二维和三维模型最好的效果也只能达到70%左右,而且是基于比较简单的数据集之上。多标签数据集的精度只能达到60%左右。因此未来的发展空间非常大,研究者们都在不断地加大模型的参数量。同时把更多的信息耦合起来,再用海量的无标签数据做一些预训练的模型。
从未来发展角度来讲,应用场景其实非常多。体育训练、军训考核、舞蹈等都开始使用AI行为识别。包括明年冬奥会在内的很多体育节目,都是靠这种AI和人工联合的研判方式。在特定场景与限定条件下,AI在行为分析上会做得很好。
此外,物理和化学实验考核、医疗操作、银行收费、安防、能源等应用场景,都需要用这种AI的辅助手段来防止错误。尤其是在养老场景中的健康行为管理机器人,对它的要求还是很高的。对行为的理解需要上下文的知识,在零售场景中目前用得最多。零售场景加上行为识别和分析,对整个销售额的提升大约为3%到5%。
目前视频行为识别的数据集也非常大,最大的数据集有八百万个视频。我们如果要做一个模型的训练,不仅特别浪费GPU的算力,而且评测的难度会越来越大,因此要提升性能、将效果做好也越来越难。未来要依靠自监督的学习,这是重要的发展趋势。同时还要把模型做成轻量化,被称之为“跨域”即不同的场景、不同的角度等都要做好。
这种跨域场景有强烈的适应能力,此外还要更好地利用噪音数据。因为不可能所有数据都标得那么好,噪音数据下如何学习这种行为很强的表征形式是热点之一。另外,多模态信息的融合也是重要方向,如何让模型不那么大、能在手机上跑起来及降低功耗也是重点,我们还可以在边缘的计算芯片上做得更好。
视频行为识别经历了二维卷积到三维卷积、从CN到Transformer的变化, 正不断朝着大数据、大网络、多模态的方向发展,其精度也在不断地提升。视频行为识别在很多领域都具有广泛的应用前景,目前主要聚焦自监督学习、海量视频行为数据的自监督学习、时空特征表示及跨域行为的自动识别。模型的轻量化已经成为一个重要的新趋势。
此外,新的应用场景已经从原来的目标和场景的识别,逐步过渡到对视频的行为关系,人和人之间的情绪、表情等复杂内容的理解,整个研究处于高速的发展阶段。
![]() |
版权:《高科技与产业化》编辑部版权所有 京ICP备12041800号 地址:北京市海淀区中关村北四环西路33号 邮编:100080 联系电话:(010)82626611-6618 传真:(010)82627674 联系邮箱:hitech@mail.las.ac.cn |