安防-暗知识：机器认知如何颠覆商业和社会在线阅读

语速55: 80

进度0:

安防

AI在打击恐怖分子、罪犯，预测突发情况，管理密集人群等方面开始发挥较大效用。图像识别技术开始让城市管理系统实现目标检测（车牌识别）、人脸识别（属性提取）、目标分类（车、行人）等功能。主要用在运动目标检测、周边入侵防范、目标识别、车辆检测、人流统计等方面。

图像和视频识别可以分为下列几大类应用。

（1）人脸识别及统计（包括唇语识别）。

（2）虹膜／指纹识别。

（3）表情识别-测谎仪。

（4）物体识别及动作顺序。

（5）网络特定类图片监控。

（6）第四类步态识别。

第一类图像识别是人脸识别。全世界人脸识别最大的市场是中国，人脸识别在中国已经被广泛应用于手机支付、ATM机、门禁、打卡、海关、车（机）票、交通违规监测、安全监控等。人脸识别甚至开始应用于快餐店，利用老客户的点餐习惯加快点餐速度。人脸识别还可以用于寻找早年被拐卖的儿童。中国各地目前有大约1.8亿个摄像头，到2020年将增加到4.5亿个，平均每三个人一个摄像头。中国已经建成了世界上最大的视频监控网“中国天网”，利用人工智能和大数据进行警务预测。2017年4月，深圳已经开始利用人脸识别技术来识别乱穿马路的行人。2016年，中国安防行业市场规模已经达到5 400亿元，同比增长9%。预计未来几年，中国安防行业市场规模将从2015年的近5 000亿元增长到2020年的8 759亿元，年增长率在11%以上。

人脸识别的主要任务有两类：一类是在一组未知的图像中找出是否有某个人；另一类是判断一张图像是否为某个特定的人。传统的自动图像识别分为以下几步。

（1）先用一组事先定义的人脸特征把将要识别的人脸进行分类，每个人脸都表现为特征集中的一组参数。

（2）在图像中首先识别有没有人脸，如果有，再识别在图像中的什么位置。

（3）提取图像中每个人脸的特征，将这些特征和已经存在于数据库的各个人脸特征参数进行比较，找到相似度最高的人脸。

而深度学习放弃了使用事先定义好的人脸特征集，而是用已知人脸图像去训练模型。目前，在图像识别中主要使用CNN，不论是什么样的应用，都是先有一组已经标注的训练图像，用这组训练图像将CNN训练好以后，用CNN来识别未知的图像。比较简单的应用是个人图像认证，例如手机刷脸密码。这种应用的图像清晰（基本都是对着镜头的大头照），而且只需要识别是否为某一个人，训练集只是一个人的不同照片。第二类是门禁、打卡、车票等系统类，需要识别出摄像头前是存在数据库里的一群人中的哪一位。这两类应用都是被识别人“希望被认出来”，所以问题相对简单。比较困难的是“不希望被认出来”的情形，例如，在公共场合的摄像头里监控是否有某一群人中的一个或几个出现。

挑战在于摄像头的分辨率有限，被摄影人离镜头的距离太远，光线和朝向、姿势都有许多变化，更别提如果化妆或者整形的情况了。假设摄像头的分辨率为1 920×1 080（高清电视），可靠地识别一个人脸需要分辨率不低于100×100。根据不同的景深和画幅，当人脸和摄像头距离10~20米时，人脸识别的可靠性就会大幅下降。另外摄像头的安装位置都远远高于人脸，当人离摄像头太近时，头顶会遮挡人脸。总体来说在一个公共场合，例如商场或广场角落的摄像头想要准确识别人流中是否有记录在案的人是一件非常有挑战性的事。指纹识别和虹膜识别的原理都和人脸识别类似，但细节不同。

目前公共场合图像和视频监控的一个技术发展方向是把识别能力和摄像头放在一起。设想一个大城市有上百万个摄像头，如果每个摄像头按照每秒64k比特速率向云端传送，每天就会产生上千TB的数据，无论是处理还是储存成本都非常高。更重要的是从监控特定人群的角度来看，这些数据绝大部分都是无用数据。如果识别能力放在摄像头端，那么只有当发现疑似目标时才会上传数据。这种摄像头端的识别可以用高速CPU和GPU来做，但价格太高。假设一个监控点的整个成本为1万元人民币（包括摄像头、拉电源、拉网线、安装费用），识别芯片的成本不应该超过2 000元人民币。而且耗电不能太高，因为户外环境不容易安装散热设备。目前的解决方案主要是FPGA（现场可编程门阵列），但当算法稳定和标准形成后，长远解决方案一定是低功耗、低成本的专用芯片。设计生产这种芯片的可以是芯片设计厂商，但更有优势的是那些已经大量生产和部署摄像头的公司。

人脸识别中还包括表情识别和唇语识别。用表情识别来测谎可能比心电图更准确。由于表情的定义本身比较模糊，分类也很有挑战，所以很难另外取得被测者的标注数据。唇语识别是一项集机器视觉与自然语言处理于一体的技术，即通过人的口型变化推测说了什么话。早在2003年，英特尔便开发了“视听说识别系统”软件，供开发者研制能读懂“唇语”的计算机。2016年，谷歌DeepMind英文唇语识别系统便已经可以支持17500个词了，新闻测试集识别准确率达50% 以上。目前口型识别的准确率能够达到约60%。2017年12月，搜狗推出了中文版的唇语识别，可以直接从有人讲话的视频中，通过识别说话人的唇部动作，来解读说话者所说的内容。通过端到端深度神经网络技术进行中文唇语序列建模，经过数千小时的真实唇语数据训练，打造了一个“唇语模型”，在非特定人开放口语测试集上，该系统达到60% 以上的准确率，在垂直场景命令集例如车载、智能家居等场景下甚至已经达到90% 的准确率。（见图5.23）。

第二类图像识别是物体识别和统计。例如在卫星照片中识别地面有多少架飞机、分别是什么型号，地铁站每天有多少乘客，商场有多少特定类型的顾客（例如年轻女性）等。有挑战的是在视频中识别一个物体的某个部位的连续动作，例如识别一个挖掘机铲斗在一个时间段里挖掘了多少斗矿石。

唇语识别技术原理

图5.23 唇语识别技术原理图片来源 : 搜狗。

第三类图像识别是识别出网络中上传的图像或视频是否违规，例如黄色图片。这种应用也相当有挑战性，原因之一是被识别类别不容易清晰界定（比如到底什么算黄色），原因之二是训练集可能会非常大，使训练和识别的成本都非常高。

第四类图像识别是步态识别，中国科学院研究出了一种新兴的生物特征识别技术——步态识别。该技术只看走路的姿态，在50米内，眨两下眼睛的时间，摄像头就能准确辨识出特定对象，即使遮挡了面部也有效。虹膜识别通常需要目标在30厘米以内，人脸识别需在5米以内，而步态识别在超高清摄像头下，识别距离可达50米，识别速度在200毫秒以内。此外，步态识别无须识别对象主动配合，即便一个人在几十米外戴着面具背对普通监控摄像头随意走动，步态识别算法也可以对其进行身份判断。步态识别还能完成超大范围人群密度测算，能够对100米外或者1 000平方米内的上千人进行实时计数。这些技术能广泛应用于安防、公共交通、商业等场景。