对HEVC压缩的监控视频的隐私保护运动检测 - 网安 - 专业的网络安全产业、社区、知识平台

针对隐私保护的监控视频上的运动检测问题，目前已有的工作无法在通用HEVC视频压缩标准上起到较好的检测效果。为了解决这个问题，我们通过观察视频中运动物体的运动矢量差（MVD）变化，利用帧间预测参考关系和运动物体的时空相关性等，实现了一种针对选择性加密后HEVC视频的运动检测方法。此运动检测方法在多种场景的监控视频中均实现了较高的检测精度，并且计算的时间复杂度很低。

该成果“Privacy-Preserving Motion Detection for HEVC-Compressed Surveillance Video”发表在SCI期刊ACM TOMM上（ACM Transactions on Multimedia Computing Communications and Applications, Vol. 18, No. 1, pp. 1–27 , Jan. 2022）。ACM TOMM是多媒体计算领域的顶级期刊之一，为CCF推荐的B类期刊。

论文链接：
https://dl.acm.org/doi/10.1145/3472669

背景与动机

在云计算时代，大量数据被上传到公共云端进行存储和处理，由此带来的隐私泄露问题也成为云用户最大的担忧之一。为了解决隐私问题，需对敏感数据进行加密，规定只有加密后的数据才能上传到云，但这样若没有解密密钥，人们就无法从上传的加密数据中挖掘出有效信息。

监控视频也常常通过云来存储、处理和访问。视频监控的常见任务之一是检测正在运动的物体及其轨迹，即运动检测。传统的检测方法需以明文的形式访问视频数据，但这样容易泄露视频中实体的身份，使好奇第三方推断出视频中描述的位置、时间和活动，造成严重的隐私泄露问题。因此，保护视频的隐私在正常运动检测的过程中不受侵犯是非常必要的，即既要保护隐私又要能进行运动检测。

传统明文视频的运动检测方法通常难以直接应用于加密后的视频。对于用视频压缩标准压缩后再加密的视频，需要在加密后的语法元素（运动矢量（MV）、预测模式、块分区、编码位数等）上检测运动物体，这有一定的挑战性。现有的采用选择性加密的H.264视频中的运动检测方法假设快速运动区域的MVD有较大的绝对值，但这个假设并不准确，因为一个块可能与其参考块处于相似的快速运动中，而此时MVD的绝对值较小。因此该方法应用于HEVC压缩标准时，会产生许多假阴性。

我们观察到利用编码块之间的帧间预测参考关系可以推测一些块的运动状态。从中受到启发，我们利用帧间预测参考关系和现有压缩域检测方法中使用的传统信息来检测每一帧的运动区域，依靠时空相关性来确定运动物体，去除检测噪声，区分运动物体与背景运动，并用卡尔曼滤波优化运动轨迹，最终实现了一种更精确的隐私保护运动检测方法。

设计与实现

我们在用选择性加密算法来加密的HEVC视频上设计实现运动检测方法，包括三个主要步骤，如下图1所示。

图1 对加密的HEVC视频进行运动检测的主要步骤

1）运动区域检测

1. 首先从加密视频中提取编码信息。这些信息包含预测块PB的帧间预测信息、每个编码树块CTB中编码块的数量以及每个编码树单元（CTU）的编码位数。

2. 确定预测块PB的运动状态。在HEVC的2种模式中，选择性加密不对MVD前缀、Merge_flag和候选参考块中的MVP（Motion Vector Predictor）索引加密，结合这些信息可推测PB的运动状态。算法1是确定PB的运动状态及其MVD标志的算法。

Merge和AMVP模式都会从相邻的块编译一个候选运动矢量的列表来获得参考块，该列表可能会因为加密而损坏，我们通过检查运动状态的链式导数关系中的候选块的祖先来解决。若两个候选对象在Merge模式中链接到相同的祖先，则它们在构建候选列表时有相同的MV值，保留一个候选即可。图2显示了当前PB及其相邻块之间的参考关系，箭头表示运动状态的导数关系。

图2 当前PB及其邻近块的参考关系的示例

2. 确定检测块DB的运动状态。DB的运动状态由其包含的PB推导。块的分区模式与编码位数在加密后仍保持不变，可以用来更新DB的运动状态。算法2是用编码位数和DB的分区模式来更新DB的运动状态的方法。

3. 优化DB的运动状态。完成算法2之后，许多DB的运动状态被错误地标记。我们用空间一致性和局部时间一致性来优化当前帧中DB的运动状态。优化的过程是不断迭代，直到所有DB都不再更改其运动状态。

完成上述所有步骤后，一帧中相邻的运动DB都被分为运动区域（motion region），这些运动区域将进一步进行优化和处理。

2）跟踪运动物体

上一步完成后，需要跟踪跨帧的运动物体并确定其轨迹，过程如下：

1. 跨帧跟踪运动区域。假设在第k帧中有n个运动区域，且表示为R_k,1，R_k,2，…，R_k,n，对于帧中的每个运动区域R_k,i，我们逐帧检查之前的p帧中是否有重叠的运动区域。若没有找到重叠区域，则检查之前的p帧中的 R_k,i附近是否有运动区域。若有一个运动区域R_k-j,m（1≤j≤p）与R_k,i重叠或在其附近，则计算面积比R_k,i/R_k-j,m，若满足1/T_ratio<R_k,i/R_k-j,m<T_ratio，则认为R_k,i和R_k-j,m是同一运动物体。若没有满足上述条件的运动区域，则R_k,i为视频中新出现的运动物体。若有多个运动区域满足上述条件，则选择时空域中最接近或重叠最大的一个。

2. 分割相连/合并的运动区域。若某一帧中两个运动物体的位置非常接近，它们的运动区域可能会被合并，此时在该帧中只能检测到单个运动区域，会有下面三种情况：

两个运动物体从分开到彼此靠近；
两个运动物体从彼此靠近到彼此远离；
前两种情况的综合：两个运动物体从分开到彼此靠近再到彼此远离。

利用运动物体的运动连续性和形状一致性，我们在物体运动区域合并之前或之后跟踪每个运动物体，估计它们的进出速度和形状，通过不同的特征将合并的运动区域分割成单独的运动区域。我们将上述方法结合运动物体进入合并区域前或离开合并区域后的相对位置来完成分割。

3. 消除有噪声的检测结果。运动区域被划分为不同的运动物体之后，计算每个运动物体的持续时间，将时间小于阈值的运动物体视为噪声并消除。然后计算每个检测到的运动物体的缺失率和形状变化，若两者中的任何一个高于阈值，则将检测到的运动物体视为噪声并消除。

4. 用卡尔曼滤波优化轨迹。首先计算在每一帧中检测到的运动区域的质心。将质心连起来即为一个运动物体的初步轨迹，然后两次使用卡尔曼滤波来优化运动轨迹。第一次卡尔曼滤波去除初步轨迹中的异常值，第二次卡尔曼滤波消除第一次卡尔曼滤波输出的噪声，最终产生更平滑的轨迹。

5. 消除背景运动。经过卡尔曼滤波后，得到运动物体优化后的轨迹，通过轨迹的形状可以确定是背景运动还是前景运动。背景运动的轨迹仅围绕于某个位置，且整条轨迹位移较小，而前景运动通常有一致的运动方向并有较大的位移。我们利用前景运动和背景运动之间的明显差异即可确定并去除背景运动。

3）优化运动物体的形状

我们利用上一步获得的优化轨迹优化检测到的运动物体的形状，先计算检测到的运动物体的形状的质心，并沿着运动物体的优化轨迹来对齐质心的位置。然后用一个以当前帧为中心的q个帧的滑动窗口来计算在滑窗中检测到的运动物体的形状的移动平均值。设定移动平均值的阈值，并计算阈值的边界框，将边界框的质心与优化轨迹对齐，对齐后的用了阈值的移动平均值即为当前帧中运动物体优化后的形状。

实验评估

我们在数据集CAVIAR、OTCBVS、LIMU、VIRAT和CDW-2012中的视频序列上进行了测试，实验验证我们的检测方法实现了较高的检测精度和速度。

首先我们对比了我们的方案与已有在加密H.264视频上实现的检测方案的性能。我们分别在高分辨率和低分辨率视频上进行了检测，结果表明在低分辨率视频上我们的方案取得了和已有H.264方案相似的高检测性能。而在高分辨率视频上，我们实现了更高的精度，准确率和召回率（如表3所示）。

表3 在加密的HEVC高分辨率序列上和低分辨率序列上的检测精度

我们还测试了在CDW-2012的四个baseline视频序列上的像素级检测精度，如表4。

表4 在加密的HEVC的CDW-2012中的baseline序列上的像素级检测精度

与基于边界框的检测精度相比，像素级检测精度有明显降低，其原因与静止的前景对象、物体的影子和检测的粒度等有关。

我们同样进行了关于时间复杂度的实验，表5是对不同分辨率测试序列的检测时间和速度。实验表明我们方案的时间复杂度远低于像素域中的检测方法。

表5 检测时间和速度

详细内容请参见：

Changming Liu，Xiaojing Ma, Sixing Cao, Jiayun Fu, and Bin B. Zhu, Privacy-Preserving Motion Detection for HEVC-Compressed Surveillance Video, ACM Transactions on Multimedia Computing Communications and Applications，Vol 18, No 1, Jan. 2022, pp. 1-27. https://doi.org/10.1145/3472669.