ACM MM 2025

日期:2025-07-24 10:54 浏览:

来自北京大学和Tsinghua大学的研究团队共同发布了一项活动,该活动的中心为低成本和出色的培训免费视频异常检测框架框架,ACM MM 2025。该项目的负责人是JD.com的算法研究人员MA AO。代码和数据当前是完全打开的资源。在现有的视频检测异常方法(VAD)中,有一个管理的程序依赖大量现场训练数据,并且具有脆弱的功能,可以注意到无形的异常场景;尽管不需要培训的过程使用了对大语言模型(LLMS)世界的知识,但它存在诸如Pinong Geraine视觉定位,事件的误解和冗余模型之类的问题。直到今天,北京大学,Tsinghua大学和JD.com的一个研究团队建议新的Outli发现视频异常的NE -EventVad。该框架将图形的动态体系结构与事件结合在一起,以保存多模式大型模型(MLLMS),从而显着提高了异常发现的准确性和效率,同时降低了模型参数。实验结果表明,EventVad不仅仅是UCF-Crime和XD数据集中的现有SOTA方法,并且在训练方案中成为新的基准,而无需进行培训。 Paper Title: Eventvad: Training-Free Event-Award Video Anomaly Detection Paper Link: https://arxiv.org/abs/2504.13092 Code Open Source: httpS: //github.com/yihuajerry/eventvad Research Background and Motivation Video Anomaly Detection (VAD) Core goal is to accurately locate abnormal frames in video, but the existing methods have significant limits: the管理方法依赖于慷慨;即使使用单层或非监控方法,也很难获得完美的性能缺乏有效的标签。 LAVAD代表的程序不需要训练以通过视觉问答模型和LLMS标记实现异常定位,但是有两个主要问题:一个依赖于LLM至少具有130亿个参数,从而导致该图的无力;其余的缺乏这种视频时间安排的能力,并且很难同时研究长时间的视频,这很容易出现不当行为和长时间的尾巴问题。研究小组发现,训练方法的主要瓶颈是无法完全找到异常的视频事件,从而导致随后的LLM分数偏见。如上图所示,受到这一点的启发,EventVad通过在事件的短段中分离长视频来增强对视频时间一致性的理解,同时引入动态图形模型以获得框架间关联,最终通过降低的参数实现了更高的精度。 EventVad关键创新EventVAD的LL概述由四个主要模式组成:动态图构造,图形传播,统计边界检测和事件中心异常评分的事件知识。通过此过程,通过在准确定位异常框架方面获得视频框架功能来发现端到端训练。动态图形图旨在捕获视频时间的动态特征,EventVad生成了一个动态图模型,该模型包含语义和运动信息。通过平衡融合系数的两个特征(α= 0.75),增强了夹子的语义特征(512维)和光流动运动的特征(128维)。框架间的组织是通过语义均匀性(余弦距离)和运动(指数距离)和一个小时的衰减因子(γ)来计算的姿态框架组织,突出显示事件在短时间内的连贯性。图形注意力的传播是优化帧级特征并保持时机的一致性,EventVad正在设计基于正交屏障的图形注意机制。正交查询(q),键(k)和值(v)矩阵由QR变性形成,以防止特征大小下降。基于动态图的相邻矩阵计算注意力的重量,通过迭代传播更新节点特征,并增强事件边界的差异。统计边界检测可准确分段视频事件边界,EventVad采用了统计上统计上的噪声。在piincluded-各种差异 - 不同的差异中,事件变化的发现是通过合并L2标准(EIGENA振幅跳跃)和Kosine距离(变化方向)获得的。通过过滤SAVI计算信号比(全球平均比率局部)Tzky-Golalay和动态阈值是根据中值绝对偏差(MAD)设置的,以实现事件边界的无薪发现。活动中心的排除标记是提高理解MLLMS视频的效率,EventVad提出了一种层次及时的方法。在MLLM中输入事件片段段,开发视频内容的描述,然后根据描述输出异常标记以生成“自我纠正”机制。与传统评论框架级别或全球处理相比,事件级别的分析平衡了上下文的上下文并具有诚实,从而减少了长期视频审查错误的传播。实验验证研究团队对两个基准测试的UCF-Crime和XD-Violence数据集进行了全面评估,结果表明,其性能明显优于现有方法。在UCF-Crime数据集中的事件结果可实现82.03%的AUCIllion参数超过了130亿个参数(增加了几乎4%),而比所有非支持的单级给药方法更好,甚至超过了某些脆弱的给药方法。结果XD-Violence数据集的结果是XD-Violence数据集的结果,AP指标和AUC都比没有OTA(LAVAD)方法高约5%的现有练习更好,在高分辨率方案中证明了灵活性。图表的视觉检查如下所示。在UCF-Crime数据集中选择异常和普通视频样本,以描述传播应用程序图之前和之后的框架间关系。热图显示了相应框架间隙内帧之间的重量关系的变化。统计边界检测的视觉评估如下。以UCF-Crime数据集中的样本为例,发现异常视频边界的过程和普通视频已被可视化。在UCF-CR消融实验和XD-Violence数据集中的正常样品和异常样品的可视化。 Lavad未能正确看到例外的例子已经存在。下图显示了事件分割的结果和多模式大语言(MLLM)标记的异常标记,并与真实标签进行了比较。摘要和Outlook EventVad是免费视频异常视频的第一个培训模型,它将维护从框架级别到整个事件级别的现场演变。它提供了一个完整的基础,以增强事件的特征,划分和排除标记,以防止检测现实异常,从而大大降低了手动注释的成本和重新培训的开销。将来,随着每周的视频理解模型,范式异常的范式异常(如EventVad)将为视频提供基础。我们期待MOR的出现E创新算法基于EventVad,以加速视频级别异常的发展。

0
首页
电话
短信
联系