ASQuery:基于Query的时序动作分割新架构


☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

asquery:基于query的时序动作分割新架构

1. 前言

北京邮电大学与EVOL创新团队和ACG工业算法组针对时序动作分割任务共同提出了基于query新架构的模型ASQuery。ASQuery包含了动作及边界两种query,利用动作query将原先的帧维度分类过程转化为query与视频帧的相似度计算过程,提高了分类精度;利用边界query预测动作的边界,进一步平滑了原先的预测结果,大大缓解了过分割现象。论文ASQuery: A Query-based Model for Action Segmentation 已被ICME2025接收。论文地址:https://www.php.cn/link/1e4dc58a5c8c8908a4d317d6ef44a4d0。

2. 背景和动机

现有的时序动作分割模型通常将该任务建模为帧级别的分类问题,通用范式为先建模视觉的时序信息,提取到具有较强表征能力的视觉帧特征,然后使用分类器对每帧进行判断。在这种范式中,每个视频帧的最后预测结果严重依赖于分类器,但其权重在训练完毕后已固定,因此在推理的时候存在灵活性。其次,当前方法通常存在过分割现象,为了解决该问题,MS-TCN和ASFormer使用多层优化网络来平滑网络的预测结果,但是这些边界分割支和分类分支是独立训练的,难以实现联合优化。这些问题导致模型的预测结果准确率低且平滑性差,严重影响了算法的实际应用。

ASQuery:基于Query的时序动作分割新架构

图1 ASQuery与其它算法的框架对比

为了解决上述问题,我们提出了一种基于query的时序动作分割算法,称为ASQuery。相比于之前的算法,我们的算法将帧维度的分割问题转化为动作query与视频帧特征的相似度计算问题。每类动作的语义中心由一个query表示,并通过Transformer解码器模块进行动态更新,因此它们能够更加灵活且综合地感知整个视频的特征。对于过分割问题,我们提出边界query的概念,它与动作query一起训练进行联合优化。边界query通过与帧特征求相似度得到动作边界的分布,利用该边界可以进一步调整动作类别预测的结果,从而得到更加平滑的预测。通过与帧特征求相似度得到动作边界的分布,利用该边界可以进一步调整动作类别预测的结果,从而得到更加平滑的预测。

2. 方法

ASQuery的模型结构如图所示,它主要包含三个模块。首先是特征提取模块,它由一个backbone和neck组成,主要用于聚合与增强多层级视频特征;其次是Transformer解码器模块,用于更新动作及边界query;最后是分割模块,用于得到动作及边界分数,以及获得最终的预测结果。

ASQuery:基于Query的时序动作分割新架构

特征提取模块的输入为经过预处理的视频特征,输出为多尺度增强的特征。构建Backbone时,ASQuery首先使用了几层浅层的卷积网络,起到聚合局部信息并稳定后续Transformer网络训练的作用。随后ASQuery使用了加窗形式的Transformer网络,每次自注意力计算仅对窗口内部的视频帧进行建模,并通过滑动窗口的方式覆盖所有的视频帧,以此实现时间感受野与计算效率的平衡。对于Neck网络,ASQuery采用最简单的1D特征金字塔网络来进一步增强特征。

Transformer解码器模块输入为随机初始化的动作、边界query以及多尺度视频特征,输出为更新后的动作与边界query。ASQuery使用标准的Transformer解码器,其包含若干层Transformer解码层,每层包含多个Transformer解码块。这些解码块与Neck的输出特征一一对应,解码块将动作和边界query作为Query,将视频特征作为Key和Value。每个解码块内部,包含了一层自注意力层与一层互注意力层。在自注意力层中,动作query与边界query进行交互,使得每个query都感知了所有动作类别及动作边界的语义信息,因此可以提升其表征能力。在互注意力层中,动作与边界query与所有视频帧特征进行交互,帮助其对整个视频的特征进行综合感知。训练后,解码器输出的动作及边界query能够有效表征动作类别及边界信息。

分割模块使用包含两层隐藏层的MLP将动作及边界query映射为对应embedding,随后通过将embedding与视频特征进行点积,并通过sigmoid函数将其变换至0-1区间,由此得到动作及边界分数。最后结合类别预测与边界预测结果得到最终分割结果。

损失函数分为两部分,第一部分为动作类别损失,包含了视频帧分类的focal loss以及动作mask的dice loss。第二部分为边界预测损失,使用的是二进制交叉熵损失。边界的标签ASQuery:基于Query的时序动作分割新架构为以动作边界帧为中心,呈高斯分布。

ASQuery:基于Query的时序动作分割新架构

3. 实验结果

华友协同办公自动化OA系统 华友协同办公自动化OA系统

华友协同办公管理系统(华友OA),基于微软最新的.net 2.0平台和SQL Server数据库,集成强大的Ajax技术,采用多层分布式架构,实现统一办公平台,功能强大、价格便宜,是适用于企事业单位的通用型网络协同办公系统。 系统秉承协同办公的思想,集成即时通讯、日记管理、通知管理、邮件管理、新闻、考勤管理、短信管理、个人文件柜、日程安排、工作计划、工作日清、通讯录、公文流转、论坛、在线调查、

华友协同办公自动化OA系统 0 查看详情 华友协同办公自动化OA系统

ASQuery在时序动作分割任务的常用数据集Breakfast和Assembly101上取得了SOTA的结果。ASQuery还通过消融实验验证了动作及边界query的有效性。

ASQuery:基于Query的时序动作分割新架构

ASQuery:基于Query的时序动作分割新架构

通过下图的可视化结果可以看到预测的边界对于平滑预测的有效性。

ASQuery:基于Query的时序动作分割新架构

3. 总结

ASQuery提出基于Query架构的时序动作分割新架构,其提出的动作query可以实现更高精度的分类效果,边界query可以达到更好的预测平滑度。如何将query架构中的其它技术如匈牙利匹配等引入时序动作分割任务,进一步提升模型效果,是我们后面的探索方向。

作者介绍:

淦子良: 北京邮电大学博士研究生,研究方向为人体行为理解,发表了多篇SCI及EI论文。

金磊:北京邮电大学特聘副研究员,博士生导师,研究方向为人体感知理解、具身智能,现有工作聚焦于基于计算机视觉的人体姿态估计、人体解析、行为理解等,相关成果发表在CVPR/AAAI/ACMMM/TMM等CCF-A类和中科院一区期刊会议10余篇,主持一项国家自然基金青年基金,参与两项国家重点研发项目以及四项国家自然基金面上项目。多次依托国内及国际会议组织ICCV2025/CVPR2025/FG2025/PRCV2025研讨会。

赵健:中国电信人工智能研究院多媒体认知学习实验室(EVOL Lab)负责人、青年科学家,西北工业大学光电与智能研究院研究员、博导,博士毕业于新加坡国立大学,研究兴趣包括多媒体分析、临地安防、具身智能。

共发表CCF-A类论文50余篇,含一作T-PAMI×2(IF: 24.314)、IJCV×3(IF: 13.369),第一发明人授权国家发明专利5项。相关技术成果在百度、蚂蚁金服、奇虎360等6个科技行业领军企业得到应用,产生了显著效益。曾入选中国科协及北京市科协“青年人才托举工程”,主持国自然青年科学基金等项目6项。曾获吴文俊人工智能优秀青年奖(2025)、吴文俊人工智能自然科学奖一等奖(2/5,2025)、新加坡模式识别与机器智能协会(PREMIA)Lee Hwee Kuan奖、ACM Multimedia唯一最佳学生论文奖(一作,1/208,CCF-A类会议,2018),7次在国际重要科技赛事中夺冠。

担任北京图象图形学学会理事,国际知名期刊《Artificial Intelligence Advances》、《IET Computer Vision》编委,《Pattern Recognition Letters》、《Electronics》特刊客座编辑,VALSE资深领域主席,ACM Multimedia 2025分论坛主席,CICAI 2025/2025领域主席,CCBR 2025论坛主席,中国人工智能学会/中国图象图形学学会高级会员,“挑战杯”大学生科技作品竞赛评委,中国人工智能大赛专家委委员等。

GitHub主页:https://zhaoj9014.github.io

学院主页:https://iopen.nwpu.edu.cn/info/1252/4626.htm

以上就是ASQuery:基于Query的时序动作分割新架构的详细内容,更多请关注其它相关文章!


# 中国科协  # 济源专业seo优化价格  # IM营销与推广案例  # 开业如何推广营销活动  # 高校审稿网站建设  # 品牌网站建设培训学习班  # 桂园网站优化成功案例  # 河源网站建设设计定做  # 丹东seo优化方法  # 建设网站设计图形  # 渭南网站建设结论  # 转化为  # 理论  # 梦中  # 提出了  # 太平洋  # 新加坡  # 丰田  # 中国  # 办公自动化  # 北京  # follow  # git 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: AI行业盛会大咖云集!Sam Altam、“AI教父”......一文看懂最新观点  微软bing聊天推出AI购物工具 可进行比价并查看历史最低价  套娃不可取:研究人员证实用AI生成的结果训练AI将导致模型退化  华为云发布华为云盘古模型3.0和升腾AI云服务,亮点亮相2025华为开发者大会  独家视角:首次展示有人与无人协同打击的7000米高空察打一体无人机  AI立法迫在眉睫,如何看对行业影响?  2025世界人工智能大会成功召开  借力AI!PCB全球巨头,有爆发潜质吗?  大型无人机FH-98国内首次夜航转场成功  Meta 推出 Quest 超级分辨率技术,让 VR 画面更清晰  500元一张的AI艺术二维码制作,详细教程来了!  AI拉动PCB发展|行业发现  世界人工智能大会高合发表演讲,HiPhi Y即将全球上市  奥比中光子公司和斯坦德机器人深度合作,共同推进新一代激光雷达的研发  抖音在Android平台获得VR|直播|软件著作权  华为大模型登Nature正刊!审稿人:让人们重新审视预报模型的未来  新华三集团总裁兼首席执行官于英涛:人工智能时代需要想象力,更需要精耕务实  阿里达摩院向公众免费开放100项AI专利许可  飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办  2025世界人工智能大会前沿科技共绘“未来”图景, 这家这家独角兽企业的通用大脑将在AI领域大放异彩  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  人才智能平台转型中的人工智能的关键角色  “世界人工智能之都”的新烦恼:AI热潮无法拉动大量就业  先进技术在防止全球数据丢失方面的作用  洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!  放弃自动驾驶,也是一种和解  一文看懂基础模型的定义和工作原理  Valve 将拒绝采用 AI 生成未知版权内容的游戏上架 Steam  学而思推出AI第一课:基于自研大模型的AIGC课程  小艺主导智慧交互升级,借助AI大模型增强能力  NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打  大脚攀爬者车主福利!无人机、运动相机大奖等你来挑战  AI和ML推动联网设备的增长  网易数帆以AI融合创新引领数据分析与软件开发新趋势  精准度可提高 20%:英国九家银行签约使用基于 AI 的“消费者欺诈风险系统”应对*  Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%  DreamAvatar数字人在哪里下载  传Meta 2025年推出首款AR眼镜,采用军用级别材料,计划生产1000台  AI新风口?首个高质量「文生视频」模型Zeroscope引发开源大战:最低8G显存可跑  如何用户外电源给无人机实现持久续航  AI教父Bengio:我感到迷失,对AI担忧已成「精神内耗」!  即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%  读创正式上线“读创AI聊”功能  华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余  深度学习模型综述:用于3D MRI和CT扫描的应用  财联社首档运用虚拟人技术播报栏目《AI半小时》今晚上线!敬请期待  【机智云物联网低功耗转接板】远程环境数据采集探索  ChatGPT 可以设计机器人吗?  AI大模型产品集体奔赴高考考场,教育赛道的讯飞星火能赢吗?  曝索尼在开发新头显设备:游戏中使用AR技术 

 2024-06-03

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.