首页 > 营销学院 > IT资讯

年末惊喜！ByteDance Research视频理解大模型「眼镜猴」正式发布

字节跳动研究团队的视频理解大模型tarsier迎来了重大升级，推出了第二代模型tarsier2及其技术报告。此前发布的tarsier-7b/34b已成为最强大的开源视频描述模型，仅次于闭源模型gemini-1.5-pro和gpt-4o。那么，tarsier2又有哪些突破呢？

让我们先看看Tarsier2对经典*片段的理解：

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

《燕子，没有你我怎么活》

《曹操盖饭》

Tarsier2不仅精准捕捉人物动作（例如小岳岳追车、下跪，曹操的挥舞动作），还巧妙结合字幕信息，深入分析人物动机、心理，理解人物关系和剧情发展。

Tarsier2 视频描述效果合集

Tarsier2在视频描述任务上的表现同样出色，无论是真人还是动画、横屏还是竖屏、多场景还是多镜头，都能精准捕捉核心视觉元素和动态事件，并用简洁的语言进行描述，且很少出现幻觉。其性能已可与GPT-4o媲美。

Tarsier2的“火眼金睛”是如何炼成的？

Tarsier2是一个7B参数的轻量级模型，支持动态分辨率，能够理解长达数十分钟的视频，尤其擅长分析几十秒的短视频片段。其强大的视频理解能力源于精细的预训练和后训练阶段：

预训练阶段：

Tarsier2在4000万个互联网视频-文本数据上进行预训练。团队通过海量收集互联网视频-文本数据，并设计了一套严谨的数据筛选流程（分镜、过滤、合并），确保训练数据的质量。特别值得一提的是，Tarsier2筛选了大量的*剧解说视频，帮助模型理解更深层次的情节信息。

后训练阶段：

Health AI健康云开放平台

专注于健康医疗垂直领域的AI技术开放平台

113 查看详情 Health AI健康云开放平台

后训练分为SFT和DPO两个阶段：

SFT (监督微调): 在人工标注的视频描述数据上进行训练，并引入针对每个子事件的具体定位信息，强化模型对时序信息和视觉特征的关注。

SFT数据样例

DPO (数据增强): 在自动化构造的正负样本上进行DPO训练，正样本来自模型对原始视频的预测，负样本来自模型对经过随机扰动的视频的预测。这种方法提高了描述的准确性和完整性，减少了幻觉。

性能测试：

Tarsier2在19个视频理解公开基准上进行了测试，与10多个最先进的开源模型（Qwen2-VL、InternVL2.5、LLaVA-Video等）和闭源模型（Gemini-1.5, GPT-4o）进行了比较。结果显示，Tarsier2在视频描述、短/长视频问答等通用视频理解任务上表现出色。

视频描述质量人工评估结果

Tarsier2在广泛的视频理解任务上树立了新的标杆

Tarsier2还在机器人和智能驾驶等下游任务中展现了强大的泛化能力。

机器人场景

智能驾驶场景

未来展望：

Tarsier2在生成准确详细的视频描述方面超越了现有模型，并在广泛的视频理解任务中树立了新的标杆。它在多模态融合领域迈出了坚实的一步，未来有望在人工智能发展中发挥更大的作用。

论文地址：https://www.php.cn/link/e3c87529e817b9f8468c02ee8c81ed89 项目仓库：https://www.php.cn/link/b8d889c4e9b34bc7dc7a93a2a9a91070 HuggingFace：https://www.php.cn/link/bdee0997d3fb6be8515a432051fe4e5c

以上就是年末惊喜！ByteDance Research视频理解大模型「眼镜猴」正式发布的详细内容，更多请关注其它相关文章！

# tarsier2 # git # qq # 智能驾驶 # 产业 # 电子电气网站模板建设 # 文山抖音seo推广招聘 # SEO点击软件图标图片 # SEO学习图片文案高级 # 平台seo推广方案霸屏 # 李婉华三级网站建设 # 杭州网站优化方案流程 # 济源网站推广渠道电话 # 营销型网站建设在线 # 厦门网站建设排行榜 # 的是 # 进行了 # 正式发布 # 开源 # 年末 # 内测 # 生命科学 # 多家 # 互联网 # 一言 # qwen # gemini

相关栏目：【 Google疑问12 】【 Facebook疑问10 】【优化推广96088 】【技术知识133117 】【 IDC资讯59369 】【网络运营7196 】【 IT资讯61894 】

2025-01-25

Notion AI怎么写笔记 Notion AI辅助写作及自动摘要生成技巧【教学】 AI一键生成高质量论文大纲 Claude帮你改写和润色文章 Claude写作风格优化技巧怎么用ai创作绘本 AI儿童故事与插画自动生成【秘籍】去哪旅行ai抢票助手怎么查看抢票历史_去哪旅行ai抢票助手历史记录查询与筛选【教程】如何用AI一键去除图片背景？AI自动抠图去底最强工具【实测】 DeepSeek数学建模应用指南 DeepSeek解决复杂问题技巧如何用AI一键扩图补全背景？Photoshop AI生成填充使用技巧【教程】 DeepSeek辅助撰写技术文档方法 DeepSeek开发者必备技巧文心一言官方网站在线入口文心一言在线版使用地址 Kimi国内访问入口_Kimi智能助手网页版链接直达如何用AI生成室内设计效果图？AI装修设计灵感生成指南【教程】 AI一键生成社交媒体自动回复蚂蚁阿福官网网页版入口_电脑端使用医保与健康服务如何用AI一键去视频水印 AI视频无痕去水印软件使用方法【教程】 Claude帮你解读晦涩的学术理论 Claude知识学习助手 Jasper AI怎么写社交媒体帖子 Jasper AI社媒内容创作【攻略】 DeepSeek长代码项目理解与分析 DeepSeek代码库学习方法 DeepSeek进行科学计算教程 DeepSeek物理建模与* AI一键生成短视频分镜头脚本

了解您产品搜索量及市场趋势，制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求，1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商，作为谷歌推广与Facebook广告全球合作伙伴，聚焦外贸企业出海痛点，以数字化营销为核心，提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持，打破传统外贸获客壁垒，助力企业高效开拓全球市场，成为中小企业出海的可靠合作伙伴。