年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布


字节跳动研究团队的视频理解大模型tarsier迎来了重大升级,推出了第二代模型tarsier2及其技术报告。此前发布的tarsier-7b/34b已成为最强大的开源视频描述模型,仅次于闭源模型gemini-1.5-pro和gpt-4o。那么,tarsier2又有哪些突破呢?

让我们先看看Tarsier2对经典*片段的理解:

☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

图片

图片《燕子,没有你我怎么活》

图片《曹操盖饭》

Tarsier2不仅精准捕捉人物动作(例如小岳岳追车、下跪,曹操的挥舞动作),还巧妙结合字幕信息,深入分析人物动机、心理,理解人物关系和剧情发展。

图片Tarsier2 视频描述效果合集

Tarsier2在视频描述任务上的表现同样出色,无论是真人还是动画、横屏还是竖屏、多场景还是多镜头,都能精准捕捉核心视觉元素和动态事件,并用简洁的语言进行描述,且很少出现幻觉。其性能已可与GPT-4o媲美。

图片

Tarsier2的“火眼金睛”是如何炼成的?

Tarsier2是一个7B参数的轻量级模型,支持动态分辨率,能够理解长达数十分钟的视频,尤其擅长分析几十秒的短视频片段。其强大的视频理解能力源于精细的预训练和后训练阶段:

预训练阶段:

Tarsier2在4000万个互联网视频-文本数据上进行预训练。团队通过海量收集互联网视频-文本数据,并设计了一套严谨的数据筛选流程(分镜、过滤、合并),确保训练数据的质量。特别值得一提的是,Tarsier2筛选了大量的*剧解说视频,帮助模型理解更深层次的情节信息。

后训练阶段:

Health AI健康云开放平台 Health AI健康云开放平台

专注于健康医疗垂直领域的AI技术开放平台

Health AI健康云开放平台 113 查看详情 Health AI健康云开放平台

后训练分为SFT和DPO两个阶段:

  • SFT (监督微调): 在人工标注的视频描述数据上进行训练,并引入针对每个子事件的具体定位信息,强化模型对时序信息和视觉特征的关注。

图片SFT数据样例

  • DPO (数据增强): 在自动化构造的正负样本上进行DPO训练,正样本来自模型对原始视频的预测,负样本来自模型对经过随机扰动的视频的预测。这种方法提高了描述的准确性和完整性,减少了幻觉。

性能测试:

Tarsier2在19个视频理解公开基准上进行了测试,与10多个最先进的开源模型(Qwen2-VL、InternVL2.5、LLaVA-Video等)和闭源模型(Gemini-1.5, GPT-4o)进行了比较。结果显示,Tarsier2在视频描述、短/长视频问答等通用视频理解任务上表现出色。

图片视频描述质量人工评估结果

图片Tarsier2在广泛的视频理解任务上树立了新的标杆

Tarsier2还在机器人和智能驾驶等下游任务中展现了强大的泛化能力。

图片机器人场景

图片智能驾驶场景

未来展望:

Tarsier2在生成准确详细的视频描述方面超越了现有模型,并在广泛的视频理解任务中树立了新的标杆。 它在多模态融合领域迈出了坚实的一步,未来有望在人工智能发展中发挥更大的作用。

图片

论文地址:https://www.php.cn/link/e3c87529e817b9f8468c02ee8c81ed89 项目仓库:https://www.php.cn/link/b8d889c4e9b34bc7dc7a93a2a9a91070 HuggingFace:https://www.php.cn/link/bdee0997d3fb6be8515a432051fe4e5c

以上就是年末惊喜!ByteDance Research视频理解大模型「眼镜猴」正式发布的详细内容,更多请关注其它相关文章!


# tarsier2  # git  # qq  # 智能驾驶  # 产业  # 电子电气网站模板建设  # 文山抖音seo推广招聘  # SEO点击软件图标图片  # SEO学习图片文案高级  # 平台seo推广方案霸屏  # 李婉华三级网站建设  # 杭州网站优化方案流程  # 济源网站推广渠道电话  # 营销型网站建设在线  # 厦门网站建设排行榜  # 的是  # 进行了  # 正式发布  # 开源  # 年末  # 内测  # 生命科学  # 多家  # 互联网  # 一言  # qwen  # gemini 


相关栏目: 【 Google疑问12 】 【 Facebook疑问10 】 【 优化推广96088 】 【 技术知识133117 】 【 IDC资讯59369 】 【 网络运营7196 】 【 IT资讯61894


相关推荐: 12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词  人工智能在服务优化方面优缺点有哪些  中国移动主导创立元宇宙产业联盟,包括科大讯飞、芒果TV等在内,共24家成员  小红书陷入麻烦!被指控未经许可使用用户图片进行AI训练  生成式人工智能来了,如何保护未成年人? | 社会科学报  视觉中国推出付费AI绘图功能:无版权可用  世界周刊丨AI“棱镜”?  旷视入选北京市通用人工智能产业创新伙伴计划  十个AI算法常用库J*a版  郭帆:AI发展日新月异,或是弯道超车好莱坞的最好机会  美图秀秀发布7款AI产品:支持用户创作、商业创作  这效果能打几分?AI真人化《名侦探柯南》  周鸿祎:用超级AI实现室温超导和核聚变,实现能源自由  《共同的演化》展览启幕,重新思考人类与人工智能关系  静安大宁功能区企业云天励飞亮相2025世界人工智能大会,秀出AI硬实力!  人工智能行业急缺人 AI人才年薪能达近42万元  科技有狠活|时光修复师 :用AI让昨日重现  DreamAvatar数字人在哪里下载  从GOXR到PartyOn,XRSPACE致力打造多元共赢的元宇宙世界  人工智能进入绿植界,智能庭院市场初具规模  讯飞听见会写“会议摘要”功能全面升级,AI更懂你的关注点  英伟达推出 L40S GPU,AI 推理性能超过 A100 约 1.2 倍  pixivFANBOX 更新运营规则,禁止通过外链绕开 AI 生成禁令  AI框架生态峰会本周开幕 华为昇腾“朋友圈”再聚首 全球首个全模态大模型将登场  “智能体动作生成技术”现身WAIC:游戏AI技术为机器人科创注入新动力  智能机器人与话剧的完美结合:宇树四足机器人B1助力《骆驼祥子》重现经典  加强高质量数据供应能力,促进通用人工智能大模型领域的创新  研究表明 GPT-4 模型具备自我纠错能力,有望推动 AI 代码进一步商业化  美版贴吧8000小组自爆停摆!拒绝数据被谷歌OpenAI白嫖,CEO被网友骂翻:背刺第三方应用  人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”  马斯克预测:特斯拉全自动驾驶将在今年实现 对AI深度变化感到担忧  建立元宇宙产业联盟:移动、咪咕、华为、小米等加入  日新月异,脑机接口技术都有哪些新应用?  AI人工智能软件,婚纱设计师的必备利器  闪电快讯|京东推出言犀AI大模型 面向零售、医疗、物流等产业场景  Snow Kylin登陆中国列车,打造全球首条元宇宙专列  华为HarmonyOS 4:享流畅提升20%,AI大模型更智能一览无余  美图第二届影像节发布七款AI影像创作工具  AI证件照生成器:实际测试中AI软件展现了绝无仅有的强大效能  微软为 AI 初学者推出免费网课:为期 12 周,共 24 节课  下一个前沿:量子机器学习和人工智能的未来  业内领先 四川大学华西第四医院甲状腺乳腺外科成功进入手术机器人时代  【机智云物联网低功耗转接板】远程环境数据采集探索  微软必应聊天现已在Chrome和Safari浏览器上可用,但仍有许多限制存在  视觉中国推出AI灵感绘图功能  英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练  江永:精准施训提升通信无人机应急救援能力  周鸿祎:360智脑开放API接口 AI大模型将赋能百行千业  速途网络成立“人工智能专家委员会”5位中美博士加盟  张朝阳与陆川谈AI:ChatGPT是鹦鹉学舌思维,不可能取代人类 | 把脉AI大模型 

 2025-01-25

了解您产品搜索量及市场趋势,制定营销计划

同行竞争及网站分析保障您的广告效果

点击免费数据支持

提交您的需求,1小时内享受我们的专业解答。

运城市盐湖区信雨科技有限公司


运城市盐湖区信雨科技有限公司

运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。

 8156699

 13765294890

 8156699@qq.com

Notice

We and selected third parties use cookies or similar technologies for technical purposes and, with your consent, for other purposes as specified in the cookie policy.
You can consent to the use of such technologies by closing this notice, by interacting with any link or button outside of this notice or by continuing to browse otherwise.