在我们之前的文章中,我们介绍了研究人员提出了一种挑战transformer的新架构mamba。
他们的研究表明,Mamba是一种状态空间模型(SSM),在多种模式(如语言、音频和时间序列)中展现出了卓越的性能。为了证明这一点,研究人员使用Mamba-3B模型进行了语言建模实验。该模型超越了同等大小的Transformer模型,并且在预训练和下游评估期间,其表现与大小为其两倍的Transformer模型相当。
Mamba的独特之处在于其快速处理能力、选择性SSM层以及受FlashAttention启发的硬件友好设计。这些特点使Mamba超越了Transformer(Transformer没有传统的注意力和MLP块)。
许多人希望亲自测试Mamba的效果,因此本文整理了一个可以在Colab上完整运行的Mamba代码示例,并使用了Mamba官方的3B模型进行实际运行测试。
首先,我们需要安装依赖,这是官网推荐的:
!pip install causal-conv1d==1.0.0 !pip install mamba-ssm==1.0.1
接下来,直接使用transformers库读取预训练的Mamba-3B模型:
import torch
import os
from transformers import AutoTokenizer
from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/gpt-neox-20b")
model = MambaLMHeadModel.from_pretrained(os.path.expanduser("state-spaces/mamba-2.8b"), device="cuda", dtype=torch.bfloat16)可以看到,3B的模型大小为11G。
伴江行购物联盟(多用户)美化修改
功能完善、展示信息丰富的电子商店销售平台;针对企业与个人的网上销售系统;开放式远程商店管理;完善的订单管理、销售统计、结算系统;强力搜索引擎支持;提供网上多种在线支付方式解决方案;强大的技术应用能力和网络安全系统,完美的傻瓜开店功能,自主经营,管理后台登陆账号:admin 密码:admin 登陆地址/admin/login.asp商家测试帐号:admin 密码:admin 登陆地址/user/ad
0
查看详情

然后进行内容生成测试:
tokens = tokenizer("What is the meaning of life", return_tensors="pt")
input_ids = tokens.input_ids.to(device="cuda")
max_length = input_ids.shape[1] + 80
fn = lambda: model.generate(
input_ids=input_ids, max_length=max_length, cg=True,
return_dict_in_generate=True, output_scores=True,
enable_timing=False, temperature=0.1, top_k=10, top_p=0.1,
)
out = fn()
print(tokenizer.decode(out[0][0]))这里还有一个聊天示例:
import torch
from transformers import AutoTokenizer
from mamba_ssm.models.mixer_seq_simple import MambaLMHeadModel
device = "cuda"
tokenizer = AutoTokenizer.from_pretrained("h*enhq/mamba-chat")
tokenizer.eos_token = ""
tokenizer.pad_token = tokenizer.eos_token
tokenizer.chat_template = AutoTokenizer.from_pretrained("HuggingFaceH4/zephyr-7b-beta").chat_template
model = MambaLMHeadModel.from_pretrained("h*enhq/mamba-chat", device="cuda", dtype=torch.float16)
messages = []
user_message = """What is the date for announcement On August 10 said that its arm JSW Neo Energy has agreed to buy a portfolio of 1753 mega watt renewable energy generation capacity from Mytrah Energy India Pvt Ltd for Rs 10,530 crore."""
messages.append(dict(role="user", content=user_message))
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt", add_generation_prompt=True).to("cuda")
out = model.generate(input_ids=input_ids, max_length=2000, temperature=0.9, top_p=0.7, eos_token_id=tokenizer.eos_token_id)
decoded = tokenizer.batch_decode(out)
messages.append(dict(role="assistant", content=decoded[0].split("\n")[-1]))
print("Model:", decoded[0].split("\n")[-1])我已经将所有代码整理成Colab Notebook,有兴趣的可以直接使用:
https://www.php.cn/link/767593ee1911f484bc931f9a10f34b66
以上就是在Colab上测试Mamba的详细内容,更多请关注其它相关文章!
# ai
# 汕头seo科技
# 佛山百度推广网站多少钱
# 他们的
# 年前
# 堪比
# 这是
# 远程控制
# 中国
# 已成
# 立竿见影
# 已有
# 多用户
# 测试
# 桔子seo会员
# 东莞比较好seo公司
# 网站推广优化怎么做的好
# 南康网站建设推广
# SEO 管理
# 盐业化工产品营销推广方案
# 汇报营销产品宣传推广ppt范文
# 营销推广模拟项目总结
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
12页线性代数笔记登GitHub热榜,还获得了Gilbert Strang大神亲笔题词
小艺将具备大模型能力,鸿蒙4加速AI普及之路
GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型
智能客服进入AI 2.0时代 容联云发布语言大模型“赤兔”
即时 AI再次升级 30秒生成自带动效的网页 生成速度提升100%
2025年的网络分区:人工智能和自动化如何改变事物
Meta将VR头显最低年龄限制从13岁降至10岁
世界水下机器人大赛:9国青年携手逐梦深蓝
联想戴炜:以全栈AI加速CT与IT融合,共建高质量算力网络
人才智能平台转型中的人工智能的关键角色
AI会帮我们把活干完吗?
中国联通推出“极光一号”5G机载终端,适配大疆等品牌无人机设备
飒智智能机器人核心技术与应用论坛暨一体化控制器发布会成功举办
华为盘古AI模型实现秒级全球气象预报时间缩短
618京东3C数码趋势产品备受青睐 AR设备成交额同比增长15倍
NVIDIA垄断AI市场90%份额:AMD性能追上80% 软件太不能打
布局智能物联新时代,中国移动“5G+物联网”亮相2025 MWC
Bing Chat 和 Bing Search 正式引入深色模式
消息称 ChatGPT 未来有望增加更多功能:上传文件分析信息,还能记住用户画像
利亚德加码AI战略,与光年无限图灵机器人全面开展AI研发业务合作
2025世界人工智能大会成功召开
曝光HarmonyOS 4的重要新能力:全面升级AI大模型,小艺实现全面进化
两型无人机完成交付!国家级机动观测业务正式启动
AI取代人工先拿教育行业开刀?美版“作业帮”启动裁员
马斯克称未来机器人数量将多于人类,特斯拉愿共享自动驾驶技术
陈根:AI冥想教练为用户提供个性化指导
开创全新虚拟现实体验的Pimax Crystal VR头显
石头扫拖机器人 G20 618 福利来袭:4999 元,超值配件领到手软
科普:什么是AI大模型
AI与5G的强强联合:唤醒数字时代的无尽潜能
AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地
生成式人工智能如何改变云安全的游戏规则
AI大模型时代,数据存储新基座助推教科研数智化跃迁
此「错」并非真的错:从四篇经典论文入手,理解Transformer架构图「错」在何处
普林斯顿Infinigen矩阵开启!AI造物主100%创造大自然,逼真到炸裂
兆讯传媒率先全面拥抱AI 数智广告内容焕发新生机
Unity发布Sentis和Muse AI工具,助力创作游戏和3D内容
探展WAIC |万向区块链杜宇:不存在单一技术的iPhone时刻,Web3.0核心将基于AI+区块链+物联网
AI无法对传统文化符号进行解构和创新
IBM CEO克里希纳:人工智能潜在创新无法被监管
人工智能驱动艺术,打开达利的超现实想象
“无人驾驶船”将首次亮相世界人工智能大会,下半年或开进上海迪士尼
第 66 届格莱美奖规定,AI 作品将无法获得评奖资格
日本学校探索引入 AI 和无人机:提高安保效率,节省劳动力
花16000元买四款扫拖机器人!科沃斯追觅石头小米谁能笑到最后?
人工智能框架生态峰会即将召开,聚焦AI大模型技术与科学智能探索!
美妆行业在AI时代蓬勃发展
选对AI智能写作软件,让创作游刃有余!
V社悄悄封禁使用AI生成美术素材的游戏
“一般智力”与工艺学批判是认识AI的重要入口 | 社会科学报
2025-04-27
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。