gpt-4展示了一项功能,画一张草图,并把它拍照发给gpt-4。gpt-4可以从图片中提取文字信息并输出html,自动生成网站的原型图。
输入草图:
☞☞☞AI 智能聊天, 问答助手, AI 智能搜索, 免费无限量使用 DeepSeek R1 模型☜☜☜

输出页面代码:

一些开源项目基于GPT4做出比较惊艳的效果,例如:
https://www.php.cn/link/9afa24d3da745fd5606e7d710a0763eb
这个项目可以使用屏幕截图转换为代码(例如HTML/Tailwind CSS,或者React、Bootstrap或Vue)。它使用GPT-4 Vision(或Claude 3)来生成代码,并使用DALL-E 3来生成类似外观的图像。
我们看下该工程实际调用gpt4的提示:
You are an expert Tailwind developerYou take screenshots of a reference web page from the user, and then build single page apps using Tailwind, HTML and JS.You might also be given a screenshot(The second image) of a web page that you h*e already built, and asked toupdate it to look more like the reference image(The first image). - Make sure the app looks exactly like the screenshot.- Pay close attention to background color, text color, font size, font family, padding, margin, border, etc. Match the colors and sizes exactly.- Use the exact text from the screenshot.- Do not add comments in the code such as "<!-- Add other n*igation links as needed -->" and "<!-- ... other news items ... -->" in place of writing the full code. WRITE THE FULL CODE.- Repeat elements as needed to match the screenshot. For example, if there are 15 items, the code should h*e 15 items. DO NOT LE*E comments like "<!-- Repeat for each news item -->" or bad things will happen.- For images, use placeholder images from https://placehold.co and include a detailed description of the image in the alt text so that an image generation AI can generate the image later. In terms of libraries, - Use this script to include Tailwind: <script src="https://cdn.tailwindcss.com"></script>- You can use Google Fonts- Font Awesome for icons: <link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/font-awesome/5.15.3/css/all.min.css"></link> Return only the full code in <html></html> tags.Do not include markdown "```" or "```html" at the start or end.
从提示内容看:
效果比较亮眼,但实际使用还存在一些问题,现有的大模型如GPT4、Gemini等支持的图片生成前端代码,大多输出的是html代码,但实际开发中,前端一般会将UI界面不同粒度的物料组件化,例如搜索框、按钮这种基础组件,或者计时器、券、视频、轮播等这种带有业务属性的组件,又或者更大颗粒度的 UI 区块。html代码可能对前端开发的用处不大。
其实在大模型出现之前,就有很多页面生成的工作,比如pix2code、Sketch2Code,他们使用深度学习技术实现从一张 UI 截图识别生成 UI 结构描述,然后将 UI 结构描述转成 HTML代码;
也有一些实际生产任务的工作,比如阿里的imgcook可以通过识别设计稿(Sketch/PSD/图片)智能生成 React、Vue、Flutter、小程序等不同种类的代码,并在同年双 11 大促中自动生成了 79.34% 的前端代码,智能生成代码不再只是一个线下实验产品,而是真正产生了价值。

imgcook本质是通过设计工具插件从设计稿中提取 JSON 描述信息,通过规则系统、计算机视觉和机器学习等智能还原技术对 JSON 进行处理和转换,最终得到一个符合代码结构和代码语义的 JSON,再用一个 DSL 转换器,转换为前端代码。DSL 转换器就是一个 JS 函数,输入是一个JSON,输出就是我们需要的代码。例如 React DSL 的输出就是符合 React 开发规范的 React 代码。
imgcook中包含多个机器学习、图像识别、自然语言的AI模型;我们看其中一个组件识别的例子;

如果希望能生成组件粒度的代码, 需要能识别视觉稿中的组件,并且转化成对应的组件化代码。例如以下视觉稿中电饭煲位置处是一个视频,但从视觉稿中只能提取到图片信息,并生成如右侧的代码。
如何识别组件类别,有两种方法,一个是目标检测、,另外一个是图像分类;

训练目标检测模型需要输入大量样本,样本是视觉稿的整张图片,并且需要给图片标记你想要模型识别的组件,训练出可以识别组件的目标检测模型,当有的新的需要识别的设计稿时,将设计稿图像输入给模型识别,最终得到模型识别的结果。
使用目标检测的方案会存在一些问题:
样本完全需要人工打标,需要收集 UI 图片,对图片中的组件进行标记。如果要新增一个分类,需要给每张图片重新打标,打标成本很大;
既需要识别出正确的位置,还需要识别出正确的类别。视觉稿图像中背景是很复杂的,容易被误识别;
就算识别出的类型是准确的,也会有位置偏差。
kgogoprime
KGOGOMall 是一套采用 Php + MySql 开发的基于 WEB 应用的 B/S 架构的B2C网上商店系统。具有完善的商品管理、订单管理、销售统计、新闻管理、结算系统、税率系统、模板系统、搜索引擎优化,数据备份恢复,会员积分折扣功能,不同的会员有不同的折扣,支持多语言,模板和代码分离等,轻松创建属于自己的个性化用户界面。主要面向企业和大中型网商提供最佳保障,最大化满足客户目前及今后的独立
0
查看详情

imgcook是基于设计稿的,因此可以从设计稿中获取图像的 JSON 描述信息,图像中每个文本节点和图像节点都已经具备位置信息,并且经过 imgcook 智能还原后能生成较为合理的布局树。所以我们可以基于这个布局树,以容器节点为粒度将可能的组件节点裁剪出来。
例如我们可以把这里的 div/view 节点都裁剪出来,就可以得到一个小的图片的集合,然后将这些图片送给一个图片分类模型预测,这样我们把一个目标检测问题转换成了一个图片分类问题。
模型会给每张图片在每一个分类中分配一个概率值,某个分类的概率值越大表示模型预测该图片是这个分类的概率越大。我们可以设置一个置信度为 0.7,当概率值大于置信度 0.7 时则认为是最终分类的结果,例如上图中,最终只有两张图片是可信的识别结果。如果对分类的准确度要求很高,就可以将置信度设置高一点。
相比目标检测,使用图片分类方案,样本可以用程序自动生成,无需人工打标;只需要识别类别,类别准确则位置信息绝对准确。所以我们改用基于布局识别结果的图片分类方案,识别准确度大大提升。
介绍一篇最近的大模型在前端代码生成上的工作
Design2Code: How Far Are We From Automating Front-End Engineering
整体贡献:
数据集构建:
自动评估方案:
提示改进:
各个模型的表现:

低代码平台通过提供直观的图形界面和拖放式组件,使非技术用户或开发者能够轻松地构建和部署应用程序的前端界面,从而显著降低了前端开发的技术门槛和时间成本。
让大模型生成低代码平台内部的json DSL语法,输入可以是文本描述,或者网页截图,从而减少拖拉拽的人工操作,应该是比较好的结合点,相比直接生成html文件来说,大模型和低代码平台的结合可能根据实际应用价值。
数据样例:
text:生成一个 amis 表单,包含用户名、密码输入框
DSL:
{"type": "form","title": "表单", "body": [ {"type": "input-text", "name": "username", "label": "用户名"}, {"type": "input-password", "name": "password", "label": "密码"}]}
image:

如何获取数据,参考百度低代码平台爱速搭和大模型结合的案例:
有了数据,可以基于多模态大模型微调,实现页面截图到DSL代码的生成,并且嵌入到低代码平台中,做为辅助编程助手。
以上就是多模态大模型在前端开发领域的应用探索的详细内容,更多请关注其它相关文章!
# 大模型
# 代码
# 绑定
# 表单
# 多模
# follo
# claude
# gemini
# 网页布局
# 排列
# git
# bootstrap
# vue
# css
# 多模态
# 三水b2b全网营销推广公司
# 荆门抖音推广营销公司
# 塘厦网站seo推广优化
# 广西seo建站总结
# 长宁网站的建设
# 承德湖南网站优化推广
# 东营抖音付费营销推广公司
# 禁漫网站seo
# 酒类网站建设好处
# 铜川网站推广服务
# 转换为
# 越大
# 不应
# 这是
# 是一个
# 我们可以
# 自动生成
相关栏目:
【
Google疑问12 】
【
Facebook疑问10 】
【
优化推广96088 】
【
技术知识133117 】
【
IDC资讯59369 】
【
网络运营7196 】
【
IT资讯61894 】
相关推荐:
Unity 推出面向开发者的 AI 软件市场 AI Hub,股价飙涨 15%
500元一张的AI艺术二维码制作,详细教程来了!
Goodnotes 6推出,带来多项全新AI功能,让电子笔记更智能
“技术+实践+生态”三箭齐发,京东方抢占物联网高地
游族AI创新院揭牌成立 推进AI赋能游戏业务
普渡机器人与变形金刚品牌合作,特别活动爆火,商品售罄!
无人机自主巡检为高海拔输电线路运维添“新彩”
借助ChatGPT快速上手ElasticSearch dsl
出门问问亮相2025世界人工智能大会,展示AI CoPilot解决方案
AI进军债券交易,BondGPT来了!
Prompt解锁语音语言模型生成能力,SpeechGen实现语音翻译、修补多项任务
朱民:普通人炒股炒不过机器人是很正常的 AI已经能理解市场情绪
小米发布CyberDog2 - 他们的第二代仿生四足机器人展示
AI取代人工先拿教育行业开刀?美版“作业帮”启动裁员
BLIP-2、InstructBLIP稳居前三!十二大模型,十六份榜单,全面测评「多模态大语言模型」
网易云音乐和小冰推出AI歌手音乐创作软件,首发内置12名AI歌手
复盘MWC上海:AI大模型时代到来 通信网络将会怎样改变?
智能客服进入AI 2.0时代 容联云发布语言大模型“赤兔”
原小米 9 号员工李明打造全球首款 AI 安卓桌面机器人
探索人工智能在居家养老方面的应用
谷歌内部正在测试代号为Genesis的AI新闻写作产品
管提需求,大模型解决问题:图表处理神器SheetCopilot上线
AI大模型火了!科技巨头纷纷加入,多地政策加码加速落地
探展WAIC | 第四范式“式说”聚焦toB大模型,布局生成式AI重构企业软件
WAIC 2025|云深处科技绝影Lite3与X20四足机器人亮相
扎克伯格吐槽苹果Vision Pro:社交落后Meta太多,无法建设元宇宙
灯塔AI大模型票房预测上线:开源算法不断提升精准度
英伟达H100霸榜权威AI性能测试 11分钟搞定基于GPT-3的大模型训练
五项人工智能尚未能够实现的任务
阿里大文娱CTO郑勇:生成式AI将引发内容行业巨变,*制作机会挑战并存
大语言模型的视觉天赋:GPT也能通过上下文学习解决视觉任务
无人机在电力巡检中的应用:全面解析高效巡检流程
Zoom远程会议应用:AI培训需经用户授权
全新“AI助手”!讯飞星火助手中心人机协作共创新生态
海柔创新携手SAP,以机器人技术助力全球客户升级数智化竞争力
微软向美国政府提供GPT的大模型,安全性如何保证?
洞穴探险神器?可自主导航的单旋翼自旋无人机,效率更高!
数字彩排、虚拟建厂!这家顶级洗衣机工厂敲开“工业元宇宙”之门
当一个网站的内容被 AI 完全接管
田渊栋新作:打开1层Transformer黑盒,注意力机制没那么神秘
城市在采用人工智能方面进展如何?
人工智能“Aria”现身 Opera浏览器100版本更新:新功能“标签岛”
深度学习模型综述:用于3D MRI和CT扫描的应用
世界人工智能大会(WAIC 2025)点燃魔都,博尔捷数字科技携前沿技术产品亮相
万兴播爆桌面端上线,支持AI数字人搜索、视频编辑等功能
GPT-4使用混合大模型?研究证明MoE+指令调优确实让大模型性能超群
OpenAI限制网络爬虫访问以保护数据免被用于AI模型训练
“上海市民营企业人工智能赋能创新中心”揭牌成立
泗洪:畅通城市“血管” ,管下机器人来帮忙
第二届光合组织AI解决方案大赛赛果揭晓
2024-05-10
运城市盐湖区信雨科技有限公司是一家深耕海外推广领域十年的专业服务商,作为谷歌推广与Facebook广告全球合作伙伴,聚焦外贸企业出海痛点,以数字化营销为核心,提供一站式海外营销解决方案。公司凭借十年行业沉淀与平台官方资源加持,打破传统外贸获客壁垒,助力企业高效开拓全球市场,成为中小企业出海的可靠合作伙伴。