免费的通义万相很香

来源:电脑报
关键字:A,生图,平台
发布时间:2024-07-12 16:59

　　李言

　　AI文生图之困

　　作为AIGC 最早引爆大众市场的应用，AI 文生图经过近2 年时间的沉淀后，从最初的百家争鸣逐渐向深度、细分赛道竞争，而商业化则成为众多AI 生图平台最大的困扰。

　　尝鲜体验为主的个人消费者对AI生态应用的付费意愿并不是很高，即便是Midjourney 基础版将每月费用打到了10 美元，也抵不过Leonardo.ai 这类“新人”凭借免费崛起。国内文心一言、美图WHEE 也从免费转向付费，其平台仅提供部分免费虚拟币供用户体验，高频或多次使用则需要充值各自平台的虚拟币。

　　诚然，付费才能让AI 生图应用良性循环，毕竟平台方也会面临算力、运营成本压力，但个人消费者始终会青睐免费产品，尤其是巨头推出的文生图产品，毕竟一些创业平台的AI 文生图输出效果多少有些“不忍直视”。

　　而除付费与免费的纠结外，文生图提示词门槛实际远比人们认为的高。从理解自然语义到生成图片的过程中，用户内容输入，尤其是提示词的输入显得极为关键，可未经专业训练的“新手”大多对于提示词的输入并不熟悉，以至于AI 文生图内容和用户内心想法千差万别，大部分玩家在尝鲜之后便极少再使用AI 文生图功能。

　　在这样的大背景下，免费且能提供提示词引导的通义万相逐渐脱颖而出。

　　免费的通义万相

　　通义万相的“免费”其实并非无限制地让用户使用“AI 文生图”功能，其本身也有虚拟币体系，用户登录后可免费获得50 灵感值，单次生成绘画成功后会扣除1 灵感值，每日登录又可获得50 灵感值。这意味着通义万相用户每天可进行50 次图片生成操作，每一次可生成四张照片（如图1）。

　　目前每一张图片都可以免费下载，也不需要用户额外付出灵感值。下载下来的创意图片均为1280×720 分辨率，最关键的是下载下来的每一张图片都不会有水印，用户拿来即可使用。通义万相的操作界面会以时间轴的方式为用户保存以往生成的图片以及当时的提示词，用户可随时选择“再次生成”或复制修改当时的创意，重新生成新的图片。

　　引导用户生成图片的“老师”

　　对于AI 文生图应用而言，引导词是极为重要的存在，部分大厂的AI文生图应用也会提供引导词提示，但很少能做到通义万相这样近乎手把手“教”用户完成文字描述的。

　　对于提示词，通义万相强调“主体 + 主体描述 + 风格描述”的写作格式，更直接在文本输入框底部给出“咒语书”，用户完成简单的主体+ 主体描述后，风格、材质、渲染、色彩等细节均以选择题的形式出现，极大降低了提示词生成门槛，且通过多项交互确认细节后的图片，明显更符合用户想法（如图2）。

　　除加强文字描述准确性的“咒语书”外，通义万相还提供了“创意模板”选项，目前提供风格和形象两大类别，不仅有常规的3D 卡通，更有新近热门的“黏土世界”“厚涂原画”等风格可供选择，进一步提升AI 文生图的准确性（如图3）。

　　美图WHEE 其实也有不少预设模型，对于大型AI 文生图平台而言，想要俘获更多大众用户的心，预设模板必成为平台间比拼的重点，毕竟普通玩家在表述自己对图片想法的时候，更多时候愿意完成选择题而非填空题。

　　总体而言，通义万相之所以能“手把手”带着玩家玩转AI 文生图，主要是因为其本身基于阿里研发的组合式生成模型 Composer，它是一种基于扩散模型的“组合式生成”框架，该框架基本原理是先将图像拆解成不同设计元素（配色、草图、布局、风格、语义、材质等），再使用 AI 模型将这些元素重新组合，中间使用的元素可以自由编辑。假设有100 张图片，每张图片拆成8 种元素，则全部元素的组合方式有1008 种之多，这被阿里云称为“组合爆炸”，可以给人类设计师生成图片提供极大的自由度和想象空间，而极强的细分下，也让用户能够生成符合自己想法的图片。

关注读览天下微信， 100万篇深度好文，等你来看……

立即购买本期杂志

查看本期更多内容