图像生成AI: Midjourney和Stable Diffusion

2023年注定是不平凡的一年,不是因为房地产,也不是因为大A股。因为今年是继大数据,云计算,物联网,移动互联网,共享经济,区块链,加密货币,nft,AR,VR,MR,5G,人工智能,深度学习,短视频,元宇宙元年后的交互式AI的元年,而且今年又爆炸了。

2023年3月,Stable DiffusionMidjourney这两款软件和ChatGPT一起,作为几乎是第一批AIGC的代名词收割了全球千行百业的目光。SD和MJ都属于能够通过prompt(提示词)来生成图片,或是以图生图的方式来生成想要的图片。

根据prompt(提示词)生成图片

爆火情侣竟不是真人,新版Midjourney效果炸裂

  • 旧厂街风格,带着浓浓90年代氛围感
  • A pair of young Chinese lovers, wearing jackets and jeans, sitting on the roof, the background is Beijing in the 1990s, and the opposite building can be seen —v 5 —s 250 —q 2. 一对年轻的中国情侣,穿着夹克和牛仔裤,坐在屋顶上,背景是20世纪90年代的北京,可以看到对面的建筑
  • 描述切换为2003年效果对比
  • 大家最关心的还是“手”画的怎么样
  • Stable Diffusion生成效果对比

以图生图(垫图)

在许多情况下,我们输入的关键词并不能完全描述我们期望绘制的画面,这个时候就需要引入参考图来帮助MidJourney生成相似的内容。垫图是一种参考图,可以提供给MidJourney一些关于所需图像的更多信息,从而生成更符合我们期望的图像。

  • 缺陷: 看图可以注意生成图片中的文字为不能识别的特殊符号

Midjourney Documents: Image Prompts #Examples

zhihu: midjourney 的垫图功能有哪些效果惊艳的使用方法?

场景?

  • 根据人像照片生成指定风格的头像 zhihu回答

Midjourney+InsightFaceSwap换脸制作头像

Midjourney入门

官方首页/文档

https://midjourney.com/

官方文档

https://docs.midjourney.com/

Quick Start

https://docs.midjourney.com/docs/quick-start
  1. Log In To Discord
  2. Subscribe to a Midjourney Plan
  3.  Join the Midjourney Server on Discord
  4. Go to any #General or #Newbie Channel
  5.  Use the /imagine Command
  6. ...

Discord

Discord 是一款广受美国年轻人喜欢的社交平台。和 Snapchat、Tictok 这样的社交软件相比,它的特点鲜明:以聊天室作为主页面,2015 年 PC 端首发、APP 紧随其后;服务游戏人群的「语音工具」起家,却能在之后的 Web3、元宇宙、AIGC 的科技浪潮中持续扩展覆盖人群和使用场景。(主要的 DAO 都在 Discord 上有社群、AI 绘画类应用 MidJourney 则直接将服务器架在了 Discord 上。)

海外所有社交产品,只有Discord,中国无法复制

AI绘画软件Midjourney为何把用户导到Discord上使用?

收费规则

根据文档介绍能力+常用参数

...

Midjourney和Stable Diffusion的差异

  1. 使用费用
  • MJ 每个月10-30美元 (服务提供后台的算力)
  • SD 免费开源 (需要高性能电脑)
  1. 硬件要求
  • MJ 无要求 Discord客户端或者网页交互
  • SD 显卡6GB能用,8GB起步(经常显存不足),12GB入门, 内存推荐16GB以上。 最近推出的SDXL1.0要求显存版本12GB以上, 深入学习后到了模型训练就需要升级到16GB以上甚至24GB的高端显卡了。AMD显卡,Mac OS安装困难。
  1. 安装部署
  • MJ Discord客户端开箱即用,但是需要科学上网
  • SD 配置安装复杂,详情可以参看官方文档,我没看过。需要安装各种插件,脚本。每个插件或者脚本安装时都有可能出现各种问题。无需联网,本地运行,私密性好。MJ是大家都可以看到,除非购买$60以上版本。
https://github.com/AUTOMATIC1111/stable-diffusion-webui

  1. 应用范畴
  • MJ 全能型: 图案纹理 产品设计 鞋子 宠物 人物角色 场景 概念图 创意艺术
  • SD 角色 动漫 机甲 装修设计。 为了对标MJ, SD开发了SDXL版本,可以生成各种风格和概念的大模型,并且上架Discord,免费使用,但是效果有很大可以提升的空间。
  1. 出图效果
  • MJ 质量,审美,构图,光照,各方面都非常优秀,完全交给MJ去处理发挥就可以了。
  • SD 出图下限很低,但是上限也是非常高,针对于特定领绿可以生成出非常高质量的图片。但是各种配置参数都要自己处理,可控性强。
  1. 工作效率
  • MJ 只需关键词描述和垫图的方式就可以高效出图,面对不满意的效果要重复刷新获取
  • SD 参数多且复杂,需要调整模型和各种插件。前期调整测试阶段花费时间很长,但是后面用这一套配置可以生成一系列图片。
  1. 学习成本
  • MJ 基本操作 设置 命令 后缀 关键词组合
  • SD 参数多且复杂 插件脚本繁多 多种不同的模型
  1. 可控性
  • MJ 只能通过关键词,垫图,seed值控制图像, 人物面部特征偏向于欧美,可控性不高
  • SD 基于复杂开放的参数和众多的插件模型,可控性非常强。没有出图限制,可以生成各种各样这里不能讨论的图片。甚至可以制作动画。

Midjourney与Stable Diffusion全面对比,该学哪个?一次讲明白 https://www.bilibili.com/video/BV1wN411Y7NU/

扩展

图片生成视频产品

Pika1.0 https://mp.weixin.qq.com/s/nSzZ7eLXbvHCG1OPMg-R1g

sd图片生成视频demo

https://stable-videodiffusion.com/

AI扩图

https://mp.weixin.qq.com/s/g7RoWsuejdI6PPL8WU41Yw

AI生成视频

【蒋介石携妻巡视山西录像,阎锡山迎接,访孔祥熙老家,蒋有失仪态-哔哩哔哩】 https://b23.tv/qTWjmlO

【孙中山与警卫团合影,2个营长日后都是名将,一个活到102岁-哔哩哔哩】 https://b23.tv/D3Evh0o

Gemini

https://deepmind.google/technologies/gemini/

ChatGpt4 语音交互

【我倒要看看谁还敢说ai不懂人情世故?-哔哩哔哩】 https://b23.tv/5Jeewxj

浙ICP备2023004975号-2
浙公网安备33011002017713号