STA:Stable Diffusion 团队放大招!新绘画模型直出 AI 海报,像素级生成

来源:量子位

开源AI绘画扛把子,StableDiffusion背后公司StabilityAI再放大招!

全新开源模型DeepFloydIF,一下获星2千+并登上GitHub热门榜。

DeepFloydIF不光图像质量是照片级的,还解决了文生图的两大难题:

准确绘制文字。

Stader Labs将于5月2日推出ETHx第二阶段测试:4月30日消息,流动性质押协议 Stader Labs 发推称,以太坊流动性质押代币 ETHx 的第一阶段测试已于 4 月 28 日结束,第二阶段测试将于 5 月 2 日开始。Stader 的以太坊流动性质押方案需要用户最少需要提供 4 ETH 来参与质押,Stader 会将用户存入的资金分配给许可质押池、无需许可的质押池以及采用分布式验证器技术(DVT)的质押池。[2023/4/30 14:35:43]

以及准确理解空间关系。

网友表示,这可是个大事,之前想让Midjourneyv5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。

AMM协议JediSwap上线StarkNet主网:11月30日,自动做市商协议JediSwap发推表示已上线StarkNet主网,之后将发布细节内容。

今年1月,零知识证明技术开发公司StarkWare曾向JediSwap授予赠款,用于构建和发展新的DeFi应用程序。JediSwap表示,该项目是StarkNet上第一个无需许可的AMM协议。[2022/11/30 21:12:25]

使用DeepFloydIF,可以把指定文字巧妙放置在画面中任何地方。

霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。

波卡周报:Polkadot 0.9.2已发布 等待平行链Shell升级为Statemine:据波卡周报,Polkadot 0.9.2 已发布,等待平行链Shell升级为Statemine。1.Polkadot 国库今天刚刚销毁掉了147,042个DOT,目前还有1461万个DOT等待大家去申请。2.Shell 平行链正在 Kusama 网络上运行。3.Kusama 第 108 号公投(强制恢复一个账户)没有被通过。4.Encounter 是一个独特的身份系统,正在申请成为 Kusama 的公益链。5.Kusama 理事会已经通过并执行了 Motion 295,它消除了由于 CPU 峰值导致不允许在 9010 Runtime 升级期间发送 imOnline 消息而导致的 115 个验证器的 slash 惩罚。6.Kusama 理事正投票 297 motion,以资助将 Kusama 集成到 Klever 钱包中。7.Kusama 国库目前有 345,211 KSM,有 690.42 KSM 会在一天后销毁掉。[2021/5/23 22:35:12]

加密货币投资机构NGC Ventures成为MASS链上Staking节点:据官方消息,NGC Ventures宣布将成为MASS链上Staking节点,正式布局MASS生态。作为加密货币行业最大的投资机构之一,NGC Ventures布局MASS生态,将使MASS生态更为多元化、专业化。NGC Ventures表示,现在仍是MASS生态早期阶段,节点收益可观,并长期看好MASS生态发展。MASSStaking节点收益来自于区块奖励,由每个区块中固定数量币收益,以及与硬盘矿工博弈币收益两部分组成。按当前MASS全网数据计算,其抵押周期1个月、3个月、12个月、24个月期。[2020/8/11]

这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。

还在视频特效上开辟了新方向。

动态 | 巴巴多斯证券交易所未来或上线STO 已与Blockstation签署谅解备忘录:据GlobeNewswire消息,巴巴多斯证券交易所(BSE)已与区块链公司Blockstation签署谅解备忘录,Blockstation将为交易所市场参与者实现数字资产的安全托管、上市、交易、清算和结算,还将为监管机构提供监管工具,为交易所提供STO交易能力。巴巴多斯证券交易所(BSE)已公开表示对上线数字资产和受监管STO感兴趣。[2019/2/26]

目前DeepFloydIF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。

有需求的小伙伴可以抓紧反馈起来了。

像素级图像生成

DeepFloydIF仍然基于扩散模型,但与之前的StableDiffusion相比有两大不同。

负责理解文字的部分从OpenAI的CLIP换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。

负责生成图像的部分从潜扩散模型换成了像素级扩散模型。

也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。

官方还提供了一组DeepFloydIF与其他AI绘画模型的直观对比。

可以看出,使用T5做文本理解的谷歌Parti和英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。

不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloydIF就成了更实际的选择。

具体生成图像上DeepFloydIF与之前模型一致,语言模型理解文本后先生成64×64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。

在这种架构上,通过把指定图像缩小回64×64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。

并且不需要对模型做微调就可直接实现。

另外,DeepFloydIF的优势还在于,IF-4.3B基础模型是目前扩散模型中U-Net部分有效参数是最多的。

在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA。

谁是DeepFloyd

DeepFloydAIResearch是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。

主要成员只有4人,从姓氏来看均为东欧背景。

这次除了开源代码外,团队在HuggingFace上还提供了DeepFloydIF模型的在线试玩。

我们也试了试,很可惜的是目前对中文还不太支持。

原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。

OneMoreThing

DeepFloydIF并不是StabilityAI昨晚在开源上的唯一动作

语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。

目前代码和模型权重已开放下载。

完整的桌面和移动界面也即将发布。

DeepfloydIF在线试玩:

https://huggingface.co/spaces/DeepFloyd/IF

代码:

https://github.com/deep-floyd/IF

StableVicuna在线试玩:

https://huggingface.co/spaces/CarperAI/StableVicuna

权重下载:

https://huggingface.co/CarperAI/stable-vicuna-13b-delta

参考链接:

https://deepfloyd.ai/deepfloyd-if

https://stability.ai/blog/deepfloyd-if-text-to-image-model

https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot

https://stable-diffusion-art.com/how-stable-diffusion-work/

郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。

地球链

[0:0ms0-1:349ms