来源:量子位
开源AI绘画扛把子,StableDiffusion背后公司StabilityAI再放大招!
全新开源模型DeepFloydIF,一下获星2千+并登上GitHub热门榜。
DeepFloydIF不光图像质量是照片级的,还解决了文生图的两大难题:
准确绘制文字。
Bitfinex已恢复Stargate Finance(STG)充值和提现:据官方公告,Bitfinex此前宣布支持Stargate Finance(STG)的合约转换,预计将于3月15日进行,因此于3月13日暂停STG代币充值和提现。然而,在最初的公告发布之后,Stargate Foundation提出一个新提案,以取消重新发行任何STG,该提案在投票后获得一致通过。因此,以太坊网络上具有该合约地址的STG合约保持不变。
STG的充值和提现预计于UTC时间3月14日13:30左右恢复。Bitfinex提醒客户称,有不同合约地址的STG代币在流通;因此,请不要向Bitfinex平台发送除上述合约地址之外的任何STG代币,以避免资金损失。[2023/3/16 13:07:45]
以及准确理解空间关系。
多链质押基础设施Stader Labs与P2P期权协议Delta Theta达成合作:7月29日消息,多链质押基础设施Stader Labs宣布与P2P期权协议Delta Theta达成合作。通过此次合作,用户将能够使用Stader的流动质押代币Matic X创建期权并在Delta Theta上进行交易。[2022/7/29 2:46:18]
网友表示,这可是个大事,之前想让Midjourneyv5在霓虹灯招牌上写个字AI都是瞎划拉两笔,对于镜子理解的也不对。
使用DeepFloydIF,可以把指定文字巧妙放置在画面中任何地方。
Cosmostation和Crypto.org Chain达成战略合作:Cosmostation和Crypto.org Chain达成战略合作,Cosmostation将作为验证节点运营商,为Crypto.org Chain生态系统做出贡献,确保网络安全,并为终端用户应用程序开发人员提供各种基础设施工具。
据悉,Cosmostation是一家位于韩国首尔的企业级验证节点基础运营商和终端用户应用程序开发公司。[2021/4/27 21:03:12]
霓虹灯招牌、街头涂鸦、服饰、手绘插画,文字都会以合适的字体、风格、排版出现在合理的地方。
稳定币聚合协议mStable开启5项提案投票:11月3日 ,稳定币聚合协议mStale正式开启了5项治理提案的投票程序,包括:
1. MIP-3:是否应将缓存添加到mUSD?
2. MIP-4:是否应该分批放贷市场利益以减少gas成本?
3.应否退还5 MTA / 95 mUSD赚取额?
4.是否应该在什么时间范围内停用5 MTA / 95 mUSD EARN池?
5.是否应从5个MTA / 95 mUSD EARN池中分配MTA奖励?[2020/11/3 11:30:03]
这意味着,AI直出商品渲染图、海报等实用工作流程又打通一环。
还在视频特效上开辟了新方向。
波卡将通过Second State引入基于Ewasm的SSVM虚拟机:金色财经报道,区块链基础软件公司Second State获得了Web3基金会的资金支持,双方合作将把以太坊的WebAssembly虚拟机(Ewasm)引入波卡生态。
据悉,通过Web3基金会的资金支持,Second State 将依据Ewasm规范扩展其自研的高性能 WebAssembly 虚拟机 SSVM。Second State 将开发必要的软件在 Substrate 中加载 SSVM 模块。最终, SSVM-Ewasm Substrate 模块将允许应用开发者在 Polkadot 波卡生态中部署和执行以太坊智能合约。[2020/3/2]
目前DeepFloydIF以非商用许可开源,不过团队解释这是暂时的,获得足够的用户反馈后将转向更宽松的协议。
有需求的小伙伴可以抓紧反馈起来了。
像素级图像生成
DeepFloydIF仍然基于扩散模型,但与之前的StableDiffusion相比有两大不同。
负责理解文字的部分从OpenAI的CLIP换成了谷歌T5-XXL,结合超分辨率模块中额外的注意力层,获得更准确的文本理解。
负责生成图像的部分从潜扩散模型换成了像素级扩散模型。
也就是扩散过程不再作用于表示图像编码的潜空间,而是直接作用于像素。
官方还提供了一组DeepFloydIF与其他AI绘画模型的直观对比。
可以看出,使用T5做文本理解的谷歌Parti和英伟达eDiff-1也都可以准确绘制文字,AI不会写字这事就是CLIP的锅。
不过英伟达eDiff-1不开源,谷歌的几个模型更是连个Demo都不给,DeepFloydIF就成了更实际的选择。
具体生成图像上DeepFloydIF与之前模型一致,语言模型理解文本后先生成64×64分辨率的小图,再经过不同层次的扩散模型和超分辨率模型放大。
在这种架构上,通过把指定图像缩小回64×64再使用新的提示词重新执行扩散,也实现以图生图并调整风格、内容和细节。
并且不需要对模型做微调就可直接实现。
另外,DeepFloydIF的优势还在于,IF-4.3B基础模型是目前扩散模型中U-Net部分有效参数是最多的。
在实验中,IF-4.3B取得了最好的FID分数,并达到SOTA。
谁是DeepFloyd
DeepFloydAIResearch是StabilityAI旗下的独立研发团队,深受摇滚乐队平克弗洛伊德影响,自称为一只“研发乐队”。
主要成员只有4人,从姓氏来看均为东欧背景。
这次除了开源代码外,团队在HuggingFace上还提供了DeepFloydIF模型的在线试玩。
我们也试了试,很可惜的是目前对中文还不太支持。
原因可能是其训练数据集LAION-A里面中文内容不多,不过既然开源了,相信在中文数据集上训练好的变体也不会太晚出现。
OneMoreThing
DeepFloydIF并不是StabilityAI昨晚在开源上的唯一动作
语言模型方面,他们也推出了首个开源并引入RLHF技术的聊天机器人StableVicuna,基于小羊驼Vicuna-13B模型实现。
目前代码和模型权重已开放下载。
完整的桌面和移动界面也即将发布。
DeepfloydIF在线试玩:
https://huggingface.co/spaces/DeepFloyd/IF
代码:
https://github.com/deep-floyd/IF
StableVicuna在线试玩:
https://huggingface.co/spaces/CarperAI/StableVicuna
权重下载:
https://huggingface.co/CarperAI/stable-vicuna-13b-delta
参考链接:
https://deepfloyd.ai/deepfloyd-if
https://stability.ai/blog/deepfloyd-if-text-to-image-model
https://stability.ai/blog/stablevicuna-open-source-rlhf-chatbot
https://stable-diffusion-art.com/how-stable-diffusion-work/
郑重声明: 本文版权归原作者所有, 转载文章仅为传播更多信息之目的, 如作者信息标记有误, 请第一时间联系我们修改或删除, 多谢。