“绝不是简单的抠图。”
ControlNet作者 最新推出的一项研究受到了一波高度关注——
给一句prompt,用Stable Diffusion可以直接生成单个或多个透明图层(PNG)!
例如来一句:
可以看到,AI不仅生成了符合prompt的完整图像,就连 背景和人物也能分开 。
而且把人物PNG图像放大细看,发丝那叫一个根根分明。
再看一个例子:
同样,放大“燃烧的火柴”的PNG,就连火焰周边的黑烟都能分离出来:
这就是ControlNet作者提出的新方法—— LayerDiffusion ,允许大规模预训练的潜在扩散模型(Latent Diffusion Model)生成透明图像。
值得再强调一遍的是,LayerDiffusion绝不是抠图那么简单,重点在于 生成 。
正如网友所说:
还有网友以为类似这样的工作并不难,只是“顺便加个alpha通道”的事,但令他意外的是:
那么LayerDiffusion到底是如何实现的呢?
PNG,现在开始走生成路线了
LayerDiffusion的核心,是一种叫做 潜在透明度 (latent transparency)的方法。
简单来说,它可以允许在不破坏预训练潜在扩散模型(如Stable Diffusion)的潜在分布的前提下,为模型添加透明度。
在具体实现上,可以理解为在潜在图像上添加一个精心设计过的小扰动(offset),这种扰动被编码为一个额外的通道,与RGB通道一起构成完整的潜在图像。
为了实现透明度的编码和解码,作者训练了两个独立的神经网络模型:一个是 潜在透明度编码器 (latent transparency encoder),另一个是 潜在透明度解码器 (latent transparency decoder)。
编码器接收原始图像的RGB通道和alpha通道作为输入,将透明度信息转换为潜在空间中的一个偏移量。
而解码器则接收调整后的潜在图像和重建的RGB图像,从潜在空间中提取出透明度信息,以重建原始的透明图像。
为了确保添加的潜在透明度不会破坏预训练模型的潜在分布,作者提出了一种“无害性”(harmlessness)度量。
这个度量通过比较原始预训练模型的解码器对调整后潜在图像的解码结果与原始图像的差异,来评估潜在透明度的影响。
在训练过程中,作者还使用了一种联合损失函数(joint loss function),它结合了重建损失(reconstruction loss)、身份损失(identity loss)和判别器损失(discriminator loss)。
它们的作用分别是:
通过这种方法,任何潜在扩散模型都可以被转换为透明图像生成器,只需对其进行微调以适应调整后的潜在空间。
潜在透明度的概念还可以扩展到生成多个透明图层,以及与其他条件控制系统结合,实现更复杂的图像生成任务,如前景/背景条件生成、联合图层生成、图层内容的结构控制等。
值得一提的是,作者还展示了如何把ControlNet引入进来,丰富LayerDiffusion的功能:
与传统抠图的区别
至于LayerDiffusion与传统抠图上的区别,我们可以简单归整为以下几点。
原生生成 vs. 后处理
LayerDiffusion是一种原生的透明图像生成方法,它直接在生成过程中考虑并编码透明度信息。这意味着模型在生成图像的同时就创建了透明度通道(alpha channel),从而产生了具有透明度的图像。
传统的抠图方法通常涉及先生成或获取一个图像,然后通过图像编辑技术(如色键、边缘检测、用户指定的遮罩等)来分离前景和背景。这种方法通常需要额外的步骤来处理透明度,并且可能在复杂背景或边缘处产生不自然的过渡。
潜在空间操作 vs. 像素空间操作
LayerDiffusion在潜在空间(latent space)中进行操作,这是一个中间表示,它允许模型学习并生成更复杂的图像特征。通过在潜在空间中编码透明度,模型可以在生成过程中自然地处理透明度,而不需要在像素级别上进行复杂的计算。
传统的抠图技术通常在像素空间中进行,这可能涉及到对原始图像的直接编辑,如颜色替换、边缘平滑等。这些方法可能在处理半透明效果(如火焰、烟雾)或复杂边缘时遇到困难。
数据集和训练
LayerDiffusion使用了一个大规模的数据集进行训练,这个数据集包含了透明图像对,使得模型能够学习到生成高质量透明图像所需的复杂分布。
传统的抠图方法可能依赖于较小的数据集或者特定的训练集,这可能限制了它们处理多样化场景的能力。
灵活性和控制
LayerDiffusion提供了更高的灵活性和控制能力,因为它允许用户通过文本提示(text prompts)来指导图像的生成,并且可以生成多个图层,这些图层可以被混合和组合以创建复杂的场景。
传统的抠图方法可能在控制方面更为有限,尤其是在处理复杂的图像内容和透明度时。
质量比较
用户研究显示,LayerDiffusion生成的透明图像在大多数情况下(97%)被用户偏好,这表明其生成的透明内容在视觉上与商业透明资产相当,甚至可能更优。
传统的抠图方法可能在某些情况下无法达到同样的质量,尤其是在处理具有挑战性的透明度和边缘时。
总而言之,LayerDiffusion提供的是一种更先进且灵活的方法来生成和处理透明图像。
它在生成过程中直接编码透明度,并且能够产生高质量的结果,这在传统的抠图方法中是很难实现的。
关于作者
正如我们刚才提到的,这项研究的作者之一,正是大名鼎鼎的ControlNet的发明人—— 张吕敏 。
他本科就毕业于苏州大学,大一的时候就发表了与AI绘画相关的论文,本科期间更是发了10篇顶会一作。
目前张吕敏在斯坦福大学攻读博士,但他为人可以说是非常低调,连Google Scholar都没有注册。
就目前来看,LayerDiffusion在GitHub中并没有开源,但即便如此也挡不住大家的关注,已经斩获660星。
毕竟张吕敏也被网友调侃为“时间管理大师”,对LayerDiffusion感兴趣的小伙伴可以提前mark一波了。
丁冰有哪些好的漫画作品
《黑羊的部落》2000年推出《SOMEDAY》、《SHOW》等作品;2001年推出《另一种声音》;2002年的作品《蓝指》在《少年漫画》上发表,《霖》在《卡通王》上发表。 此外,作品《黑羊的部落》以及单行本《修罗传》、《蓝指》等也已出版。 2006年开始在新蕾上漫画连载《楼兰旖梦》(文:老庄墨韩)。 《漫友·可爱100》上连载新作《鼹鼠同萌》 2006在漫友《漫画100》上与落落合作连载《零纪年》。 2008年《梦开始的地方》2009年在新蕾上漫画连载《日下绮罗》目前《楼兰旖梦》单行本已出了六卷,已完结。 《零纪年》单行本出版时间待定。 2008年在《漫友·可爱100》上连载《大河下》2009年在《漫友·可爱100》3月号下《大河下》完结。 2009年在《漫友·可爱100》上连载《丁冰东游记 1》2009年9月发行刊物《漫友.可爱100》《Asuka》上连载《学园God》
jk罗琳的下个作品是什么?
J·K·罗琳改行进了“侦探界”,师从前辈柯南道尔和阿加莎·克里斯蒂,新作将是一部侦探小说。 据英国媒体报道,罗琳的邻居日前目击到罗琳在爱丁堡一家不起眼的咖啡馆开始侦探小说的写作。 而让罗琳一夜成名的《哈利·波特与魔法石》正是在这间咖啡馆完成的。 《哈利·波特》的终结篇面世后,“魔法妈妈”J·K·罗琳的下部作品就成了人们关注的对象。 而罗琳方面却不漏丝毫口风,只暗示下部作品的风格和《哈利·波特》截然不同。 最早发现“魔法妈妈”新动作的是罗琳的邻居、苏格兰侦探小说家伊恩·兰金的妻子米兰达。 兰金告诉英国媒体:“我妻子看见她在咖啡馆写一部以爱丁堡为背景的侦探小说。 ”上世纪90年代,罗琳正是在这家名叫“尼科尔森”的咖啡馆开始了《哈利·波特》的写作。 兰金拒绝透露他是怎么知道罗琳写的是一部侦探小说,而不是别的题材。 上月《哈利·波特与死圣》面世后,人们开始关心罗琳下一部的写作计划。 罗琳曾抱怨被定型为“儿童文学作家”,希望能够写一些给成人看的小说。 罗琳上月接受采访时表示,她的确有写新书的计划,并暗示自己将会借此转型。 不过罗琳也表示,她认为自己的新书很难像《哈利·波特》系列那样成功。 英国从来盛产侦探小说,柯南道尔的《福尔摩斯探案》系列,和阿加莎·克里斯蒂的侦探小说都经久流传,他们的侦探小说通常都悬念迭起,结局匪夷所思又偏偏合情合理。 爱丁堡满是鹅卵石铺成的狭窄蜿蜒的小巷和阴沉的哥特式建筑,是谋杀案发生的绝佳地点,城里也的确出过不少臭名昭著的罪犯,这些自然会为侦探小说家提供无尽的灵感。 写魔幻儿童文学出身的罗琳能否成为继柯南道尔和阿加莎之后的又一位了不起的侦探小说家,还有待时间的检验。 其实,罗琳早在《哈利·波特》系列的后三部就开始了“侦探推理”试验,设置了“预言球”、“混血王子”、“魂器”等多个悬念,再逐一解开。 不过,罗琳的悬念少有惊艳之作,在这方面的功力显然远不及前辈,怪不得她对自己的新作没有抱十足的信心。
网上说的B站是什么意思?
bilibili弹幕视频网站
bilibili(哔哩哔哩,又称:B站)是2009年6月推出的一个ACG相关的弹幕视频分享网站,其前身为视频分享网站Mikufans,于2018年3月,在纳斯达克上市。 其特色是悬浮于视频上方的实时评论功能,爱好者称其为“弹幕”,是一家极具互动分享和二次创造的文化社区。
B站即bilibili(哔哩哔哩),是国内的一家弹幕视频网站,B站于2009年6月26日创立,数据显示B站的用户主要来自24岁以下的年轻人,B站非常重视原创内容的保护,在2017年B站还成立了国产动画专区,帮助国产原创动画更好发展。
B站最大的特点就是为普通视频加入了弹幕,用户可以及时发布自己对视频的看法,这一点也符合目前年轻人的诉求。 B站拥有动画、番剧、国创、音乐、舞蹈、游戏、科技、生活、鬼畜、娱乐、时尚等多个内容分区,85.5%的视频播放量来自专业用户创作视频(Professional User Generated Video,PUGV)。 从2014年开始,B站开启游戏联运和代理发行业务,成功推出《梦100》、《FGO》、《碧蓝航线》多款业内知名游戏,并帮助《阴阳师》、《崩坏3》等产品获得成功。
功能特点
主站分区
bilibili目前拥有动画、番剧、国创、音乐、舞蹈、游戏、科技、生活、娱乐、 鬼畜、时尚等分区,并开设直播、游戏中心、周边等业务板块。
弹幕系统
技术优势:系统为开源项目,目前 bilibili已在 GitHub网站上建立开源工作组(BOSTF)来分享与维护自己的开源项目。
文化优势:bilibili视频审核速度快,问题反馈及时,且拥有良好的弹幕生态环境与用户生态环境。
直播业务
哔哩哔哩(bilibili)直播是bilibili弹幕网顺应直播发展潮流,推出的国内首家关注ACG直播的互动平台。
内容有趣:拥有大量的直播主,呈现丰富的二次元直播内容:游戏,唱见,舞见,手办,绘画,声优,COS,ASMR,辣妹子想了解二次元的你一定不能错过bilibili直播。
活动丰富:曾举办过局座张召忠直播首秀,伊藤润二专访直播、休·杰克曼专访直播、共青团团中央《五四晚会》直播,杜蕾斯三小时百人直播,连续两届小米超耐久直播等。
玩法多样:弹幕,礼物,道具,大航海,扭蛋币,头衔,活动等多种玩法,让主播和粉丝更加方便地互动,及时地交流,为主播提供更大的舞台,也让粉丝拉近与自己与爱抖露的距离。
游戏业务
从2014年开始,bilibili开启游戏联运和代理发行业务,成功推出《梦100》、《FGO》、《碧蓝航线》多款业内知名游戏,并帮助《阴阳师》、《崩坏3》等产品获得成功,是当前国内一家二次元游戏发行平台。
2015年4月,bilibili独家代理的第一款游戏《幻想战姬》上线,独特的水墨画风与浓郁的东方神话特色令人印象深刻。
2015年9月,国内首款乙女恋爱向手游《梦王国与沉睡的100王子》上线,旨在开拓女性向游戏市场,在App Store首页获得超过十次以上的推荐,成为国内人气女性向游戏。
2016年6月,bilibili推出偶像恋爱音游《ICHU偶像进行曲》,这是继《梦100》后的第二款女性向手游,区别于《梦100》的重恋爱养成,《ICHU》的音游玩法与偶像题材令人耳目一新。 女性游戏发行也正式成为bilibili游戏的核心战略之一。
2016年9月,Fate系列首款正版手游《Fate/Grand Order》(中文译名:《命运-冠位指定》)正式上线,并创造日本游戏在中国发行的多项全新纪录。 公测预约突破300万,并邀请国内知名演员陈坤独家代言,其COS的吉尔伽美什、迪尔姆德·奥迪那、英灵卫宫因极高还原度引发国内外热烈讨论和称赞。 游戏上线后多次进入App Store畅销榜前三并于5月正式登顶,在此期间曾获得App Store首页多次推荐,游戏每日活跃人数超过100万,成为从日本引进中国获得极大成功的游戏产品。
2017年5月,bilibili发布战舰拟人手游《碧蓝航线》,高品质的游戏质量和精美的原画吸引了众多玩家的关注,并引发同人创作热潮,《碧蓝航线》也成为2017上半年热门的游戏新品。
2019年3月7日,哔哩哔哩和NEXT Studios正式公布将联合发行听觉推理探案游戏《UNHEARD(疑案追声)》。
发表评论