有关更广泛的资源涵盖更通用的创意编码工具(您可能想与此处列出的内容一起使用),请查看Terkelg/Awesome-Creative编码或ThatCreativeCode.Page。有关AI和一般深度学习的资源,请查看Christoschristofidis/Awesome-Deep-Learning和https://**github.c*om/dair-ai。
内容
- 学习
- 课程
- 视频
- 图书
- 教程和博客
- 论文/方法
- 工具
- 创意ML
- 深度学习
- 运行时间/部署
- 文本对图像
- 创意编码
- 稳定的扩散
- 数据集
- 产品/应用程序
- 艺术家
- 机构/地方
- 相关列表
大胆的条目表示该节/小节的我喜欢的资源(如果我必须选择一个资源)。另外,每个小节通常按内容的特异性(首先列出的大多数列出)订购。
学习
课程
一般深度学习
- 编码器的实践深度学习(Fast.ai)
- 深度学习(纽约大学)
- 深度学习简介(CMU)
- 计算机视觉的深度学习(Umich)
- 对计算机视觉的深度学习(斯坦福CS231N)
- 深度学习的自然语言处理(Stanford CS224N)
深层生成建模
- 深层生成模型(斯坦福)
- 深度无监督的学习(UC Berkeley)
- 可区分的推理和生成模型(多伦多)
- 基于学习的图像合成(CMU)
- 学习离散的潜在结构(多伦多)
- 从深度学习基础到稳定的扩散(fast.ai)
创意编码和新媒体
- 艺术,美学和创造力的深度学习(麻省理工学院)
- 网络的机器学习(ITP/NYU)
- 艺术和机器学习(CMU)
- 新媒体安装:学习的艺术(CMU)
- 计算媒体简介(ITP/NYU)
- 媒体课程
- 代码课程
视频
- 创建您想要的任何图片的AI,解释(Vox)
- 我创建了一个神经网络,并尝试教它以识别涂鸦(Sebastian Lague)
- 神经网络系列(3Blue1brown)
- JavaScript(编码火车)中的机器学习指南
- 两分钟的论文
图书
- 配进深度学习(Zhang,Lipton,Li和Smola)
- 深度学习(Goodfellow,Bengio和Courville)
- 计算机视觉:算法和应用程序(Szeliski)
- 游戏中的过程产生(Shaker,Togelius和Nelson)
- 生成设计(BenediktGroß)
教程和博客
深度学习
- VQGAN-CLIP:开放域图像生成和编辑自然语言指导(Crowson和Biderman)
- 深入生成模型教程(IJCAI-ECAI 2018)
- gan的教程(CVPR 2018)
- Lil\’log(Lilian Weng)
- 蒸馏[暂停]
生成艺术
- q制作简单数学的生成艺术
- 着色器书:生成设计
- Mike Bostock:可视化算法(与Eyeo Talk)
- 处理中的生成示例
- 生成音乐
论文/方法
扩散模型(和文本形象)
- SDEDIT:带有随机微分方程的引导图像合成和编辑:纸张的稳定扩散,描述了图像合成的方法和基于扩散模型的编辑方法。
- 滑行:使用文本引导的扩散模型迈向逼真的图像生成和编辑
- 具有潜在扩散模型的高分辨率图像合成:引入稳定扩散并开始全部的原始纸。
- 及时使用交叉注意控制的图像编辑:通过编辑原始提示来编辑稳定的扩散输出。
- 图像值得一个词:使用文本反演个性化文本对图像生成:类似于及时提示,而是采用输入映像和文本描述。 Kinda喜欢样式转移…但是具有稳定的扩散。
- Dreambooth:对主题驱动的生成的微调文本到图像扩散模型:类似于文本反演,而是专注于操纵基于主题的图像(即此东西/人/等,但水下)。
- 与扩散模型的新型视图合成
- Audiogen:文本引导的音频产生
- Make-A-Video:没有文本视频数据的文本到视频生成
- 图像:基于文本的真实图像编辑,具有扩散模型
- MDM:人类运动扩散模型
- 软扩散:一般腐败的得分匹配
- 文本对图像扩散的多概念自定义:就像Dreambooth一样,但能够综合多个概念。
- EDIFF-I:具有专家Denoisers合奏的文本到图像扩散模型
- 阐明基于扩散的生成模型(EDM)的设计空间
- 通过脱氧扩散剂来解决生成学习三元素
- 影像视频:带扩散模型的高清视频生成
神经辐射场(和nerf喜欢的事物)
- 重新审视的结构从胶合 – 稀疏建模(仍然需要/对NERF有用)的先前工作
- 非结构化多视图立体声的PixelWise视图选择:密集建模的先前工作(Nerf Kinda替换了这一点)
- DEEPSDF:学习连续签名的距离功能以形状表示
- 递延神经渲染:使用神经纹理的图像合成
- 神经量:从图像中学习动态渲染量
- nerf:将场景表示为视图综合的神经辐射场:启动的纸张…
- 无约束照片集的神经辐射场:野外NERF(MVS的替代品)
- nerfies:可变形的神经辐射场:随意的野外照片和视频(例如来自手机)
- MIP-NERF:用于抗异敏性神经辐射场的多尺度表示:nerf …但是更快地更强壮
- 深度监督的NERF:免费培训较少的观点和更快的培训:通过利用深度信息,训练NERF模型更快,更少的图像训练速度
- 具有多个分析哈希编码的即时神经图形原始图:用于NERF培训的缓存以使其快速速度
- 了解Voxel网格NERF模型的纯夹指南:使用剪辑的文本到3D
- NERF-SLAM:实时密集的单眼大满贯,神经辐射场:机器人(和汽车)的NERF
- NERF2NERF:神经辐射场的成对登记:验证的NERF
- 他们在电视节目中重建3D人类和环境的那个
- Climatenerf:极端气候综合的基于物理的神经渲染
- 现实的单发网眼头像
- 神经点灾难杀小说,用于反射的新颖视图综合
- 近乎近图片的3D时刻
- NERDI:单视图NERF合成,具有语言引导的扩散为一般图像先验
3D和点云
- DreamFusion:使用2D扩散(Google)的文本到3D
- ULIP:学习语言,图像和点云的统一表示3D理解(Salesforce)
- 从图像(NVIDIA)提取三角形3D模型,材料和照明
- GET3D:从图像中学到的高质量3D纹理形状的生成模型(NVIDIA)
- 3D神经田间使用三平方扩散
- ?魔术师:在野外学习表达的3D动物
- 对象触觉:生成对象合成(Adobe)
- Ladis:3D形状编辑的语言删除(快照)
- Rodin:使用扩散(Microsoft)雕刻3D数字化头像的生成模型
- SDFusion:多模式3D形状完成,重建和发电(SNAP)
- 差异:渲染引导的3D辐射场扩散(META)
- 与扩散模型(Google)的新型视图合成
- 配进魔术3D:高分辨率文本到3D内容创建(NVIDIA)
无条件图像合成
- 采样生成网络
- 神经离散表示学习(VQVAE)
- gan的逐步生长,以提高质量,稳定性和变化
- 一种基于样式的生成对抗网络(stylegan)的生成器架构
- q,分析和提高stylegan的图像质量(stylegan2)
- 培训数据有限的培训生成对抗网络(StyleGAN2-ADA)
- 别名无生成的对抗网络(StyleGAN3)
- 使用VQ-VAE-2生成多种高保真图像
- 用于高分辨率图像合成(VQGAN)的驯服变压器
- 扩散模型击败图像合成上的gan
- StyLenat:给每个人一个新的视角
- stylegan-xl:缩放样式到大型不同数据集
条件图像合成(和反问题)
- 带有条件对抗网的图像到图像翻译(PIX2PIX)
- 使用循环一致的对抗网络(Cyclegan)的未配对图像到图像翻译
- 高分辨率图像综合和语义操纵与有条件的gan(pix2pixhd)
- 通过添加,操纵或擦除对象(芝麻)来对场景的语义编辑
- 语义图像合成具有空间自适应归一化(Spade)
- 您只需要对对抗性的语义图像综合(OASIS)
- 样式编码:用于图像到图像翻译的stylegan编码器
- 多模式的条件图像合成与专家的gans gans
- 调色板:图像到图像扩散模型
- 草图指导的文本到图像扩散模型
- HRDA:上下文感知高分辨率域自适应语义分段
- PIPA:针对域适应性语义分段的像素和贴剂的自我监督学习
- 麦克风:上下文增强域适应的蒙版图像一致性
- 预处理是图像到图像翻译(PITI)所需的全部
gan倒置(和编辑)
- 自然图像歧管(Igan)上的生成视觉操纵
- 真实图像编辑的内域gan倒置
- Image2Stylegan:如何将图像嵌入stylegan潜在空间?
- 设计用于Stylegan图像操纵的编码器
- 用于基于潜在图像的潜在编辑的关键调整
- ️高超过:带有Hyper Networks真实图像编辑的stylegan倒置
- StyLeclip:文本驱动的stylegan图像的操纵
- 图像属性编辑的高保真gan倒置
- 交换自动编码器以进行深层图像操纵
- 素描你自己的甘
- 重写gan的几何规则
- 互动图像合成和编辑的任何代价甘斯
- 第三次是魅力?图像和视频编辑使用stylegan3
潜在空间解释
- 发现可解释的甘恩控件(ganspace)
- 解释gan的潜在空间进行语义面孔编辑
- GAN解剖:可视化和理解生成的对抗网络
- 无监督提取stylegan编辑说明(clip2stylegan)
- 看到gan无法产生的
图像垫子
- 深图像垫子
- 背景垫子:世界是您的绿屏
- 强大的视频垫子
- 语义图像垫子
- 保存隐私的肖像垫子
- 深度自动图像垫
- 磨砂器
- Modnet:通过客观分解实时无构图的肖像垫子
- 通过语义指导强大的人类垫子
工具
生成建模
- Nvidia Imaginaire:2D图像合成库
- NVIDIA OMNIVERSE:创建和操作Metaverse应用程序的平台
- mmgeneration
- 模型:基于内容的搜索深度生成模型
- Paddlegan
创意ML
- tensorflow.js
- ml5.js
- Mediapipe
- quighenta
- 韦金人
- ofxaddons
深度学习框架
- ️Pytorch
- 凯拉斯
- 张量
- ?变压器
- ?扩散器
- JAX
- Dlib
- darknet
运行时间/部署
- FFCV:用于加速ML培训的优化数据管道
- ONNX运行时
- 深速(训练,推理,压缩)
- 张力
- Tensorflow Lite
- Torchscript
- 火炬手
- Aitemplate
文本对图像
- 稳定的扩散
- 成像人
- 达勒2
- vqgan+剪辑
- Parti
- 缪斯:通过蒙版生成变压器的文本到图像生成:比扩散或自回归的文本到图像模型更有效
稳定扩散(SD)
- Dream Studio:官方稳定AI云主持服务。
- 目标稳定的扩散Web UI :用于SD的用户友好UI,具有其他功能,可以使常见的工作流变得容易。
- AI渲染(搅拌器):使用文本提示符在搅拌器中渲染场景。
- 梦纹理(搅拌器):插件以呈现纹理,参考图像和带有SD的背景。
- Lexica.Art -SD提示搜索。
- KOI(KRITA):IMG2IMG生成的Krita的SD插件。
- 羊驼(Photoshop):Photoshop插件(beta)。
- Christian Cantrell的插件(Photoshop):另一个Photoshop插件。
- 稳定的扩散工作室:SD的动画集中。
- DeepSpeed-MII:包括SD在内的多样性(20,000多个)型号/任务的低延迟和高通量推荐。
神经辐射场
- Colmap
- nerfstudio
- NVLABS/Instant-NGP
- nerfacc
创意编码
框架
- ️处理(Java)和P5.js(JavaScript)
- OpenFrameWorks(C ++)
- 煤渣(C ++)
- 南努(Rust)
视觉编程语言
- vvvv
- 触摸设计师
- 最大/MSP/抖动
- 纯数据
数据集
可以允许的许可/开放访问
- LAION数据集:各种非常大的图像文本对数据集(尤其是用于训练开源稳定扩散模型)。
- Laion-Face
- Unplash图像
- Pixabay
- pexels
- 开放式图像:开放式图像是带有图像级标签,对象边界框,对象分割掩码,视觉关系和局部叙述的〜9M图像的数据集:
- Mozilla普通语音:17,127个经过验证的小时涵盖104种语言的抄录语音。此外,数据集中的许多记录小时还包括人口元数据,例如年龄,性别和口音,可以帮助提高语音识别引擎的准确性。
- Flickr Commons:Flickr Commons是来自世界各地100多个文化机构的独特历史摄影集合,所有这些都没有已知的版权限制。
- Internet档案:Internet Archive是一个非营利性的图书馆,其中包括数百万本免费书籍,电影,软件,音乐,网站等。
- Wikimedia Commons:106,323,506个免费使用的媒体文件的集合。
- Prelinger档案
- Getty Library开放内容计划:从Getty的收藏中制作图像,可以自由地学习,教学和享受。
- 史密森尼开放访问
- 公共领域评论:专注于现在的作品,现在落入了公共领域,这是每个人都可以自由享受,分享和建立的广阔势外材料的大量下议院。
- 国会图书馆
- 生物多样性遗产图书馆
- 大都会开放访问
- 国家艺术美术馆开放访问
- 芝加哥艺术学院开放通道
- 纽约公共图书馆公共领域收集
- 博物馆fürkunst und gewerbe hamburg steintorplatz
- 公平脸
- 概念标题
- 快速,画!
- 开放图像
- 视觉问题回答
- 张量花
- 斯坦福在线产品数据集
- DeepMind 3D形状
- 通过:没有人类的人类预处理预处理的成像网替代品,可用于高质量预处理,同时大大减少隐私问题。
面孔/人员(限制许可)
- 野外标记的面孔(LFW)
- Celeba
- LFWA+
- Celebamask-HQ
- Celeba-spoof
- utkface
- SSHQ:全身1024 x 512px
其他
- 布鲁图斯光场
产品/应用程序
- Artbreeder
- Midjourney
- 达勒2(Openai)
- 跑道 – AI驱动的视频编辑器。
- Facet AI -AI驱动的图像编辑器。
- Adobe Sensei -AI为Creative Cloud Suite提供了动力功能。
- NVIDIA AI演示
- 夹具和清理
艺术家
在艺术,ML和设计的交集中,无需竭尽全力的人做有趣的事情。
- 备忘录
- 神经胸膜(海伦娜·沙林)
- 索非亚crespo
- 劳伦·麦卡锡(Lauren McCarthy)
- 菲利普·施密特(Philipp Schmitt)
- 安娜·里德勒
- 汤姆·怀特
- 伊沃纳·塔(Ivona Tau)
- 特雷弗·帕格伦(Trevor Paglen)
- 萨沙·斯蒂尔斯(Sasha Stiles)
- 马里奥·克林曼(Mario Klingemann)
- Tega大脑
- Mimi Onuoha
- 艾莉森·帕里什(Allison Parrish)
- Caroline Sinders
- 罗比·巴拉特(Robbie Barrat)
- 凯尔·麦当劳(Kyle McDonald)
- 戈兰·莱文(Golan Levin)
机构/地方
- 创意查询的工作室
- itp @ nyu
- 灰色地区艺术基金会
- 稳定性AI(Eleuther,Laion等)
- 金匠 @伦敦大学
- UCLA设计媒体艺术
- 伯克利新媒体中心
- Google艺术家和机器智能
- Google Creative Lab
- Google文化学院的实验室
- 索尼CSL(东京和巴黎)
相关清单和收藏
- 艺术的机器学习
- AI艺术的工具和资源(Pharmapsychotic) – Google Colab笔记本的大量清单,用于生成文本到图像技术以及一般工具和资源。
- 很棒的生成深艺术 – 精心策划的生成深艺术 /生成AI项目,工具,艺术品和模型的清单
贡献
欢迎捐款!首先阅读贡献指南。

