AdaIN
(ICCV 2017) Huang, Xun, and Serge Belongie. “Arbitrary style transfer in real-time with adaptive instance normalization.” Proceedings of the IEEE international conference on computer vision. 2017. (AdaIN) | Paper | Code
AdaIN(Adaptive Instance Normalization)是一种在风格迁移任务中常用的技术,用于将一幅图像的风格迁移到另一幅图像上。AdaIN 的核心思想是调整内容图像的特征分布,使其与风格图像的特征分布相匹配,从而实现风格的迁移。
具体来说,AdaIN 接受两个输入:一个是内容图像的特征图,另一个是风格图像的特征图。对于每个通道,AdaIN 首先计算风格特征图的均值和标准差,然后使用这些统计量来标准化内容特征图。最后,AdaIN 将标准化的内容特征图按照风格图像的均值和标准差进行缩放和平移。
数学上,AdaIN 可以表示为:
其中 ...
Style Transfer Ref
2023(CVPR 2023) “CAP-VSTNet: Content Affinity Preserved Versatile Style Transfer”(CAP-VSTNet) | Paper | Code
(CVPR 2023) “Neural Preset for Color Style Transfer” (DNCM) | Paper | Code
(ICCV 2023) “Stylediffusion: Controllable disentangled style transfer via diffusion models.”(StyleDiffusion) | Paper | [Code]
(AAAI 2023) “AdaCM: adaptive ColorMLP for real-time universal photo-realistic style transfer”(AdaCM) | Paper | [Code]
(NN 2023) Zhang, Yuqi, Yingjie Tian, and Junjie Hou. “CSAST: Content sel ...
从实验到论文
以风格迁移为例:
风格迁移多篇经典顶刊文章,找到共同存在的问题,比如:capvst的纹理特征提取不明显;
找到一篇较新的顶刊文章,如:capvst;
理解架构,用可逆残差网络来保留内容亲和度,用空间压缩模块,和Channel Refinement去除通道冗余,从而提升效率。最后用cWCT线性变换模块传输内容表示来匹配样式表示,反向推理生成风格化图像;
复现实验: a. 直接用它的预训练模型参数(pth文件)+ 新数据运行测试文件就可以吗? 用对方给定的预训练模型参数+新数据测试得出的结果只能作为你论文中的baseline,也就是你自己提出的方法对比的基线。 b. 它代码里给的 pth 文件就是他在公开数据集上预训练的模型权重吗? 是 c. 是否需要验证他的模型在推荐的数据集上是否可以收敛? 可以验证也可以不验证,一般不用,除非你想证明这篇文章是不是作假了。
使用已有的预训练参数在这个跑通的模型上进行模块的替换和修改,比如将可逆残差换成ViT; 在跑自己的算法的时候,你可以在公共的大规模的预训练数据集上自己重新预训练,没必要用它的预训练权重,只有符合以下情况下可以使用: a. ...
特征空间/距离分布/正负样本
特征空间(Feature Space)特征空间是指用于描述数据的属性(特征)集合构成的空间。在机器学习模型中,每个数据点(如一张图片、一段文本等)都可以通过一组特征来表示,这些特征定义了数据在特征空间中的位置。例如,如果我们用图片的颜色直方图作为特征,那么每张图片就可以在这个由颜色直方图维度构成的特征空间中找到一个对应的点。
距离分布(Distance Distribution)距离分布是指数据点在特征空间中彼此之间距离的分布情况。在很多机器学习算法中,如k-最近邻(k-NN)和聚类算法,距离(如欧几里得距离或余弦相似度)用于衡量数据点之间的相似性或差异性。距离分布可以帮助我们理解数据的结构,比如哪些数据点彼此接近(相似),哪些则相距较远(不相似)。
正样本和负样本(Positive and Negative Samples)在监督学习特别是二分类问题中,正样本和负样本分别指与目标类别匹配和不匹配的数据点。例如,在一个邮件分类任务中,目标是区分垃圾邮件和非垃圾邮件,那么垃圾邮件可以被视为正样本,而非垃圾邮件则被视为负样本。模型的目标通常是尽可能准确地区分这两类样本。正样本和负样本的概念 ...
Yann LeCun:生成模型不适合处理视频
“适合用来处理视频的模型并不是我们现在大范围应用的生成模型。而且新的模型应该学会在抽象的表征空间中预测,而不是在像素空间中。”
Yann LeCun:大型语言模型或者一般的 NLP 系统,通常是用这种方法训练的。拿一段文本,然后故意删掉一些地方,接着用一个巨大的神经网络来重建文本,也就是预测那些被删掉的词,也就是通过删掉一些词来「破坏」文本。像 ChatGPT 和 Lama 这样的模型都是这样训练的。你只需删掉最后一个词就能训练它们。从技术上讲实际上更复杂,不过大体就是这么个意思,训练这个系统来重建输入中缺失的信息。
一个显而易见的想法就出现了,为什么我们不用图片来试试呢?拿一张图片,通过移除一小部分来损坏图像,然后训练大型神经网络来恢复它。但这并不奏效,或者说效果并不好。这方面已经有很多尝试,但都不太成功。对于视频也是一样。
我已经研究视频预测九年了。我一直在尝试预测,就是向系统展示一段视频,然后训练它预测接下来会发生什么。如果系统能做到这点,它可能就能理解世界的一些基本规律,就像文本系统试图预测下一个词一样。它得能理解句子的含义,但这也做不到。Yann LeCun:主要的问题在于, ...
算法黑话
算法黑话祛魅
feature:一个数组
representation:还是一个数组
embedding:把输入映射成数组提高
泛化性:预测更准了
过拟合:训练过头了
attention:加权
adaptive:还是加权
few-shot learning:看了几个样本就学
zero-shot learning:一个没看就开始瞎蒙
self-supervised:自学
semi-supervised:教一点自学一点
unsupervised:没人教了,跟谁学?
end-to-end:一套操作,行云流水搞到底
multi-stage:发现不行,还得一步一步来
domain:我圈起来一堆样本,就管他叫一个domain
transfer:我非得在这一堆样本上训练,用在另一堆样本上,就是不直接训练,就是玩~
adversarial:我加了一部分就是让loss增大
robust:很稳我不会让loss变大的(但也不容易变小了)
state of the art(sota):我(吹nb)第一
outperform:我虽然没第一,但是我比baseline强
baseline:(故意)选出来的方法,让我能 ...
ArchWiki
参考:佛教建筑
开发框架:NextJS
结构:
NEXTjs
NEXTjs官网
建筑图像分类数据集
ArchWorld作者:张文翔(SEU+XZMU)
深度学习环境配置
Ubuntu22.04+CUDA12.2+cuDNN7.0+Anaconda+PytorchUbuntu22.04
CUDA12.2
cnDNN
Anaconda
12bash Anaconda3-5.0.1-Linux-x86_64.shsouce ~/.bashrc
PyTorch