UNet
UNet做分类工作如何选取损失函数
元交叉熵损失(Binary Cross-Entropy Loss)
这是二分类问题中最常用的损失函数之一。
它衡量的是模型预测概率分布和真实标签之间的差异。
对于UNet模型,当输出层使用sigmoid激活函数时,二元交叉熵损失是一个很好的选择,因为它可以输出介于0和1之间的概率值。
使用二元交叉熵损失时,模型会尝试最小化预测概率和实际标签之间的差异。
加权二元交叉熵损失:
当前景(例如病灶区域)和背景(正常区域)样本数量极不平衡时,为了更重视难分类的少数类样本,可以在计算交叉熵损失时给前景或背景赋予不同的权重,以调整模型对两类像素的学习强度。
均方误差损失(Mean Squared Error Loss)
虽然均方误差通常用于回归问题,但在某些情况下也可以用于二分类问题。
当输出层没有使用sigmoid激活函数,而是直接输出两个类别的预测值时,可以使用均方误差损失。
该损失函数计算预测值与真实标签之间的平方差的平均值。
Focal Loss
Focal Loss是为了解决类别不平衡问题而设计的,特别是在医学图像分割等任 ...
Feature/Representation/Embedding
Feature:特征,最早传统 ML 的说法。
Representation:DL 之后,表示都是学出来的。
Embedding:降维的说法,指把一个高维数据嵌入到低维空间里(想象把一个三维点压扁到一个二维平面里,就像把数据点嵌入进去一样)。
在 DL 的语境下,三个意思都差不多。Representation 和 Embedding 是包含关系,Representation 包含 Embedding。有些 Representation 可能是稀疏的,例如在 NLP 里,如果用 tfidf 来表示文本,Representation 里可能包含很多 0,维度很大。此时对应的是通过 DL 的模型来学习到的一个稠密的 Representation,在一个相对小很多的维度里就能把文本表示了。这种稠密的表征也就叫做 Embedding。
在 CV 里,最早把所有学到的表征都叫做 Representation。”deep learning is representation learning.“ - kaiming。
Representation 更加强调学习机制(背后的 nn)。Embedding ...
妙词
已臻化境:意思是指已经达到出神入化的奇妙境界,常用作形容词。臻(zhēn ):到,到达。臻,至也。——《说文》化境:奇妙的境界十方国土,是佛化境。——《华严经》疏例:。当看到电磁悬挂这个技术概念的时候我就觉得不得了,这标志着比亚迪在电磁技术、电机技术、悬挂技术上都已臻化境。
FNN前馈神经网络
在Transformer模型中,FFN(Feed-ForwardNetwork)是指全连接前馈神经网络,它是Transformer模型中的一个重要组成部分。FFN主要用于对每个位置的隐藏表示进行非线性变换和映射。
具体来说,FFN由两个线性层和一个激活函数组成。输入是 Transformer中的每个位置的隐藏表示,输出是经过非线性变换和映射后的新的隐藏表示。FFN的作用主要有两个方面:
增强特征表达能力:FFN通过两个线性层和激活函数的组合,能够对输入进行复杂的非线性变换,从而增强了特征的表达能力。这有助于模型更好地捕捉输入中的特征和模式。
提高位置间的独立性:Transformer模型中的自注意力机制(self-attention)可以捕捉输入序列中不同位置之间的依赖关系,但它可能无法完全消除位置间的依赖。FFN的引入可以进一步增加位置间的独立性,使得模型对每个位置的表示更加自主和独立,减少位置间的相互干扰。
总的来说,FFN在 Transformer中的作用是通过非线性变换和映射,增强特征表达能力并提高位置间的独立性,从而有助于提高模型的性能和表示能力。
Unbiased 无偏
“unbiased”(无偏)在统计学和机器学习中通常表示一个估计量或者模型的预测不受系统性偏差的影响,即其期望值等于真实值。在实际应用中,如果一个估计量或者模型是无偏的,那么它的平均预测值将在大量重复试验中趋向于真实值。
例如,在统计学中,如果对一个参数进行估计的方法是无偏的,那么该方法的平均估计值将接近真实参数值。在机器学习中,如果一个模型是无偏的,那么它的预测结果将在长期预测中不受系统性偏差的影响,从而更加可靠。
总的来说,无偏性是一个重要的性质,因为它可以确保估计量或者模型的预测在长期使用中能够稳定地接近真实值,从而提高了模型的可靠性和准确性。
ViT解决风格迁移问题的关键
传统 CNN 在风格迁移任务中由于长距离依赖导致的问题:1、现有的编码器-转换-解码器(encoder-transfer-decoder)风格转换方法在处理长距离依赖方面存在局限性,主要原因是这些方法通常依赖于卷积神经网络(CNN)的结构。CNN在提取局部特征方面表现出色,但由于其固有的局部感受野,它们在捕捉图像中远距离区域间的依赖关系方面存在困难。
2、不能解决长距离依赖的问题,长距离依赖是指在图像或序列数据中,一个区域的特征或信息依赖于另一个距离较远的区域。例如,在一幅风景画中,天空的颜色可能会影响到地平线下方的整体色调,尽管这两个区域在空间上相距甚远。
3、当使用基于CNN的编码器-转换-解码器方法进行风格转换时,如果模型不能有效捕捉这些长距离的依赖关系,就可能无法在转换后的图像中准确地重现和保留源图像和目标风格之间的这种复杂的相互作用。结果,图像的某些区域可能会因缺乏适当的上下文关系而出现风格不一致、细节模糊或丢失。特别是对于那些需要细腻风格纹理与内容结构深度融合的任务,缺乏长距离依赖的处理能力将直接影响到最终风格化图像的质量和细节丰富度。
ViT 为何可以解决长距离依赖问题: ...
StyTR2论文阅读
传统的风格迁移方法不能
cWCT
cWCT (Conditional Whitening and Coloring Transform) 是一种在风格迁移领域使用的技术,基于WCT (Whitening and Coloring Transform) 方法进行改进。WCT 本身是一种有效的风格迁移技术,它通过在特征空间内分别对内容图像和风格图像进行白化(Whitening)和着色(Coloring)操作,实现风格迁移。白化操作使得内容图像的特征与风格图像的特征解相关,而着色操作则将风格图像的特征模式应用于内容图像的特征上。
cWCT 扩展了 WCT 方法,使其可以在给定条件下进行风格迁移,从而提高风格迁移的灵活性和适用性。具体来说,cWCT 通过考虑额外的条件约束(如语义对齐信息、特定的风格特征等)来指导白化和着色过程,从而在保留内容图像结构信息的同时,更精细地融合风格图像的特征。
cWCT 方法的关键优势在于它能够在不同的层级上处理和融合风格信息,这使得它能够更灵活地处理多样化的风格迁移任务,包括但不限于保持内容图像的局部细节的同时实现整体风格的迁移、对特定区域进行风格化处理等。此外,通过引入条件约束,cWCT 能够 ...
实验数据集
COCODownload
MS-COCO 2014 | Papertrain2014(提取码: jarb)val2014(提取码: ww94)test2014(提取码: txwn)selected_masks(提取码: vqkx)
MS-COCO 20172017 Train images 118K/18GB2017 Val images 5K/1GB2017 Test images 41K/6GB2017 Unlabeled images 123K/19GB
WikiArt | WebWikiArt(提取码: 46cs)
12pip install wgetwget http://images.cocodataset.org/zips/train2017.zip
j2m.py
12345678910111213141516171819202122232425262728293031323334353637383940414243444546474849505152535455565758import osimport numpy as npi ...
Image Harmonization Ref
2024(AAAI 2024) Niu, Li, et al. “Progressive Painterly Image Harmonization from Low-Level Styles to High-Level Styles.” Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 38. No. 5. 2024. | Paper | [Code]
(WACV 2024) Wang, Xudong, et al. “Painterly Image Harmonization via Adversarial Residual Learning.” Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision. 2024. | Paper | [Code]
(AAAI 2024) Niu, Li, et al. “Painterly Image Harmonization by Learni ...