图像评价指标

PSNR

Peak Signal to Noise Ratio,峰值信噪比,用于评价图像的质量。

衡量最大值信号和背景噪音之间的图像质量参考值。单位为 dB,其值越大,图像失真越少。一般来说,PSNR 高于 40dB 说明图像质量几乎与原图一样好;在 30-40dB 之间通常表示图像质量的失真损失在可接受范围内;在 20-30dB 之间说明图像质量比较差;PSNR 低于 20dB 说明图像失真严重。

PSNR=10log10MAXI2MSEMSE=1mni=0m1j=0n1[I(i,j)K(i,j)]2

其中 - Im×n 的灰度图; - Km×n 的噪声图; - MAXI 为图片可能的最大像素值,即 n-bit 的图像的 MAXI=2n1

SSIM

structural similarity index,结构相似性,用于衡量两幅图像间的结构相似性。

使用亮度、对比度以及结构量化图像的属性,用均值估计亮度,方差估计对比度,协方差估计结构相似度。SSIM 值的范围为 [0,1],越大代表图像越相似。如果两张图片完全一样时,SSIM 值为 1。

SSIM(x,y)=(2μxμy+c1)(2σxy+c2)(μx2+μy2+c1)(σx2+σy2+c2)

其中 - u 为均值; - σ 为方差/协方差; - ci=(kiL)2L 为像素范围,n-bit 的图像的 L=2n1ki 为超参数。

LPIPS

Learned Perceptual Image Patch Similarity,学习感知图像块相似度,也称为感知损失(perceptual loss),用于度量两张图像之间的差别。

给定两个输入,利用 F 网络提取 L 层的特征,然后利用 wl 点乘来放缩通道,最后计算 L2 损失

d(x,x0)=l1HlWlh,w||wl(y^hwly^0hwl)||22

其中 - x 为 ground truth 图像块; - x0 为含噪声图像失真块。

相关论文: - ZHANG R, ISOLA P, EFROS A A, et al. The Unreasonable Effectiveness of Deep Features as a Perceptual Metric [J]. IEEE, 2018.

LMD

Landmark Distance,用于评估面部图像生成质量的指标。

度量生成的面部图像与真实面部图像之间的面部特征点的距离,以评估生成图像的面部特征的准确性。

计算LMD的一般步骤如下: 1. 从生成的面部图像和真实面部图像中检测面部特征点(例如,眼睛、鼻子、嘴巴等)的位置; 2. 计算每个特征点之间的欧几里得距离; 3. 汇总或平均这些距离,以获得 LMD 的最终值。

LMD=1Ni=1N(xgixri)2+(ygiyri)2

其中 - N 为特征点数量; - xgiygi 分别是生成图像上第 i 个特征点的 x 和 y 坐标; - xriyri 分别是真实图像上第 i 个特征点的 x 和 y 坐标。

FID

Fréchet Inception Distance,用于评估生成模型性能的指标,特别是在生成对抗网络(GANs)中广泛使用。

测量生成图像与真实图像分布之间的差异,即生成图像的质量和多样性。较低的 FID 值表示生成图像更接近真实图像的分布,对应的生成模型更好。

FID 的计算基于两个图像分布之间的特征向量空间的 Fréchet距离。

FID(P,G)=||μpμG||2+Tr(ΣP+ΣG2ΣPΣG)

其中 - P 表示真实图像分布的特征向量集合,通常使用 Inception 网络的中间层的输出来表示; - G 表示生成图像分布的特征向量集合,也使用相同的方式表示; - μpμG 分别是 PG 的特征向量集合的均值; - ΣPΣG 分别是 PG 的特征向量集合的协方差矩阵; - Tr(ΣP+ΣG2ΣPΣG) 表示协方差矩阵的迹的平方根。

参考资料