本节将学习如下内容：

使用OpenCV找到图像的傅里叶变换
利用Numpy中可用的FFT功能
傅里叶变换的一些应用
介绍两个关键函数：cv2.dft(), cv2.idft()

理论基础

傅里叶变换用于分析各种滤波器的频率特性。对于图像，使用2D离散傅里叶变换（DFT）来找到频域。一种名为快速傅里叶变换（FFT）的快速算法用于计算DFT。关于这些的详细信息可以在任何图像处理或信号处理教科书中找到。请参阅扩展阅读部分。

对于正弦信号，$x(t) = A \sin(2 \pi ft)$，可以说 $f$ 是信号的频率，如果取其频域，可以在 $f$ 处看到尖峰。如果对信号进行采样以形成离散信号，会得到相同的频域，但在$[- \pi, \pi]$ 或者 $[0,2\pi]$ 范围内是周期性的（对于N点DFT，则为 $[0,N]$）。可以将图像视为在两个方向上采样的信号。因此，在X和Y方向上进行傅里叶变换，可以得到图像的频率表示。

更直观地说，对于正弦信号，如果振幅在短时间内变化如此之快，可以说这是一个高频信号。如果它变化缓慢，则是低频信号。可以将同样的想法扩展到图像。图像中振幅变化剧烈的地方在哪里？在边缘点，或噪音。可以说边缘和噪声是图像中的高频内容。如果振幅没有太大变化，则它是低频分量。

Numpy 中的傅里叶变换

首先将看到如何使用Numpy找到傅里叶变换。Numpy有一个FFT包可以做到这一点。 np.fft.fft2()提供了一个复数数组的频率变换。它的第一个参数是输入图像，即灰度。第二个参数是可选的，它决定了输出数组的大小。如果它大于输入图像的大小，则在计算FFT之前用零填充输入图像。如果它小于输入图像，则输入图像将被裁剪。若没有传递参数，则输出数组大小将与输入相同。

一旦得到结果，零频率分量（直流分量）将位于左上角。如果把它放在中心，需要将结果 $\frac{N}{2}$ 在两个方向上移动。。这只需通过函数np.fft.fftshift()即可完成。一旦找到了频率变换，就可以找到幅度谱。

In [2]:

%matplotlib inline
import cv2
import numpy as np
from matplotlib import pyplot as plt

In [3]:

img = cv2.imread('/data/cvdata/messi5.jpg',0)
f = np.fft.fft2(img)
fshift = np.fft.fftshift(f)
magnitude_spectrum = 20*np.log(np.abs(fshift))

In [4]:

plt.subplot(121),plt.imshow(img, cmap = 'gray')
plt.title('Input Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(magnitude_spectrum, cmap = 'gray')
plt.title('Magnitude Spectrum'), plt.xticks([]), plt.yticks([])
plt.show()

No description has been provided for this image

结果如上所示。

可在中心看到更多的白色区域，显示低频内容更多。

找到了频率变换。现在可以在频域中做一些操作，比如高通滤波和重建图像，即找到逆DFT。为此，只需使用尺寸为60x60的矩形窗口进行屏蔽，即可去除低频。使用np.fft.ifftshift()应用逆移位，使DC分量再次出现在左上角。使用np.ifft2()函数找到逆FFT。结果将是一个复数,可以取它的绝对值。

In [5]:

rows, cols = img.shape
crow,ccol = int(rows/2) , int(cols/2)

In [6]:

crow

Out[6]:

In [7]:

ccol

Out[7]:

In [8]:

fshift

Out[8]:

array([[ -124.        +3.97903932e-13j,   -42.19440414-8.77036172e+02j,
          223.27548059+1.04660851e+03j, ...,
         1202.61938833+2.06618652e+02j,   223.27548059-1.04660851e+03j,
          -42.19440414+8.77036172e+02j],
       [  208.74536514+6.46066932e+01j,  1002.28500993-2.34504198e+02j,
         1506.32632304+1.22265770e+03j, ...,
        -1389.57648774-1.50874646e+02j,   109.36759417+4.88697964e+02j,
          -57.03604421+6.06245741e+02j],
       [  900.36223857+3.17765775e+02j,   653.10253934-4.11727772e+02j,
        -1280.58956522+1.18646570e+03j, ...,
         -121.90161098+1.37227975e+03j,   519.73405635+1.56142850e+02j,
         -549.90306456-2.94508810e+02j],
       ...,
       [  222.83408186-9.92830305e+02j,    12.48466653+1.02431487e+03j,
          627.72474919-7.09134626e+02j, ...,
         1305.90353042+9.71793402e+02j, -1576.22476438-1.24003645e+03j,
          768.60806672+1.08872533e+03j],
       [  900.36223857-3.17765775e+02j,  -549.90306456+2.94508810e+02j,
          519.73405635-1.56142850e+02j, ...,
          461.36292583+1.73290046e+03j, -1280.58956522-1.18646570e+03j,
          653.10253934+4.11727772e+02j],
       [  208.74536514-6.46066932e+01j,   -57.03604421-6.06245741e+02j,
          109.36759417-4.88697964e+02j, ...,
        -1478.63347024+1.11198404e+03j,  1506.32632304-1.22265770e+03j,
         1002.28500993+2.34504198e+02j]], shape=(342, 548))

In [9]:

fshift[crow-30:crow+30, ccol-30:ccol+30] = 0

In [10]:

f_ishift = np.fft.ifftshift(fshift)
img_back = np.fft.ifft2(f_ishift)
img_back = np.abs(img_back)

In [11]:

plt.subplot(131),plt.imshow(img, cmap = 'gray')
plt.title('Input Image'), plt.xticks([]), plt.yticks([])
plt.subplot(132),plt.imshow(img_back, cmap = 'gray')
plt.title('Image after HPF'), plt.xticks([]), plt.yticks([])
plt.subplot(133),plt.imshow(img_back)
plt.title('Result in JET'), plt.xticks([]), plt.yticks([])

plt.show()

结果如上所示。

结果表明，高通滤波是一种边缘检测操作。这也表明，大部分图像数据存在于光谱的低频区域。不管怎样，我们已经看到了如何在Numpy中找到DFT、IDFT等。接下来看一下如何在OpenCV中做到这一点。

如果仔细观察结果，尤其是最后一张JET颜色的图像，可以看到一些伪影（用红色箭头标记的一个实例）。它在那里显示了一些波纹状结构，这被称为振铃效应。这是由遮蔽的矩形窗口引起的。掩模被转换为正弦形状，导致了这个问题。因此，矩形窗口不用于滤波。更好的选择是高斯窗口。

OpenCV 中的傅里叶变换

OpenCV为此提供了函数cv2.dft()和cv2.idft()。它返回与前一个相同的结果，但有两个通道。第一个通道将具有结果的实部，第二个通道将拥有结果的虚部。输入图像应首先转换为np.float32。接下来看一下如何做到这一点。

In [12]:

import numpy as np
import cv2
from matplotlib import pyplot as plt

In [13]:

img = cv2.imread('/data/cvdata/messi5.jpg',0)

In [14]:

dft = cv2.dft(np.float32(img),flags = cv2.DFT_COMPLEX_OUTPUT)
dft_shift = np.fft.fftshift(dft)

In [15]:

magnitude_spectrum = 20*np.log(cv2.magnitude(dft_shift[:,:,0],dft_shift[:,:,1]))

In [16]:

plt.subplot(121),plt.imshow(img, cmap = 'gray')
plt.title('Input Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(magnitude_spectrum, cmap = 'gray')
plt.title('Magnitude Spectrum'), plt.xticks([]), plt.yticks([])
plt.show()

注意：技术说明：傅里叶变换与频域滤波，可以使用极坐标转换（cv2.cartToPolar），

该函数可一次性计算复数频谱的幅度（magnitude）和相位（phase），无需分别调用。
典型应用：频域分析、信号重建

逆离散傅里叶变换（IDFT）：

在上一环节我们构建了高通滤波器（HPF），本节将演示如何通过低通滤波器（LPF）抑制图像高频成分。
效果：高频信号被滤除，图像呈现模糊化效果。

低通滤波器实现方法：

掩膜设计原则：
- 低频区域（图像中心）设为 1（允许通过）
- 高频区域（图像边缘）设为 0（阻断通过）
数学本质：通过频谱掩膜对图像进行卷积，等效于空域的平滑操作。

In [17]:

rows, cols = img.shape
crow,ccol = int(rows/2) , int(cols/2)

首先创建一个掩膜，中心正方形区域为1，其余部分全部为0。

In [18]:

mask = np.zeros((rows,cols,2),np.uint8)
mask[crow-30:crow+30, ccol-30:ccol+30] = 1

应用掩膜并进行逆离散傅里叶变换（IDFT）。

In [19]:

fshift = dft_shift*mask
f_ishift = np.fft.ifftshift(fshift)
img_back = cv2.idft(f_ishift)
img_back = cv2.magnitude(img_back[:,:,0],img_back[:,:,1])

In [20]:

plt.subplot(121),plt.imshow(img, cmap = 'gray')
plt.title('Input Image'), plt.xticks([]), plt.yticks([])
plt.subplot(122),plt.imshow(img_back, cmap = 'gray')
plt.title('Magnitude Spectrum'), plt.xticks([]), plt.yticks([])
plt.show()

结果如下：

与往常一样，OpenCV的 cv2.dft() 和 cv2.idft() 函数比NumPy的等效函数速度更快，但NumPy的接口更符合用户习惯。关于性能差异的具体分析，请参阅下方章节。

DFT 的性能优化

对于某些阵列大小，DFT计算的性能更好。当阵列大小为2的幂时，最快。大小为2、3和5的乘积的数组也得到了非常有效的处理。因此，如果担心代码的性能，可以在找到DFT之前将数组的大小修改为任何最佳大小（通过填充零）。对于OpenCV，必须手动填充零。但对于Numpy，可以指定FFT计算的新大小，它会自动为您填充零。

那么，如何找到这个最佳尺寸呢？OpenCV为此提供了一个函数cv2.getOptimalDFTSize()。它适用于cv2.dft()和np.fft.fft2()。可使用 IPython magic 命令%timeit检查它们的性能。

In [21]:

img = cv2.imread('/data/cvdata/messi5.jpg',0)
rows,cols = img.shape
rows,cols

Out[21]:

(342, 548)

In [22]:

nrows = cv2.getOptimalDFTSize(rows)
ncols = cv2.getOptimalDFTSize(cols)

In [23]:

nrows, ncols

Out[23]:

(360, 576)

可以看到，数组尺寸已从 (342, 548) 优化调整为 (360, 576)。现在用零填充（对于OpenCV），并找出它们的DFT计算性能。通过创建一个新的大零数组并将数据复制到其中，或者使用cv2.copyMakeBorder()来实现。

In [24]:

nimg = np.zeros((nrows,ncols))
nimg[:rows,:cols] = img

或者:

In [25]:

right = ncols - cols
bottom = nrows - rows
bordertype = cv2.BORDER_CONSTANT #just to avoid line breakup in PDF file
nimg = cv2.copyMakeBorder(img,0,bottom,0,right,bordertype, value = 0)

计算Numpy函数的DFT性能比较：

In [26]:

%timeit fft1 = np.fft.fft2(img)

24.4 ms ± 7.46 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)

In [27]:

# 10 loops, best of 3: 40.9 ms per loop

In [28]:

%timeit fft2 = np.fft.fft2(img,[nrows,ncols])

10.6 ms ± 2.08 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [29]:

# 100 loops, best of 3: 10.4 ms per loop

测试结果显示4倍加速比。接下来将使用OpenCV函数进行相同操作的性能对比。

In [30]:

%timeit dft1= cv2.dft(np.float32(img),flags=cv2.DFT_COMPLEX_OUTPUT)
# 100 loops, best of 3: 13.5 ms per loop

3.23 ms ± 195 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)

In [31]:

%timeit dft2= cv2.dft(np.float32(nimg),flags=cv2.DFT_COMPLEX_OUTPUT)
# 100 loops, best of 3: 3.11 ms per loop

1.78 ms ± 183 μs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

测试结果同样显示4倍加速效果。可见OpenCV函数的执行速度约为NumPy的3倍。该结论同样适用于逆傅里叶变换（IFFT）的性能测试，此处留作读者练习验证。

为什么Laplacian算子是高通滤波器？

该问题在技术论坛中多次被提及："为何拉普拉斯算子是高通滤波器（HPF）？索贝尔（Sobel）算子为何也属于HPF？" 其中最具理论深度的解答是从傅里叶变换角度阐释的，只需对拉普拉斯核进行大尺寸FFT变换并分析其频谱特性即可验证。

In [1]:

import cv2
import numpy as np
from matplotlib import pyplot as plt

无缩放参数的简单平均滤波器。

In [2]:

mean_filter = np.ones((3,3))

创建高斯滤波器。

In [3]:

x = cv2.getGaussianKernel(5,10)
gaussian = x*x.T

边缘检测滤波器差异：

In [4]:

scharr = np.array([[-3, 0, 3],
                   [-10,0,10],
                   [-3, 0, 3]])

Sobel算子（X方向）。

In [6]:

sobel_x= np.array([[-1, 0, 1],
                   [-2, 0, 2],
                   [-1, 0, 1]])

Sobel算子（y方向）。

In [7]:

sobel_y= np.array([[-1,-2,-1],
                   [0, 0, 0],
                   [1, 2, 1]])

拉普拉斯算子 (Laplacian)。

In [8]:

laplacian=np.array([[0, 1, 0],
                    [1,-4, 1],
                    [0, 1, 0]])

In [9]:

filters = [mean_filter, gaussian, laplacian, sobel_x, sobel_y, scharr]
filter_name = ['mean_filter', 'gaussian','laplacian', 'sobel_x', \
                'sobel_y', 'scharr_x']
fft_filters = [np.fft.fft2(x) for x in filters]
fft_shift = [np.fft.fftshift(y) for y in fft_filters]
mag_spectrum = [np.log(np.abs(z)+1) for z in fft_shift]

In [10]:

for i in range(6):
    plt.subplot(2,3,i+1),plt.imshow(mag_spectrum[i],cmap = 'gray')
    plt.title(filter_name[i]), plt.xticks([]), plt.yticks([])

plt.show()

结果显示如下:

Frequency Spectrum of different Kernels

从图像中，可以看到每个内核块的频率区域，以及它通过的区域，基于上述分析，我们可以解释各类卷积核的高通/低通滤波特性（HPF 或 LPF）。

理论基础

Numpy 中的傅里叶变换

OpenCV 中的傅里叶变换

DFT 的性能优化

为什么Laplacian算子是高通滤波器？

扩展阅读

① 阅读使用手册

② 注册用户账号

介绍

平台内核

注意事项

理论基础

Numpy 中的傅里叶变换

OpenCV 中的傅里叶变换

DFT 的性能优化

为什么Laplacian算子是高通滤波器？

扩展阅读

① 阅读使用手册

② 注册用户账号

③ 登陆

Python基础

Python进阶

标准类库

专题工具

图像处理

科学计算

自然语言

开源GIS

R 编程语言

Julia编程语言

介绍

平台内核

注意事项