使用快速傅里叶变换分析音频

问题:

我试图在python中创建一个图形频谱分析仪。
我正在读取1024字节的16位双通道44,100 Hz采样率音频流,并将2个通道的幅度平均在一起。所以现在我有一组256个签名的短裤。我现在想使用一个像numpy这样的模块,在该阵列上预制一个fft,并使用结果来创建图形频谱分析仪,其开始只有32个。
我已经阅读了关于快速傅立叶变换和离散傅立叶变换的维基百科文章,但是我仍然不清楚结果数组所代表的结果。这是我使用numpy在我的数组上预制了一个fft之后的数组,

   [ -3.37260500e+05 +0.00000000e+00j   7.11787022e+05 +1.70667403e+04j
   4.10040193e+05 +3.28653370e+05j   9.90933073e+04 +1.60555003e+05j
   2.28787050e+05 +3.24141951e+05j   2.09781047e+04 +2.31063376e+05j
  -2.15941453e+05 +1.63773851e+05j  -7.07833051e+04 +1.52467334e+05j
  -1.37440802e+05 +6.28107674e+04j  -7.07536614e+03 +5.55634993e+03j
  -4.31009964e+04 -1.74891657e+05j   1.39384348e+05 +1.95956947e+04j
   1.73613033e+05 +1.16883207e+05j   1.15610357e+05 -2.62619884e+04j
  -2.05469722e+05 +1.71343186e+05j  -1.56779748e+04 +1.51258101e+05j
  -2.08639913e+05 +6.07372799e+04j  -2.90623668e+05 -2.79550838e+05j
  -1.68112214e+05 +4.47877871e+04j  -1.21289916e+03 +1.18397979e+05j
  -1.55779104e+05 +5.06852464e+04j   1.95309737e+05 +1.93876325e+04j
  -2.80400414e+05 +6.90079265e+04j   1.25892113e+04 -1.39293422e+05j
   3.10709174e+04 -1.35248953e+05j   1.31003438e+05 +1.90799303e+05j...

我想知道这些数字代表什么,以及如何将这些数字转换成32个栏中的每一个的高度百分比。另外,我应该把2个频道平均在一起吗?

回答:

您所显示的阵列是音频信号的傅里叶变换系数。这些系数可用于获得音频的频率内容。 FFT是为复值输入函数定义的,所以您输出的系数将是虚数,即使您的输入都是实数值。为了获得每个频率的功率,您需要计算每个频率的FFT系数的大小。这是只是系数的真实组成部分,您需要计算其实部和虚部的平方和的平方根。也就是说,如果你的系数是a + b * j,那么它的大小是sqrt(a ^ 2 + b ^ 2)。
一旦计算出每个FFT系数的大小,就需要找出每个FFT系数所属的音频。 N点FFT将给出您的信号的频率内容为N等距离的频率,从0开始。因为您的采样频率为44100采样/秒。 FFT中的点数为256,频率间隔为44100/256 = 172 Hz(约)
阵列中的第一个系数将为0频率系数。这基本上是所有频率的平均功率电平。您的系数的其余部分将从零开始计数,以172 Hz的倍数计数,直到达到128.在FFT​​中,您只可以测量高达一半采样点的频率。阅读Nyquist FrequencyNyquist-Shannon Sampling Theorem上的这些链接,如果你是一个惩罚的glut子,需要知道为什么,但最基本的结果是你的较低频率将被复制,或者在更高的频率范围内是aliased。所以频率将从0开始,每个系数增加到172 Hz,直到N / 2系数,然后减小172 Hz直到N – 1系数。
这应该是足够的信息让你开始。如果您想要比维基百科更容易理解的FFT,可以尝试Understanding Digital Signal Processing: 2nd Ed.。这对我来说非常有帮助
那就是这些数字代表什么。可以通过将每个频率分量幅度乘以所有分量幅度的总和来实现转换为高度的百分比。虽然,这只会给出相对频率分布的表示,而不是每个频率的实际功率。您可以尝试按照频率分量的最大幅度进行缩放,但是我不确定那会显示得很好。找到可行比例缩放因子的最快方法是用大声软音频信号进行实验,找到正确的设置。
最后,如果要显示整个音频信号的频率内容,您应该将两个通道的平均值相加。您将立体声音频混合成单声道音频并显示组合频率。如果你想要两个单独的显示器的左右的频率,那么你需要分别在每个通道上进行傅里叶变换。

 
 
Code问答: http://codewenda.com/topics/python/
Stackoverflow: Analyze audio using Fast Fourier Transform

*转载请注明本文链接以及stackoverflow的英文链接

发表评论

电子邮件地址不会被公开。 必填项已用*标注

48 − = 46