【TinyALSA全解析（二）】wav和pcm音频文件格式详解

wav和pcm音频文件格式详解

一、本文的目的
二、wav和pcm格式文件介绍
三、pcm格式文件解析
四、wav文件内容解析
- 4.1 文件内容描述
- 4.2 实战分析
五、如何在各种音频格式之间进行转换

/*****************************************************************************************************************/

声明: 本博客内容均由https://blog.csdn.net/weixin_47702410原创，转载or引用请注明出处，谢谢!

创作不易，如果文章对你有帮助，麻烦点赞收藏支持~感谢

/*****************************************************************************************************************/

一、本文的目的

tinyalsa中可以直接传输的是wav文件格式，无论是tinycap还是tinyplay其使用的都是wav文件格式，想要对tinyalsa源码有更详细的了解，需要熟悉wav格式的文件内容。

在安卓音频中常见的两种格式为pcm格式和wav格式。本文分析这两种格式。

pcm_16">二、wav和pcm格式文件介绍

以录音为例说明：
音频驱动传输的数据一般都是原始数据，是由硬件处理得到的一系列数字信号（即由ADC得到的原始数据）。其本身不会包含对声音信息的记录，比如声道数、采样率、位深等等。故此如果你用音乐播放器播放pcm格式的音频文件的时候，就需要指定这个文件的声道数、采样率、位深等等信息。

那么能不能将音频的信息存储在音频文件中，让播放器去读取音频文件的时候，可以顺便读取到音频格式的信息呢？这样就不用每次播放都需要去指定音频格式了。

有的，那就是mp3、wav、aac等等音频格式，其会保存音频的信息（采样率、声道数、位深等信息），当播放器播放的时候，会在文件的指定位置读取音频信息去播放，这样就不用用户去指定音频的信息了，直接点击播放按钮，剩下的就交给软件处理就能让设备发出声音了！

简单理解，wav格式文件内容 = pcm格式文件内容 + 音频描述内容。

那为什么不用mp3或者aac格式或者其它格式？因为类似mp3和aac格式是有损且压缩的格式，不仅会丢掉一部分原始音频数据，还要需要编解码（解压 /压缩）处理。
那为什么不用其它无损且不压缩就好了？因为用了其它无损不压缩的格式，你又会问为啥不用wav，是伪逻辑。

pcm_30">三、pcm格式文件解析

如前面分析：pcm格式文件的内容是仅且包含音频原始数据的（原始就是未压缩未丢失的意思）。那么这个文件格式展开就是一系列的声音表示数据了。以某个PCM文件的片段数据“0x01 0x02 0x03 0x04”为例，假如地址是从低到高，不同的音频格式的声音内容如下表示：

音频格式\原始数据	0x01	0x02	0x03	0x04	0x…
8位单声道	0声道	0声道	0声道	0声道	0声道
8位双声道	左声道	右声道	左声道	右声道	左声道
16位单声道	0声道数据1-低字节	0声道数据1-高字节	0声道数据2-低字节	0声道数据2-高字节	0声道数据3-低字节
16位双声道	左声道数据1-低字节	左声道数据1-高字节	右声道数据1-告字节	右声道数据1-高字节	左声道数据2-低字节

四、wav文件内容解析

4.1 文件内容描述

如前面分析：wav格式文件内容 = pcm格式文件内容 + 音频描述内容

wav文件的格式是怎么样的呢？

可参考网站：http://soundfile.sapp.org/doc/WaveFormat/

文件内容的数据框图：

关于这张图的描述：

偏移与大小	名称	说明
0 4	ChunkID	包含 ASCII 形式的字母“RIFF”（0x52494646 大端形式）。
4 4	ChunkSize	36 + SubChunk2Size，或更准确地说：4 + (8 + SubChunk1Size) + (8 + SubChunk2Size)这是此数字之后的块的其余部分的大小。这是整个文件的大小（以字节为单位）减去未包含在此计数中的两个字段的 8 字节：ChunkID 和 ChunkSize。
8 4	格式	包含字母“WAVE”（0x57415645 大端形式）。
12 4	Subchunk1ID	包含字母“fmt”（0x666d7420 大端格式）。
16 4	Subchunk1Size	16 用于 PCM。这是该数字之后的其余子块的大小。
20 2	AudioFormat	PCM = 1（即线性量化）1 以外的值表示某种形式的压缩。
22 2	NumChannels	Mono = 1、Stereo = 2 等
24 4	SampleRate	8000、44100 等
28 4	ByteRate	== SampleRate * NumChannels * BitsPerSample/8
32 2	BlockAlign	== NumChannels * BitsPerSample/8 1 的字节数样本包括所有通道。
34 2	BitsPerSample	8 位 = 8，16 位 = 16，等等
2	ExtraParamSize	如果是 PCM，则不存在
X	ExtraParams	用于额外参数的空间
36 4	Subchunk2ID	包含字母“数据”（0x64617461 大端形式）。
40 4	Subchunk2Size	== NumSamples * NumChannels * BitsPerSample/8 这是数据中的字节数。您还可以将其视为该数字后面的子块的读取大小。
44 *	Data	实际的声音数据。

4.2 实战分析

以霉霉的stay歌曲为例分析，首先解析文件成二进制的格式，文件前面的部分的内容如下：

xxd -l 176  /d/music/stay.wav
00000000: 5249 4646 9a56 2f02 5741 5645 666d 7420  RIFF.V/.WAVEfmt
00000010: 1000 0000 0100 0200 44ac 0000 10b1 0200  ........D.......
00000020: 0400 1000 4c49 5354 6e00 0000 494e 464f  ....LISTn...INFO
00000030: 4941 5254 0d00 0000 5461 796c 6f72 2053  IART....Taylor S
00000040: 7769 6674 0000 494e 414d 2100 0000 5374  wift..INAM!...St
00000050: 6179 2053 7461 7920 5374 6179 2028 4b61  ay Stay Stay (Ka
00000060: 7261 6f6b 6520 5665 7273 696f 6e29 0000  raoke Version)..
00000070: 4950 5244 0c00 0000 5265 6420 4b61 7261  IPRD....Red Kara
00000080: 6f6b 6500 4953 4654 0e00 0000 4c61 7666  oke.ISFT....Lavf
00000090: 3539 2e33 342e 3130 3100 6461 7461 0056  59.34.101.data.V
000000a0: 2f02 0000 0000 0000 0000 0000 0000 0000  /...............

这个数据是自左向右，自上而下查看，对数据的分析如下：
5249 4646：这是 “RIFF” 的 ASCII 码的十六进制表示，表示这是一个 RIFF 文件格式。

9a56 2f02：这是文件大小字段，表示文件的大小（减去前8个字节）。

5741 5645：这是 “WAVE” 的 ASCII 码的十六进制表示，表示这是一个 WAVE 格式的音频文件。

666d 7420：这是 "fmt " 的 ASCII 码的十六进制表示，表示接下来是音频格式的子块。

1000 0000：这是子块的大小，值为16，表示接下来的16个字节描述音频格式。

0100：这是音频格式代码，值为1，表示这是 PCM 格式的音频。

0200：这是声道数，值为2，表示这是立体声音频。

44ac 0000：这是采样率，值为44100，表示每秒采样44100次。

10b1 0200：这是字节率，值为 176400，表示每秒数据的字节数。

0400：这是块对齐，值为4，表示每个采样包含的字节数。

1000：这是每个样本的位数，值为16，表示这是16位的音频。

接下来的部分包含了一些元数据，如艺术家名字（Taylor Swift）、歌曲名字（Stay Stay Stay (Karaoke Version)）、产品名（Red Karaoke）和软件名（Lavf59.34.101）。

最后的 6461 7461 是 “data” 的 ASCII 码的十六进制表示，表示接下来是音频数据的子块。0056 2f02 是子块的大小，表示接下来的音频数据的大小。

接下来的 0000 是音频数据的开始部分，文件的后面的其它内容都是实际的声音数据了。

五、如何在各种音频格式之间进行转换

一般用FFmpeg软件进行转换，先在当前的设备安装好FFmpeg软件，然后用命令行就可以进行转换了，常用的示范如下：

将mp4视频提取wav格式：
ffmpeg -i D:\input.mp4 -vn -acodec pcm_s16le -ar 44100 -ac 2 D:\output.wav

将wav格式转变为pcm格式：
ffmpeg -i D:\output.wav -f s16le -acodec pcm_s16le D:\output.pcm

将pcm格式转变为wav格式：
ffmpeg -f s16le -ar 44100 -ac 2 -i D:\output.pcm c:\output.wav

注意上面的命令中指定的采样率为44.1k ,双声道，存储格式是s16le。读者要实际根据想要的目标文件或者源文件的参数进行配置。