这是JRTPLIB@Conference
系列的第六部
《G.711编码事例程序》,本系列的主要工作是实现一个基于JRTPLIB的,建立在RTP组播基础上的多媒体视频会议系统。这只是一个实验系统,用于
学习JRTPLIB、RTP、和多媒体相关的编程,不是一个完善的软件工程。而且,我只会在业余的时间出于兴趣写一写。有志同道合的朋友可以通过tinnal@136.com
这个邮箱或博客回复(推荐)和我交流。
上一部《JRTPLIB@Conference DIY视频会议系统 五、PCM 和G.711编码相关》
这
一部我们来做个实验,就是把用windows录音机录下来的"PCM 8.000 kHz, 16 位,
单声道"WAV文件转换成为我们要用的8位8000Hz a-law格式PCM。要注意的是录音机默认的方式是PCM 44.100 kHz, 16
位,
立体声,我们不想去进行采样频率的更改,因为这个要进行插值,而且也没必要,因为我们写软件时采样频率我们是可以更改的。所以我们要先把录音另为"PCM
8.000 kHz, 16 位, 单声道"格式。
一、WAV
格式
虽然会议系统完成后我们能直接向声卡拿到PCM
数据,但毕竟我们现在拿到手的是WAV
文件,我们要识别这种格式的头文件。下面是一编转自其它网站的《WAV
格式详解》(有一定修改)
1、综述
WAVE
文件作为多媒体中使用的声波文件格式之一,它是以RIFF
格式为标准的。RIFF
是英文Resource Interchange File Format
的缩写,每个WAVE
文件的头四个字节便是“RIFF”
。
WAVE
文件是由若干个Chunk
组成的。按照在文件中的出现位置包括:RIFF WAVE Chunk, Format Chunk, Fact Chunk(
可选), Data Chunk
。具体见下图:
------------------------------------------------
| RIFF WAVE Chunk |
| ID = 'RIFF' |
| RiffType = 'WAVE' |
------------------------------------------------
| Format Chunk |
| ID = 'fmt ' |
------------------------------------------------
| Fact Chunk(optional) |
| ID = 'fact' |
------------------------------------------------
| Data Chunk |
| ID = 'data' |
------------------------------------------------
图1 Wav
格式包含Chunk
示例
其中除了Fact Chunk
外,其他三个Chunk
是必须的。每个Chunk
有各自的ID
,位于Chunk
最开始位置,作为标示,而且均为4
个字节。并且紧跟在ID
后面的是Chunk
大小(去除ID
和Size
所占的字节数后剩下的其他字节数目),4
个字节表示,低字节表示数值低位,高字节表示数值高位。下面具体介绍各个Chunk
内容。
PS
:
所有数值表示均为低字节表示低位,高字节表示高位。
2、具体介绍
RIFF WAVE Chunk
==================================
| |
所占字节数|
具体内容
|
==================================
| ID | 4 Bytes | 'RIFF' |
----------------------------------
| Size | 4 Bytes | |
----------------------------------
| Type | 4 Bytes | 'WAVE' |
----------------------------------
图2 RIFF WAVE Chunk
以'FIFF'
作为标示,然后紧跟着为size
字段,该size
是整个wav
文件大小减去ID
和Size
所占用的字节数,即FileLen - 8 = Size
。然后是Type
字段,为'WAVE'
,表示是wav
文件。
Format Chunk
====================================================================
| |
字节数 |
具体内容
|
====================================================================
| ID | 4 Bytes | 'fmt ' |
--------------------------------------------------------------------
| Size | 4 Bytes |
数值为16
或18
,18
则最后又附加信息
|
-------------------------------------------------------------------- ----
| FormatTag | 2 Bytes |
编码方式,一般为
0x0001 | |
-------------------------------------------------------------------- |
| Channels | 2 Bytes |
声道数目,1--
单声道;2--
双声道
| |
-------------------------------------------------------------------- |
| SamplesPerSec | 4 Bytes |
采样频率
| |
-------------------------------------------------------------------- |
| AvgBytesPerSec| 4 Bytes |
每秒所需字节数
| |===> WAVE_FORMAT
-------------------------------------------------------------------- |
| BlockAlign | 2 Bytes |
数据块对齐单位(
每个采样需要的字节数
) | |
-------------------------------------------------------------------- |
| BitsPerSample | 2 Bytes |
每个采样需要的bit
数
| |
-------------------------------------------------------------------- |
| | 2 Bytes |
附加信息(可选,通过Size
来判断有无)
| |
-------------------------------------------------------------------- ----
图3 Format Chunk
以'fmt '
作为标示。一般情况下Size
为16
,此时最后附加信息没有;如果为18
,则最后多了2
个字节的附加信息。主要由一些软件制成的wav
格式中含有该2
个字节的附加信息。
Fact Chunk
==================================
| |
所占字节数|
具体内容
|
==================================
| ID | 4 Bytes | 'fact' |
----------------------------------
| Size | 4 Bytes |
数值为
4 |
----------------------------------
| data | 4 Bytes | |
----------------------------------
图4 Fact Chunk
Fact Chunk
是可选字段,一般当wav
文件由某些软件转化而成,则包含该Chunk
。
Data Chunk
==================================
| |
所占字节数|
具体内容
|
==================================
| ID | 4 Bytes | 'data' |
----------------------------------
| Size | 4 Bytes | |
----------------------------------
| data | | |
----------------------------------
图5 Data Chunk
Data Chunk
是真正保存wav
数据的地方,以'data'
作为该Chunk
的标示。然后是数据的大小。紧接着就是wav
数据。根据Format Chunk
中的声道数以及采样bit
数,wav
数据的bit
位置可以分成以下几种形式:
---------------------------------------------------------------------
|
单声道 |
取样1 |
取样2 |
取样3 |
取样
4 |
| |--------------------------------------------------------
| 8bit
量化 |
声道0 |
声道0 |
声道0 |
声道
0 |
---------------------------------------------------------------------
|
双声道 |
取样1 |
取样
2 |
| |--------------------------------------------------------
| 8bit
量化 |
声道0(
左) |
声道1(
右) |
声道0(
左) |
声道1(
右
) |
---------------------------------------------------------------------
| |
取样1 |
取样
2 |
|
单声道
|--------------------------------------------------------
| 16bit
量化 |
声道0 |
声道0 |
声道0 |
声道
0 |
| | (
低位字节) | (
高位字节) | (
低位字节) | (
高位字节
) |
---------------------------------------------------------------------
| |
取样
1 |
|
双声道
|--------------------------------------------------------
| 16bit
量化 |
声道0(
左) |
声道0(
左) |
声道1(
右) |
声道1(
右
) |
| | (
低位字节) | (
高位字节) | (
低位字节) | (
高位字节
) |
---------------------------------------------------------------------
图6 wav
数据bit
位置安排方式
3、小结
因此,根据上述结构定义以及格式介绍,很容易编写相应的wav
格式解析代码。这里具体的代码就不给出了。
二、代码的实现
根据上面的格式规定,我们把它写成一头文件wav.h
#ifndef _WAV_H_
2
#define
_WAV_H_
3
4
#include
"
types.h
"
5
6
#pragma pack(
1
)
7
8
struct
RIFF_HEADER
9
{
10
U8 szRiffID[
4
];
//
'R','I','F','F'
11
U32 dwRiffSize;
12
U8 szRiffFormat[
4
];
//
'W','A','V','E'
13
}
;
14
15
struct
WAVE_FORMAT
16
{
17
U16 wFormatTag;
18
U16 wChannels;
19
U32 dwSamplesPerSec;
20
U32 dwAvgBytesPerSec;
21
U16 wBlockAlign;
22
U16 wBitsPerSample;
23
U16 pack;
//
附加信息
24
}
;
25
struct
FMT_BLOCK
26
{
27
U8 szFmtID[
4
];
//
'f','m','t',' '
28
U32 dwFmtSize;
29
struct
WAVE_FORMAT wavFormat;
30
}
;
31
32
struct
FACT_BLOCK
33
{
34
U8 szFactID[
4
];
//
'f','a','c','t'
35
U32 dwFactSize;
36
}
;
37
38
struct
DATA_BLOCK
39
{
40
U8 szDataID[
4
];
//
'd','a','t','a'
41
U32 dwDataSize;
42
}
;
43
44
45
#endif
因为这是个简单的程序,我没有去规划,相就的WAV解码过程我放到main.c的main函数里做了,这是不应该的,请原谅
/*
******************************************************
2
* 这是配合我的博客《JRTPLIB@Conference DIY视频会议系统》
3
* 而写的一个阶段性实验。
4
* 作者:冯富秋 tinnal
5
* 邮箱:tinnal@163.com
6
* 博客:www.cnitblog.com/tinnal/
7
* 目期:2009-01-03
8
* 版本:1.00
9
********************************************************
*/
10
11
#include
"
stdio.h
"
12
#include
"
string.h
"
13
#include
"
types.h
"
14
#include
"
g711.h
"
15
#include
"
wav.h
"
16
17
struct
RIFF_HEADER riff_header;
18
struct
FMT_BLOCK fmt_block;
19
char
fack_block_buffer[
20
];
//
20 should be enough
20
struct
FACT_BLOCK fact_block;
21
struct
DATA_BLOCK data_block;
22
23
int
main(
int
argc,
char
**
argv)
24
{
25
FILE
*
wav_in;
26
FILE
*
wav_out;
27
U32 i;
28
U8 has_fact_block
=
0
;
29
30
unsigned
char
pcm_bytes[
2
];
31
short
pcm;
32
unsigned
char
a_law;
33
34
long
file_pos;
35
36
if
(argc
!=
3
)
37
{
38
printf(
"
Usage:/n/t%s <intput file> <output file>/n
"
, argv[
0
]);
39
exit(
-
1
);
40
}
41
42
wav_in
=
fopen(argv[
1
],
"
rb
"
);
43
if
(wav_in
==
NULL)
44
{
45
printf(
"
Can't open input file %s/n
"
, argv[
1
]);
46
return
(
-
1
);
47
}
48
49
wav_out
=
fopen(argv[
2
],
"
wb
"
);
50
if
( wav_out
==
NULL)
51
{
52
printf(
"
Can't open output file %s/n
"
,argv[
2
]);
53
fclose(wav_in);
54
return
(
-
1
);
55
}
56
57
file_pos
=
ftell(wav_in);
58
59
//
Read RIFF_HEADER
60
fread(
&
riff_header,
sizeof
(
struct
RIFF_HEADER),
1
, wav_in);
61
if
( memcmp(riff_header.szRiffID,
"
RIFF
"
,
4
)
!=
0
||
62
memcmp(riff_header.szRiffFormat,
"
WAVE
"
,
4
)
!=
0
)
63
{
64
printf(
"
No a vaild wave file!/n
"
);
65
fclose(wav_in);
66
fclose(wav_out);
67
return
(
-
1
);
68
}
69
file_pos
=
ftell(wav_in);
70
71
//
Read FMT_BLOCK
72
fread(
&
fmt_block,
sizeof
(
struct
FMT_BLOCK),
1
, wav_in);
73
if
( memcmp(fmt_block.szFmtID,
"
fmt
"
,
4
)
!=
0
||
74
fmt_block.dwFmtSize
!=
18
||
75
fmt_block.wavFormat.wFormatTag
!=
0x1
||
76
fmt_block.wavFormat.wChannels
!=
0x1
||
77
fmt_block.wavFormat.dwSamplesPerSec
!=
8000
||
78
fmt_block.wavFormat.wBitsPerSample
!=
16
)
79
{
80
printf(
"
Sorry this is only test program,/n
"
81
"
we only support follow format,/n
"
82
"
/t 1. Format: linear PCM /n
"
83
"
/t 2. Samples Rate: 8000 KHz /n
"
84
"
/t 3. Channels: one channel /n
"
85
"
/t 4. BitsPerSample: 16 /n
"
);
86
fclose(wav_in);
87
fclose(wav_out);
88
return
(
-
1
);
89
}
90
91
file_pos
=
ftell(wav_in);
92
93
//
Try to read FACT_BLOCK
94
file_pos
=
ftell(wav_in);
95
fread(
&
fact_block,
sizeof
(
struct
FACT_BLOCK),
1
, wav_in);
96
if
( memcmp(fact_block.szFactID,
"
fact
"
,
4
)
==
0
)
97
{
98
has_fact_block
=
1
;
99
fread(
&
fack_block_buffer, fact_block.dwFactSize,
1
, wav_in);
100
}
101
else
102
fseek(wav_in, file_pos, SEEK_SET);
103
104
fread(
&
data_block,
sizeof
(
struct
DATA_BLOCK),
1
, wav_in);
105
if
(memcmp(data_block.szDataID,
"
data
"
,
4
)
!=
0
)
106
{
107
printf(
"