现在的位置: 首页 > 综合 > 正文

CRF++模型文件格式分析

2013年10月02日 ⁄ 综合 ⁄ 共 2589字 ⁄ 字号 评论关闭

        CRF++一种用c++实现条件随机场模型的开源工具,性能好,被广泛用于在自然语言处理中。由于其实现复杂,很难理解,下面用文本方式来表述其模型文件的结构,希望加深对其实现方式的理解。

下面是对其模型文件的分析:

原始训练语料:中共中央/总书记/、/国家/主席/江泽民

训练语料数据格式

中 B

共 M

中 M

央 E

总 B

书 M

记 E

、 S

国 B

家 E

主 B

席 E

江 S

泽 B

民 E

模型头文件信息

version: 100

cost-factor: 1

maxid: 604

xsize: 1

B

E

M

S

U00:%x[-2,0]

U01:%x[-1,0]

U02:%x[0,0]

U03:%x[1,0]

U04:%x[2,0]

U05:%x[-2,0]/%x[-1,0]

U06:%x[-1,0]/%x[0,0]

U07:%x[0,0]/%x[1,0]

U08:%x[1,0]/%x[2,0]

U09:%x[-1,0]/%x[1,0]

B

抽取出来的特征

U00

U01

U02

U03

U04

U05

U06

U07

U08

U09

40 U00:_B-1

0 U00:_B-2

348 U00:

116 U00:

388 U00:

308 U00:

428 U00:

548 U00:

268 U00:

508 U00:

188 U00:

80 U00:

468 U00:

228 U00:

4 U01:_B-1

312 U01:

84 U01:

352 U01:

272 U01:

392 U01:

512 U01:

232 U01:

472 U01:

152 U01:

552 U01:

44 U01:

432 U01:

192 U01:

276 U02:

48 U02:

316 U02:

236 U02:

356 U02:

476 U02:

556 U02:

196 U02:

436 U02:

120 U02:

516 U02:

8 U02:

396 U02:

156 U02:

560 U03:_B+1

240 U03:

12 U03:

280 U03:

200 U03:

320 U03:

440 U03:

520 U03:

160 U03:

400 U03:

88 U03:

480 U03:

52 U03:

360 U03:

124 U03:

524 U04:_B+1

564 U04:_B+2

204 U04:

244 U04:

164 U04:

284 U04:

404 U04:

484 U04:

128 U04:

364 U04:

56 U04:

444 U04:

16 U04:

324 U04:

92 U04:

60 U05:_B-1/

20 U05:_B-2/_B-1

368 U05:/

132 U05:/

408 U05:/

328 U05:/

448 U05:/

568 U05:/

288 U05:/

528 U05:/

208 U05:/

96 U05:/

168 U05:/

488 U05:/

248 U05:/

24 U06:_B-1/

332 U06:/

100 U06:/

372 U06:/

292 U06:/

412 U06:/

532 U06:/

252 U06:/

492 U06:/

172 U06:/

572 U06:/

64 U06:/

136 U06:/

452 U06:/

212 U06:/

296 U07:/

68 U07:/

336 U07:/

256 U07:/

376 U07:/

496 U07:/

576 U07:/_B+1

216 U07:/

456 U07:/

140 U07:/

536 U07:/

28 U07:/

104 U07:/

416 U07:/

176 U07:/

580 U08:_B+1/_B+2

260 U08:/

32 U08:/

300 U08:/

220 U08:/

340 U08:/

460 U08:/

540 U08:/_B+1

180 U08:/

420 U08:/

108 U08:/

500 U08:/

72 U08:/

380 U08:/

144 U08:/

36 U09:_B-1/

344 U09:/

112 U09:/

384 U09:/

304 U09:/

424 U09:/

544 U09:/

264 U09:/

504 U09:/

184 U09:/

584 U09:/_B+1

76 U09:/

148 U09:/

464 U09:/

224 U09:/

           从上述的抽取出来的特征来看,抽取的特征跟最大熵工具包的模型文件很类似,只是最大熵工具包需要手动抽取特征。

概率文件

0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.0948219953898075
-0.1121206524367462
0.1148967505813277
-0.0975980935343863
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535
0.1781349639479855
-0.0532539981230133
-0.0708847888213166
-0.0539961770036535

               .......

          最后是很多数字,很难看懂。但是有个特征,我们用了四字标记集,下面的概率文件差不多按照4个数字的规律重复。

抱歉!评论已关闭.