代码如下:
#encoding=utf-8
print '中国'
#从OpenOffice.org的文档中提取文本
#1.下载OpenOffice http://rj.baidu.com/soft/detail/15989.html?ald
#2.编译一个文档
#3.保存为sxw即 OpenOffice.org XML 1.0文档
import zipfile,re
rx_stripxml = re.compile('<[^>]*?', re.DOTALL|re.MULTILINE)
def convert_OO(filename, want_text=True):
zf = zipfile.ZipFile(filename, "r")
data = zf.read('content.xml')
zf.close()
if want_text:
data="".join(rx_stripxml.sub("",data).split())
......
阅读全文