ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件
把
修改为:
ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件
把
修改为: