现在的位置: 首页 > 综合 > 正文

Apache Nutch网页快照乱码的问题

2013年09月11日 ⁄ 综合 ⁄ 共 413字 ⁄ 字号 评论关闭

 ApacheNutch显示网页快照时,如果有汉字,可能会出现乱码。比如,原网页是用gb2312编码的,显示时就不能正常显示。
解决方法是:当不能正常取到Encoding时,就从Content-Type中获取。
具体为:修改cached.jsp文件

    else
        content new String(bean.getContent(details));
修改为:
    else {
     int index contentType.indexOf("charset=");
     encoding "utf-8";
     if(index>=0){
        encoding contentType.substring(index+8);
     }
     content new String(bean.getContent(details),encoding);
    }

抱歉!评论已关闭.