java 获取网页源代码 | 学步园

返回顶部
查看留言
转到底部

现在的位置: 首页 > 综合 > 正文

java 获取网页源代码

2013年07月27日 ⁄ 综合 ⁄ 共 2284字 ⁄ 字号小中大 ⁄ 评论关闭

要分析某个网页中的代码构成，需要某个结点下的内容。用此原始方法可以得到整个网页的源码。其实更简单的方法是使用 WebClient 或 HtmlUtil 等开源方式。

[java]view

 plaincopy

public class HtmlParser {  

    public static String getHtmlContent(URL url, String encode) {  

        StringBuffer contentBuffer = new StringBuffer();  

        int responseCode = -1;  

        HttpURLConnection con = null;  

        try {  

            con = (HttpURLConnection) url.openConnection();  

            con.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");// IE代理进行下载  

            con.setConnectTimeout(60000);  

            con.setReadTimeout(60000);  

            // 获得网页返回信息码  

            responseCode = con.getResponseCode();  

            if (responseCode == -1) {  

                System.out.println(url.toString() + " : connection is failure...");  

                con.disconnect();  

                return null;  

            }  

            if (responseCode >= 400) // 请求失败  

            {  

                System.out.println("请求失败:get response code: " + responseCode);  

                con.disconnect();  

                return null;  

            }  

            InputStream inStr = con.getInputStream();  

            InputStreamReader istreamReader = new InputStreamReader(inStr, encode);  

            BufferedReader buffStr = new BufferedReader(istreamReader);  

            String str = null;  

            while ((str = buffStr.readLine()) != null)  

                contentBuffer.append(str);  

            inStr.close();  

        } catch (IOException e) {  

            e.printStackTrace();  

            contentBuffer = null;  

            System.out.println("error: " + url.toString());  

        } finally {  

            con.disconnect();  

        }  

        return contentBuffer.toString();  

    }  

    public static String getHtmlContent(String url, String encode) {  

        if (!url.toLowerCase().startsWith("http://")) {  

            url = "http://" + url;  

        }  

        try {  

            URL rUrl = new URL(url);  

            return getHtmlContent(rUrl, encode);  

        } catch (Exception e) {  

            e.printStackTrace();  

            return null;  

        }  

    }  

    public static void main(String argsp[]){  

        System.out.println(getHtmlContent("www.baidu.com","utf-8")) ;  

    }  

}

返回

【上篇】C语言求一维数组的元素个数
【下篇】重构的理想与现实

作者: exert

该日志由 exert 于11年前发表在综合分类下，最后更新于 2013年07月27日.
转载请注明: java 获取网页源代码 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

Copyright © 2013-2018 学步园保留所有权利.
软文销售 QQ客服：2265327166

点击这里给我发消息

（其他合作也可洽谈）