（转）获取HTML页面内容后格式化显示的办法

现在的位置: 首页 > 综合 > 正文

（转）获取HTML页面内容后格式化显示的办法

2013年02月18日 ⁄ 综合 ⁄ 共 588字 ⁄ 字号小中大 ⁄ 评论关闭

获取html页面内容的方法有很多了，一般都是连接上以后取得页面的内容，然后进行分析。一般用JDK里面提供的 URL和URLConnection 类，就可以实现；当然，也可以用其他工具来实现，比如 httpunit(用这个有时候会有问题，如果页面里面有反盗链的设置或者其他一些有问题的代码，很可能就连接不上了)。如果单纯只是想得到页面的内容，用JDK里面提供的类就足够。

得到了页面内容以后，怎么显示在我们自己的页面上面呢？特别是要显示在TEXTAREA这样的区域里面就会有点点麻烦。

因为我们获得的内容里面有html标记和javascript标记，或者css标记。

如果直接把这些内容打印出来，或者直接放到TEXTAREA里面,就会报错。。怎么来解决？

一般大家都会想到用字符串来替换，比如把"<"替换成"[" 等等，或者用正则表达式，来过滤这些标记。

其实有一直很简单方法,就是把得到的页面内容放在<div></div>中间，例如:

然后用javascript来取content,

function show()
{
form1.content.value = document.getElementById("content").innerText;
}

这样就自动过滤了那些烦人的标记了哦！！

【上篇】升级Server2008导致.Net Framework 版本出错
【下篇】IE7下图片上传预览实现

作者: idem

该日志由 idem 于11年前发表在综合分类下，最后更新于 2013年02月18日.
转载请注明: （转）获取HTML页面内容后格式化显示的办法 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

（转）获取HTML页面内容后格式化显示的办法

作者: idem

书签

最新文章New

本站推荐

返回首页