火车头使用前后截取模式采集数据

现在的位置: 首页 > 综合 > 正文

火车头使用前后截取模式采集数据

2012年04月29日 ⁄ 综合 ⁄ 共 2001字 ⁄ 字号小中大 ⁄ 评论关闭

这里我们获得标题，可以选开始"<title>"结束"</title>"，然后过滤一下 “- 站长网”这字符，也可以开始“<title>"结束”- 站长网“来直接获得

标题。想获得关键字的话可以开始 <meta name="keywords" content=" 　结束　">

下边讲一下怎么获得内容，我们先打开网页源代码，查找内容附近的代码。

来源:<a href="http://www.zhengzhourc.com" target="_blank">郑州人才网</a><br /> 时间:2008-07-31 14:03<br /> 字体:[<a href='javascript:FontZoom(16)'>大</a> <a href='javascript:FontZoom(14)'>中</a> <a href='javascript:FontZoom(12)'>小</a>]<br /> <a href="/plus/stow.php?arcID=96671" target="_blank">收藏</a><br /> <a href="/member/article_add.php" target="_blank">我要投稿</a><br /> </div><br /> <div class="text"><br /> <div id="arctext"><br /> <p>　　做网站我认为最重要的就是两个字"人气",怎样让网民来一次就想来第二次、第三次，这是每个站长都必须要想的事情，我当时做论坛时刚开始没有人，后宣传一下来些人，但基本不发贴，再后来发了几个贴可很少见到回贴，呵呵，那段时间真有是有尽使不上，不知道从和下手，知道后来想到了破窗效应：</p><br /> <p>　　“破窗效应”的理论来源于美国心理学家詹巴斗进行的一次实验。在这项实验中：一位学者找来两量一模一样的汽车，分别把它们放置在中等阶级社区和杂乱街区，他把停在中等阶级社区的那辆车的车牌摘掉，顶棚打了个洞。结果这量车一天之内就被人偷走了。而放在杂乱街区的那辆车摆了一星期却仍旧完好无损。而把这辆车也打一个洞，结果仅过几小时这辆车也被偷走了。以这个实验为基础得出“破窗理论”。</p><br /> <p>　　一位企业老总经过仔细观察发现的现象：当一栋房子的窗户玻璃出现第一块破损后，如不及时修补，很快，其他玻璃会接二连三的遭到破坏，如果及时修补，其他玻璃极少在被破坏。</p><br /> <p>　　网站上如果有几个垃圾贴，那么不出很长时间垃圾贴会越来越多，有时候在论坛的回帖和文章的评论上也很明显，如果第一个评论的人骂作者，第二个人看到了很可能也会骂，那么第三个人肯定也是骂的，这就是破窗效应，但我们反过来想，如果头几个人都说作者的好，那么就很少会出现骂人的话了。</p><br /> <p>　　所以我当时就用好多马甲回复各个主题，加上朋友的帮忙，该社区很快有了人气，虽然访问量不是特别大，但基本上都是我们的忠实用户。</p><br /> <p>　　现在虽然我重点做郑州人才网而不做社区了，但这其中的道理是一样的，很多站长在推广增加流量的同时忽略了人气，其实人气和流量是同等重要的，怎么做出个有较高人气的网站，就要靠各位站长在解决用户需求的同时多多利用破窗理论喽!</p><br /> <center></center><br /> </div><br /> <div class="author"><span class="right navy"></span><a href='/member/index.php?uid=zhengzhourc' target='_blank'>作者 <font color='red'>郑州人才网</font> 的个人空间</a>

我们可以看到，文章前边是<div id="arctext">这个代码，我们查找一下，这是唯一的，可以使用，然后找后边文章结束有个这个代码

<center></center>，这个也是唯一的。这样，我们以这两个代码为开头和结尾就可以获得内容了。

规则下载

在使用前后截取模式采集数据时要善于使用通配符(*)。需要注意的是i通配符的使用是在代码的中间，两边是不能使用的，那样一般是会出错的，如果可以是以这个开始 <til(*)> ，但不能这样，(*)title 或是 title(*) 。比如这个可以代替任何内容，有的采集时不容易获得最开始的标识，或者说是那样的代码很多，比如代码里 (*)<div id="arctext"> 很多很多，但是有的代码后的很少，这时我们可以考虑用通配符。比如上边的我们开始可以写成　　　来源:<a(*)<div id="arctext">　　或者　我要投稿</a>(*)<div id="arctext">　或者　来源:(*)时间:(*)收藏</a>(*)我要投(*)<div id="arctext">　等........注意前边的基本都是唯一的代码.

使用前后截取模式采集数据是最常用的方法，也是最简单的方法，使用好这个可以基本采集的都可以处理了。

【上篇】第一个LaTeX源文件
【下篇】Perl调用其他程序方法

作者: hooter

该日志由 hooter 于12年前发表在综合分类下，最后更新于 2012年04月29日.
转载请注明: 火车头使用前后截取模式采集数据 | 学步园 +复制链接

抱歉!评论已关闭.

学步园

火车头使用前后截取模式采集数据

作者: hooter

书签

最新文章New

本站推荐

返回首页