爬虫/蜘蛛程序的制作（C#语言）二

现在的位置: 首页 > 综合 > 正文

RSS

爬虫/蜘蛛程序的制作（C#语言）二

2012年07月07日 ⁄ 综合 ⁄ 共 3803字 ⁄ 字号小中大 ⁄ 评论关闭

今天给大家列出一些代码，仅供参考
列出数据层和逻辑层的代码

WebPage类

这个是逻辑层的一个辅助类

WebDetail类

这个是个页面最终解析类

WebPage类

using System;

using System.Collections.Generic;

using System.Text;

using System.IO;

using System.Net;

using System.Text.RegularExpressions;

namespace WebPage

{

/// <summary>

/// 功能：web页面基类

/// 创建时间：07-3-5

/// 创建人：曹振华

/// </summary>

public class WebPage

{

private string _strUrl;

private int _intTimeOut;//设置抓取时间

private string _strCutHtmlRegex;//截取列表内容部分正则

private int _intflag;

//网页的url地址

public string Url

{

get { return _strUrl; }

set { _strUrl = value; }

}

//抓取超时时间

public int TimeOut

{

get { return _intTimeOut; }

set { _intTimeOut = value; }

}

//截取主要内容的正则表达式

public string CutRegex

{

get { return _strCutHtmlRegex; }

set { _strCutHtmlRegex = value; }

}

//网页的内容

public string PageHtml

{

get { return GetUrlstrHtml(); }

}

//获取正则表达式得到的match

public Match matchRegexHtml

{

get { return GetRegexHtml(); }

}

//过滤标志

public int filterFlag

{

get { return _intflag; }

set { _intflag = value; }

}

///////////////////////////////////////////////////////////////////////////////////////////

//获取页面内容

protected string GetUrlstrHtml()

{

string strHtml = "";

strHtml = WebPageTools.GetConent(_strUrl, _intTimeOut, filterFlag);

return strHtml;

}

//获取截取的页面内容

protected Match GetRegexHtml()

{

Regex reg = new Regex(_strCutHtmlRegex, RegexOptions.Multiline | RegexOptions.IgnorePatternWhitespace | RegexOptions.ExplicitCapture | RegexOptions.IgnoreCase);

Match match;

try

{

match = reg.Match(GetUrlstrHtml());

}

catch

【上篇】sql server 2005 T-SQL CEILING (Transact-SQL)
【下篇】LiteORM学习七：远程对象访问Socket篇

作者: zhaoxiangan

该日志由 zhaoxiangan 于12年前发表在综合分类下，最后更新于 2012年07月07日.
转载请注明: 爬虫/蜘蛛程序的制作（C#语言）二 | 学步园 +复制链接

抱歉!评论已关闭.

返回首页

（其他合作也可洽谈）

必威体育

必威电竞

学步园