引用 mshtml
[1)去掉HTML标记及其标记中的属性
[2)axWebBrower 打开某个页面
[3)取出HTML源代码
1)去掉HTML标记及其标记中的属性
private string getOneValue(string TempStr)
{
if(TempStr.Length >0)
{
TempStr = regularExpressionsOfHTML(TempStr);
TempStr = TempStr.Substring(0,TempStr.Length-1);
}
return TempStr;
}
public static string regularExpressionsOfHTML(string TempContent)
{
//TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]+>",""); //任意多个
TempContent = System.Text.RegularExpressions.Regex.Replace(TempContent,"<[^>]*>",""); //匹配一个
return TempContent;
}
2)axWebBrower 打开某个页面
string Url = "**********";
object Zero = 0;
object EmptyString = "";
axWebBrowser.Navigate(Url ,ref Zero, ref EmptyString, ref EmptyString, ref EmptyString);
3)取出HTML源代码
在axWebBrower_DocumentComplete事件中比较好
引用:using mshtml;
IHTMLDocument2 HTMLDocument =(IHTMLDocument2) axWebBrowser1.Document;
string strHtml = HTMLDocument.body.innerHTML.ToString(); //Get HTML
string[] arHtml = strHtml.Split('\n');
此时arHtml中保存了所有的HTML source.