C 解析HTML類庫組件-Html Agility

C 解析HTML類庫組件-Html Agility Pack

tml Agility Pack是什么

Html Agility Pack是一個HTML解析器，用于讀/寫DOM對象，支持普通的xpath或xslt。

它是一個.NET開源庫，提供解析HTML文件，具有一定的容錯機制。

使用簡單，解析速度快，一般使用在抓取網頁數據中。

Github開源地址

https://github.com/zzzprojects/html-agility-pack

NuGet

https://www.nuget.org/packages/HtmlAgilityPack/

Stack Overflow Support

https://stackoverflow.com/questions/tagged/html-agility-pack

C# HTML Parser Examples

// From File
var doc=new HtmlDocument();
doc.Load(filePath);
// From String
var doc=new HtmlDocument();
doc.LoadHtml(html);
// From Web
var url="http://html-agility-pack.net/";
var web=new HtmlWeb();
var doc=web.Load(url);

tmlParse 是一款基于windwos平臺的HTML文檔解析工具，可快速構建DOM樹，從而輕松實現網頁元素的爬取工作。DOM樹就是一個HTML文檔的節點樹，每個節點由：標簽（Tag）、屬性（Attribute）、文本（Text）三個值來描述。

所謂的HTML文檔解析，指的就是如何構建一顆DOM樹，只有成功構建出DOM樹，才有可能進行后續的數據爬取和分析工作。顯然，構建DOM樹是比較復雜的過程，因為不是每一個HTML文檔都會嚴格按照規范來書寫，因此解析過程需要具有一定容錯能力。此外，解析效率也是一個需要考慮的因素，也就是說最好通過一次文檔掃描即可建立起DOM樹，而不是反復掃描。

下面是HtmlParse介紹。

工具特點

1、綠色純天然，無任何第三方依賴庫，文件大小不到150K； 2、解析速度快，具有一定的HTML語法容錯能力，可快速將HMTL文檔解析為DOM樹； 3、基于命令行參數，可通過不同參數獲取指定TAG的屬性值和文本內容，從而實現網頁爬取功能； 4、可將爬取數據輸出為json格式，方便第三方程序進一步分析和使用； 5、可爬取script腳本到指定的js文件中；

下載地址：http://softlee.cn/HtmlParse.zip

使用方法

HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]

解析指定的HTML文檔，并將文檔中指定的標簽及屬性輸出到指定文件中。

HtmlPathFile：必選參數，要解析的HTML文檔路徑名，如果文件路徑中有空格，可使用雙引號將文件路徑包含；
-tag：必選參數，用于指定要抓取的HTML標簽名稱； -attr：可選參數，用于指定標簽的屬性值，如果不指定，則返回該標簽的所有屬性值； -o：可選參數，用于指定抓取內容輸出的文件，可將抓取的內容保存為json格式的文件。如果該參數不指定，則進行控制臺輸出。如果抓取的是script、style則會保存為js格式文件。

如果要抓取doctype，可使用-tag doctype，將整個doctype內容獲取。此時將會忽略-attr指定的任何屬性值。

舉例說明

1、爬取網頁中所有超鏈接

HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json

解析C盤下的sina.html文檔，并提取該文檔中的所有超鏈接到sina.json文件中。其中**-tag a -attr href，用于指定獲取超鏈接標簽a的href**屬性。

2、爬取網頁中所有圖片鏈接

HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json

解析C盤下的sina.html文檔，并提取該文檔中的所有圖片鏈接到sina.json文件中。

3、爬取網頁中所有腳本

HtmlParse c:/sina.html -tag script -o c:/sina.js

解析C盤下的sina.html文檔，并提取該文檔中的所有腳本函數到sina.js文件中。

輸出內容

如果通過-o參數指定輸出文件，則會生成一個json格式的文檔。 TagName為爬取的標簽名稱，比如超鏈接的a，其值是一個json數組，數組中的每個內容為Json對象，每個Json對象，有屬性和文本構成。如果-attr 指定了要爬取的屬性，則AttrName為指定的屬性名稱，比如href或src。text為該標簽的文本內容，有些標簽不存在文本內容，比如img、meta等，則該值為空。json格式如下：

{
  "TagName":
  {
     {"AttrName":"AttrValue1", "text":"text1"}
     {"AttrName":"AttrValue1", "text":"text2"}
  }
}

下面是一個sina網頁的所有超鏈接json

{
 "a": [{
  "href": "javascript：;",
  "text": "設為首頁"
 }, {
  "href": "javascript：;",
  "text": "我的菜單"
 }, {
  "href": "https://sina.cn/",
  "text": "手機新浪網"
 }, {
  "href": "",
  "text": "移動客戶端"
 }, {
  "href": "https://c.weibo.cn/client/guide/download",
  "text": "新浪微博"
 }, {
  "href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html",
  "text": "新浪新聞"
 }, {
  "href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml",
  "text": "新浪財經"
 }, {
  "href": "https://m.sina.com.cn/m/sinasports.shtml",
  "text": "新浪體育"
 }, {
  "href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc",
  "text": "黑貓投訴"
 }, {
  "href": "http://blog.sina.com.cn/lm/z/app/",
  "text": "新浪博客"
 }, {
  "href": "https://games.sina.com.cn/o/kb/12392.shtml",
  "text": "新浪游戲"
 }, {
  "href": "https://zhongce.sina.com.cn/about/app",
  "text": "新浪眾測"
 }, {
  "href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login",
  "text": "新浪郵箱客戶端"
 }, {
  "href": "javascript：;",
  "text": "關閉置頂"
 }, {

來源：https://www.cnblogs.com/softlee/p/16374079.html

HTML（HyperText Markup Language，中文：超文本標記語言）是一種用于創建網頁結構和內容的標記語言。它由一系列標簽組成，這些標簽描述了網頁中的各個元素和其它相關信息。通過使用HTML標簽和屬性，開發人員可以定義文本、圖像、鏈接、表格、表單等元素，并控制它們的外觀和行為。本文主要介紹HTML的基本概念、歷史背景和用途。

參考文檔：https://www.cjavapy.com/article/3297/

HTML實例：

<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>CJAVAPY編程之路(cjavapy.com)</title>
</head>
<body>
 
<h1>我的第一個標題</h1>
 
<p>我的第一個段落。</p>
 
</body>
</html>

HTML文檔的后綴名可以是.html或.htm，都可以使用，沒有區別。

注意：對于中文網頁需要使用<meta charset="utf-8"> 聲明編碼，否則會出現亂碼。有些瀏覽器(如 360 瀏覽器)會設置 GBK 為默認編碼，則你需要設置為<meta charset="gbk"> 。

1、HTML的基本概念

1）標簽（Tag）

HTML使用標簽來定義網頁中的各個元素。標簽通常以尖括號< >的形式出現，如<p>表示段落，<img>表示圖像等。標簽可以包含屬性，用于提供額外的信息或控制元素的行為。

2）元素（Element）

一個完整的HTML元素由開始標簽、內容和結束標簽組成。例如，<p>這是一個段落</p>就是一個完整的段落元素。

3）屬性（Attribute）

HTML標簽可以具有屬性，用于提供元素的額外信息或控制元素的行為。屬性以鍵值對的形式出現，例如<img src="image.jpg">中的src屬性指定了圖像的源文件。

4）文檔結構

一個HTML文檔由<html>、<head>和<body>等標簽組成。其中，<html>標簽用于定義整個HTML文檔的根元素，<head>標簽用于定義文檔的頭部信息，如標題和樣式表鏈接，<body>標簽用于定義文檔的主體內容。

5）塊級元素和內聯元素

HTML元素可以被分類為塊級元素和內聯元素。塊級元素以塊的形式顯示，獨占一行或一塊空間，如<p>、<div>等。內聯元素以行內的方式顯示，不會獨占一行，如<span>、<a>等。

6）嵌套

HTML元素可以嵌套在其他元素內部，形成一個層次結構。例如，<div>元素可以包含<p>元素，<p>元素可以包含<span>元素。

7）<!DOCTYPE> 聲明

HTML文檔的開頭通常會包含一個DOCTYPE聲明，用于指定文檔的HTML版本。

例如：

<!DOCTYPE html>
<!DOCTYPE HTML>
<!doctype html>
<!Doctype Html>

2、HTML與Web 瀏覽器

HTML（HyperText Markup Language）是一種用于創建網頁結構和內容的標記語言，而Web瀏覽器（如谷歌瀏覽器，Internet Explorer，Firefox，Safari）是用于顯示和解釋HTML文檔的應用程序。Web瀏覽器通過解析HTML文檔，將其轉換為可視化的網頁。瀏覽器會讀取HTML文檔中的標簽和內容，并根據這些標簽和內容的定義，渲染出網頁的結構和樣式。HTML提供了各種標簽和屬性，用于定義文本、圖像、鏈接、表格、表單等在網頁中的展示和交互方式。瀏覽器在解析HTML時，會根據標簽和屬性的定義，將文本顯示為段落、標題或其他格式，顯示圖像、鏈接，并響應用戶的交互操作。

通過HTML和Web瀏覽器的結合，用戶可以在瀏覽器中訪問和瀏覽各種網頁內容，包括網頁文本、圖像、視頻、音頻等多媒體元素，并與網頁進行交互，如點擊鏈接、填寫表單、提交數據等。

大部分瀏覽器中，直接輸出中文會出現中文亂碼的情況，需要在頭部將字符聲明為 UTF-8 或 GBK。

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>
頁面標題</title>
</head>
<body>
 
<h1>我的第一個標題</h1>
 
<p>我的第一個段落。</p>
 
</body>
</html>

3、HTML版本及歷史背景

HTML有多個版本，每個版本都有不同的特性和改進。

版本	發布時間
HTML	1991
HTML+	1993
HTML 2.0	1995
HTML 3.2	1997
HTML 4.01	1999
XHTML 1.0	2000
HTML5	2014

1）HTML 1.0

HTML 1.0是最早的HTML版本，于1993年發布。它只包含一些基本的標簽和屬性，用于創建簡單的文本和鏈接。HTML 1.0的目標是定義一種通用的超文本標記語言。

2）HTML 2.0

HTML 2.0于1995年發布，是對HTML 1.0的改進和擴展。它引入了一些新的標簽和屬性，如圖像標簽和表格標簽，以支持更豐富的內容展示。

3）HTML 3.2

HTML 3.2于1997年發布，是對HTML 2.0的進一步改進。它引入了一些新的標簽和屬性，如表單標簽和框架標簽，以支持交互性和頁面布局。

4）HTML 4.01

HTML 4.01于1999年發布，是對HTML 3.2的修訂和擴展。它引入了更多的標簽和屬性，如層標簽和樣式表，以支持更靈活的頁面設計和樣式控制。

5）XHTML 1.0

XHTML（eXtensible HyperText Markup Language）是基于XML的HTML版本。XHTML 1.0于2000年發布，它嚴格遵循XML的語法規則，要求所有標簽和屬性都要正確嵌套和閉合。

6）HTML5

HTML5是HTML的最新版本，于2014年正式發布。HTML5引入了許多新的特性和API，如語義化標簽、多媒體支持、Canvas繪圖、本地存儲等。HTML5還支持響應式設計，以適應不同設備和屏幕尺寸。

4、HTML用途

HTML是構建網頁結構和內容的基礎語言，它提供了豐富的標簽和屬性，使得開發者可以創建各種類型的網頁，并實現不同的功能和效果。HTML用于定義網頁的整體結構，包括標題、段落、列表、標題、導航菜單等元素。通過使用不同的HTML標簽和屬性，可以將文本、圖像、音頻、視頻等內容組織起來，并構建頁面的層次結構。HTML可以用于展示文本內容和多媒體元素，如圖像、音頻和視頻。通過使用適當的HTML標簽和屬性，可以插入和顯示各種類型的媒體內容，從而使網頁更加豐富和吸引人。HTML提供了創建表單的標簽和元素，可以用于收集用戶的輸入數據。通過使用表單元素如文本框、復選框、單選按鈕和下拉列表等，用戶可以輸入數據并提交給服務器進行處理。