Html Agility Pack是一個HTML解析器,用于讀/寫DOM對象,支持普通的xpath或xslt。
它是一個.NET開源庫,提供解析HTML文件,具有一定的容錯機制。
使用簡單,解析速度快,一般使用在抓取網頁數據中。
https://github.com/zzzprojects/html-agility-pack
https://www.nuget.org/packages/HtmlAgilityPack/
https://stackoverflow.com/questions/tagged/html-agility-pack
// From File
var doc=new HtmlDocument();
doc.Load(filePath);
// From String
var doc=new HtmlDocument();
doc.LoadHtml(html);
// From Web
var url="http://html-agility-pack.net/";
var web=new HtmlWeb();
var doc=web.Load(url);
tmlParse 是一款基于windwos平臺的HTML文檔解析工具,可快速構建DOM樹,從而輕松實現網頁元素的爬取工作。DOM樹就是一個HTML文檔的節點樹,每個節點由:標簽(Tag)、屬性(Attribute)、文本(Text)三個值來描述。
所謂的HTML文檔解析,指的就是如何構建一顆DOM樹,只有成功構建出DOM樹,才有可能進行后續的數據爬取和分析工作。顯然,構建DOM樹是比較復雜的過程,因為不是每一個HTML文檔都會嚴格按照規范來書寫,因此解析過程需要具有一定容錯能力。此外,解析效率也是一個需要考慮的因素,也就是說最好通過一次文檔掃描即可建立起DOM樹,而不是反復掃描。
下面是HtmlParse介紹。
1、綠色純天然,無任何第三方依賴庫,文件大小不到150K; 2、解析速度快,具有一定的HTML語法容錯能力,可快速將HMTL文檔解析為DOM樹; 3、基于命令行參數,可通過不同參數獲取指定TAG的屬性值和文本內容,從而實現網頁爬取功能; 4、可將爬取數據輸出為json格式,方便第三方程序進一步分析和使用; 5、可爬取script腳本到指定的js文件中;
下載地址:http://softlee.cn/HtmlParse.zip
HtmlParse HtmlPathFile -tag TagName [-attr] [Attribute] [-o] [JsonPathFile]
解析指定的HTML文檔,并將文檔中指定的標簽及屬性輸出到指定文件中。
HtmlPathFile:必選參數,要解析的HTML文檔路徑名,如果文件路徑中有空格,可使用雙引號將文件路徑包含;
-tag:必選參數,用于指定要抓取的HTML標簽名稱; -attr:可選參數,用于指定標簽的屬性值,如果不指定,則返回該標簽的所有屬性值; -o:可選參數,用于指定抓取內容輸出的文件,可將抓取的內容保存為json格式的文件。 如果該參數不指定,則進行控制臺輸出。 如果抓取的是script、style則會保存為js格式文件。
如果要抓取doctype,可使用-tag doctype,將整個doctype內容獲取。此時將會忽略-attr指定的任何屬性值。
1、爬取網頁中所有超鏈接
HtmlParse c:/sina.html -tag a -attr href -o c:/sina.json
解析C盤下的sina.html文檔,并提取該文檔中的所有超鏈接到sina.json文件中。其中**-tag a -attr href,用于指定獲取超鏈接標簽a的href**屬性。
2、爬取網頁中所有圖片鏈接
HtmlParse c:/sina.html -tag img -attr src -o c:/sina.json
解析C盤下的sina.html文檔,并提取該文檔中的所有圖片鏈接到sina.json文件中。
3、爬取網頁中所有腳本
HtmlParse c:/sina.html -tag script -o c:/sina.js
解析C盤下的sina.html文檔,并提取該文檔中的所有腳本函數到sina.js文件中。
如果通過-o參數指定輸出文件,則會生成一個json格式的文檔。 TagName為爬取的標簽名稱,比如超鏈接的a,其值是一個json數組,數組中的每個內容為Json對象,每個Json對象,有屬性和文本構成。如果-attr 指定了要爬取的屬性,則AttrName為指定的屬性名稱,比如href或src。text為該標簽的文本內容,有些標簽不存在文本內容,比如img、meta等,則該值為空。json格式如下:
{
"TagName":
{
{"AttrName":"AttrValue1", "text":"text1"}
{"AttrName":"AttrValue1", "text":"text2"}
}
}
下面是一個sina網頁的所有超鏈接json
{
"a": [{
"href": "javascript:;",
"text": "設為首頁"
}, {
"href": "javascript:;",
"text": "我的菜單"
}, {
"href": "https://sina.cn/",
"text": "手機新浪網"
}, {
"href": "",
"text": "移動客戶端"
}, {
"href": "https://c.weibo.cn/client/guide/download",
"text": "新浪微博"
}, {
"href": "https://so.sina.cn/palmnews/web-sinanews-app-download.d.html",
"text": "新浪新聞"
}, {
"href": "https://finance.sina.com.cn/mobile/comfinanceweb.shtml",
"text": "新浪財經"
}, {
"href": "https://m.sina.com.cn/m/sinasports.shtml",
"text": "新浪體育"
}, {
"href": "https://tousu.sina.com.cn/about_app/index?frompage=heimaopc",
"text": "黑貓投訴"
}, {
"href": "http://blog.sina.com.cn/lm/z/app/",
"text": "新浪博客"
}, {
"href": "https://games.sina.com.cn/o/kb/12392.shtml",
"text": "新浪游戲"
}, {
"href": "https://zhongce.sina.com.cn/about/app",
"text": "新浪眾測"
}, {
"href": "https://mail.sina.com.cn/client/mobile/index.php?suda-key=mail_app&suda-value=login",
"text": "新浪郵箱客戶端"
}, {
"href": "javascript:;",
"text": "關閉置頂"
}, {
來源:https://www.cnblogs.com/softlee/p/16374079.html
HTML(HyperText Markup Language,中文:超文本標記語言)是一種用于創建網頁結構和內容的標記語言。它由一系列標簽組成,這些標簽描述了網頁中的各個元素和其它相關信息。通過使用HTML標簽和屬性,開發人員可以定義文本、圖像、鏈接、表格、表單等元素,并控制它們的外觀和行為。本文主要介紹HTML的基本概念、歷史背景和用途。
參考文檔:https://www.cjavapy.com/article/3297/
HTML實例:
<!DOCTYPE html>
<html>
<head>
<meta charset="utf-8">
<title>CJAVAPY編程之路(cjavapy.com)</title>
</head>
<body>
<h1>我的第一個標題</h1>
<p>我的第一個段落。</p>
</body>
</html>
HTML文檔的后綴名可以是.html或.htm,都可以使用,沒有區別。
注意:對于中文網頁需要使用<meta charset="utf-8"> 聲明編碼,否則會出現亂碼。有些瀏覽器(如 360 瀏覽器)會設置 GBK 為默認編碼,則你需要設置為<meta charset="gbk"> 。
1)標簽(Tag)
HTML使用標簽來定義網頁中的各個元素。標簽通常以尖括號< >的形式出現,如<p>表示段落,<img>表示圖像等。標簽可以包含屬性,用于提供額外的信息或控制元素的行為。
2)元素(Element)
一個完整的HTML元素由開始標簽、內容和結束標簽組成。例如,<p>這是一個段落</p>就是一個完整的段落元素。
3)屬性(Attribute)
HTML標簽可以具有屬性,用于提供元素的額外信息或控制元素的行為。屬性以鍵值對的形式出現,例如<img src="image.jpg">中的src屬性指定了圖像的源文件。
4)文檔結構
一個HTML文檔由<html>、<head>和<body>等標簽組成。其中,<html>標簽用于定義整個HTML文檔的根元素,<head>標簽用于定義文檔的頭部信息,如標題和樣式表鏈接,<body>標簽用于定義文檔的主體內容。
5)塊級元素和內聯元素
HTML元素可以被分類為塊級元素和內聯元素。塊級元素以塊的形式顯示,獨占一行或一塊空間,如<p>、<div>等。內聯元素以行內的方式顯示,不會獨占一行,如<span>、<a>等。
6)嵌套
HTML元素可以嵌套在其他元素內部,形成一個層次結構。例如,<div>元素可以包含<p>元素,<p>元素可以包含<span>元素。
7)<!DOCTYPE> 聲明
HTML文檔的開頭通常會包含一個DOCTYPE聲明,用于指定文檔的HTML版本。
例如:
<!DOCTYPE html>
<!DOCTYPE HTML>
<!doctype html>
<!Doctype Html>
HTML(HyperText Markup Language)是一種用于創建網頁結構和內容的標記語言,而Web瀏覽器(如谷歌瀏覽器,Internet Explorer,Firefox,Safari)是用于顯示和解釋HTML文檔的應用程序。Web瀏覽器通過解析HTML文檔,將其轉換為可視化的網頁。瀏覽器會讀取HTML文檔中的標簽和內容,并根據這些標簽和內容的定義,渲染出網頁的結構和樣式。HTML提供了各種標簽和屬性,用于定義文本、圖像、鏈接、表格、表單等在網頁中的展示和交互方式。瀏覽器在解析HTML時,會根據標簽和屬性的定義,將文本顯示為段落、標題或其他格式,顯示圖像、鏈接,并響應用戶的交互操作。
通過HTML和Web瀏覽器的結合,用戶可以在瀏覽器中訪問和瀏覽各種網頁內容,包括網頁文本、圖像、視頻、音頻等多媒體元素,并與網頁進行交互,如點擊鏈接、填寫表單、提交數據等。
大部分瀏覽器中,直接輸出中文會出現中文亂碼的情況,需要在頭部將字符聲明為 UTF-8 或 GBK。
<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>
頁面標題</title>
</head>
<body>
<h1>我的第一個標題</h1>
<p>我的第一個段落。</p>
</body>
</html>
HTML有多個版本,每個版本都有不同的特性和改進。
版本 | 發布時間 |
HTML | 1991 |
HTML+ | 1993 |
HTML 2.0 | 1995 |
HTML 3.2 | 1997 |
HTML 4.01 | 1999 |
XHTML 1.0 | 2000 |
HTML5 | 2014 |
1)HTML 1.0
HTML 1.0是最早的HTML版本,于1993年發布。它只包含一些基本的標簽和屬性,用于創建簡單的文本和鏈接。HTML 1.0的目標是定義一種通用的超文本標記語言。
2)HTML 2.0
HTML 2.0于1995年發布,是對HTML 1.0的改進和擴展。它引入了一些新的標簽和屬性,如圖像標簽和表格標簽,以支持更豐富的內容展示。
3)HTML 3.2
HTML 3.2于1997年發布,是對HTML 2.0的進一步改進。它引入了一些新的標簽和屬性,如表單標簽和框架標簽,以支持交互性和頁面布局。
4)HTML 4.01
HTML 4.01于1999年發布,是對HTML 3.2的修訂和擴展。它引入了更多的標簽和屬性,如層標簽和樣式表,以支持更靈活的頁面設計和樣式控制。
5)XHTML 1.0
XHTML(eXtensible HyperText Markup Language)是基于XML的HTML版本。XHTML 1.0于2000年發布,它嚴格遵循XML的語法規則,要求所有標簽和屬性都要正確嵌套和閉合。
6)HTML5
HTML5是HTML的最新版本,于2014年正式發布。HTML5引入了許多新的特性和API,如語義化標簽、多媒體支持、Canvas繪圖、本地存儲等。HTML5還支持響應式設計,以適應不同設備和屏幕尺寸。
HTML是構建網頁結構和內容的基礎語言,它提供了豐富的標簽和屬性,使得開發者可以創建各種類型的網頁,并實現不同的功能和效果。HTML用于定義網頁的整體結構,包括標題、段落、列表、標題、導航菜單等元素。通過使用不同的HTML標簽和屬性,可以將文本、圖像、音頻、視頻等內容組織起來,并構建頁面的層次結構。HTML可以用于展示文本內容和多媒體元素,如圖像、音頻和視頻。通過使用適當的HTML標簽和屬性,可以插入和顯示各種類型的媒體內容,從而使網頁更加豐富和吸引人。HTML提供了創建表單的標簽和元素,可以用于收集用戶的輸入數據。通過使用表單元素如文本框、復選框、單選按鈕和下拉列表等,用戶可以輸入數據并提交給服務器進行處理。
參考文檔:https://www.cjavapy.com/article/3297/
*請認真填寫需求信息,我們會在24小時內與您取得聯系。