TML格式化標簽
HTML 使用標簽 <b>("bold") 與 <i>("italic") 對輸出的文本進行格式, 如:粗體 or 斜體
通常標簽 <strong> 替換加粗標簽 <b> 來使用, <em> 替換 <i>標簽使用。
然而,這些標簽的含義是不同的:
<b> 與<i> 定義粗體或斜體文本。
<strong> 或者 <em>意味著你要呈現的文本是重要的,所以要突出顯示。現今所有主要瀏覽器都能渲染各種效果的字體。不過,未來瀏覽器可能會支持更好的渲染效果。
文本格式化
<b>加粗</b>
<strong>加粗</strong>
<big>字體放大</big>
<em>斜體</em>
<i>斜體</i>
<small>縮小</small>
<sub>下標</sub>
<sup>上標</sup>
預格式文本
計算機輸出標簽
地址
縮寫和首字母縮寫
文字方向
塊引用
刪除字與插入字效果
總結
html 段落
通過<p>標簽來創建段落(paragraph)
<p>這是一個段落</p>
瀏覽器會自動在段落的前后添加空格
●如果你希望在不產生一個新段落的情況下進行換行(新行),請使用<br>標簽
<p>這是一個段落</p>
<p>這是另一個段落</p>
<p>這個段落<br>演示了換行的效果</p>
●<br>元素是一個空的html元素,它沒有結束標簽.效果如下:
二 html文本格式化
html使用標簽<b>與<i>對輸出的文本進行格式化,如:粗體(bold)和斜體(italic).這些html標簽被稱為格式化標簽
<!doctype html>
<html>
<head>
<meta charset="utf-8">
<title>愛你的阿平</title>
</head>
<body>
<p><b>定義粗體文本</b></p>
<p><em>定義著重文字</em></p>
<p><i>定義斜體字</i></p>
<p><small>定義小號字<small></p>
<p><strong>定義重要的文本<strong></p>
<p><sub>下標字</sub></p>
<p><sup>上標字</sup></p>
<p><ins>定義插入字</ins></p>
<p><del>定義刪除字</del></p>
</body>
</html>
結果如下:
信息爆炸的互聯網時代,網絡爬蟲如同一把神奇的鑰匙,幫助我們打開海量網頁內容的大門。然而,在實際操作過程中,不規范的網頁格式、紛繁復雜的干擾元素,特別是那些占據屏幕空間、影響閱讀體驗的廣告,往往成為獲取高質量數據的一大阻礙。因此,一款專為網絡爬蟲設計的HTML廣告移除神器顯得尤為重要。這款工具利用強大的HtmlAgilityPack庫,能夠迅速而精準地識別并剔除帶有class='ad'屬性的廣告標簽,讓抓取到的頁面內容回歸其最純粹的本質。
代碼執行效果如圖:
調用代碼:
// 假設這是從某個網頁上抓取的包含廣告的“混亂”HTML文本
string clutteredHtml = @"<html><head><title>網頁標題</title></head><body><div class='header'><h1>網站標題</h1></div><div class='nav'><ul><li><a href='#'>首頁</a></li><li><a href='#'>關于我們</a></li><li><a href='#'>聯系我們</a></li></ul></div><div class='content'><p>正文內容1...</p><p>正文內容2...</p><p>正文內容3...</p></div><div class='ad'>廣告1...</div><div class='ad'>廣告2...</div><div class='ad'>廣告3...</div><div class='footer'><p>© 2023 版權所有</p></div></body></html>";
// 使用廣告移除功能對抓取的“臟亂差”HTML進行深度清理
string polishedHtml = ScrubAndRemoveAds(clutteredHtml);
// 廣告移除及HTML內容凈化的具體實現方法
public static string ScrubAndRemoveAds(string messyHtmlContent)
{
// 創建一個可以解析和理解HTML結構的對象,并載入抓取的HTML文本
var htmlParser = new HtmlDocument();
htmlParser.LoadHtml(messyHtmlContent);
// 掃描整個HTML文檔,找到所有標記為廣告(class屬性值為"ad")的部分并刪除
foreach (var adElement in htmlParser.DocumentNode.SelectNodes("//div[@class='ad']"))
{
adElement.Remove(); // 刪除廣告區域
}
// 返回已經清除廣告后的清爽HTML文本
return htmlParser.DocumentNode.OuterHtml;
}
這個代碼有效地解決了網絡爬蟲在抓取數據時遇到的廣告難題。無論對于追求極致閱讀體驗的個人用戶,還是力求優化數據質量、節省資源成本的企業級用戶,這個小工具都展現出了卓越的價值。無需繁瑣的操作流程,一鍵即可輕松擺脫廣告干擾,讓你獲得高質量、純凈的網頁內容。無論是單獨處理單個網頁,還是批量清洗大量的抓取數據,此工具都能得心應手,為您提供高效便捷的網絡數據整理解決方案。朋友們,喜歡就拿去吧,別忘記關注我:代碼領域的詩人XY,我是一個樂于分享的人。樂于將自己的知識和經驗分享給朋友們,幫助你們解決問題,啟發你們的思考。我相信,只有通過分享和交流,我們才能不斷進步,才能不斷創新。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。