C# 正則獲取網頁內容, 抓取html源代碼里的 title

C#中，你可以使用System.Net.Http.HttpClient來從網頁獲取HTML內容，然后使用System.Text.RegularExpressions.Regex來解析和提取HTML中的<title>標簽內容。以下是一個簡單的示例，演示了如何執行此操作：

csharpusing System;
using System.Net.Http;
using System.Text.RegularExpressions;
using System.Threading.Tasks;

class Program
{
    static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        try
        {
            // 要抓取內容的網頁URL
            string url = "http://example.com";
            
            // 發送HTTP GET請求獲取網頁內容
            string htmlContent = await client.GetStringAsync(url);

            // 正則表達式，用于匹配<title>標簽內的內容
            string titlePattern = @"<title>(.+?)</title>";

            // 使用Regex.Match方法查找匹配項
            Match match = Regex.Match(htmlContent, titlePattern);

            // 如果找到了匹配項
            if (match.Success)
            {
                // 提取<title>標簽內的內容
                string title = match.Groups[1].Value;

                // 輸出提取到的title
                Console.WriteLine("網頁標題: " + title);
            }
            else
            {
                Console.WriteLine("未找到<title>標簽。");
            }
        }
        catch (HttpRequestException e)
        {
            Console.WriteLine("\nException Caught!");
            Console.WriteLine("Message :{0} ", e.Message);
        }
    }
}

在這個示例中，我們首先創建了一個HttpClient實例，然后使用GetStringAsync方法異步獲取網頁的HTML內容。接下來，我們定義了一個正則表達式titlePattern，用于匹配<title>標簽中的文本。Regex.Match方法用于在HTML內容中查找匹配項。如果找到匹配項，我們就從匹配結果中提取出標題文本并打印出來。

請注意，使用正則表達式解析HTML可能不是最可靠的方法，因為HTML的結構可能會非常復雜，并且正則表達式可能無法正確處理所有情況。在實際應用中，建議使用HTML解析庫（如AngleSharp或HtmlAgilityPack）來解析HTML文檔，這樣可以更健壯和準確地提取所需的信息。

下面是一個使用HtmlAgilityPack庫提取網頁標題的示例：

csharpusing System;
using System.Net.Http;
using HtmlAgilityPack;
using System.Threading.Tasks;

class Program
{
    static readonly HttpClient client = new HttpClient();

    static async Task Main(string[] args)
    {
        try
        {
            // 要抓取內容的網頁URL
            string url = "http://example.com";
            
            // 發送HTTP GET請求獲取網頁內容
            string htmlContent = await client.GetStringAsync(url);

            // 加載HTML內容到HtmlDocument對象
            HtmlDocument doc = new HtmlDocument();
            doc.LoadHtml(htmlContent);

            // 使用XPath查詢找到<title>元素并獲取其InnerText
            var titleNode = doc.DocumentNode.SelectSingleNode("//title");
            if (titleNode != null)
            {
                string title = titleNode.InnerText;
                Console.WriteLine("網頁標題: " + title);
            }
            else
            {
                Console.WriteLine("未找到<title>標簽。");
            }
        }
        catch (HttpRequestException e)
        {
            Console.WriteLine("\nException Caught!");
            Console.WriteLine("Message :{0} ", e.Message);
        }
    }
}

在這個示例中，我們使用了HtmlAgilityPack庫來加載HTML內容，并使用XPath查詢來定位<title>標簽。這種方法通常比使用正則表達式更加穩定和可靠。在使用HtmlAgilityPack之前，你需要通過NuGet安裝它：

bashInstall-Package HtmlAgilityPack

或者，如果你使用.NET Core CLI，可以運行：

嘍大家好，我是胖達。本期視頻來看看路徑相關的內容。我們知道在網頁中存在很多的圖片，如果把這些圖片和html文檔放在一起，這樣不光不美觀，管理起來也非常不方便。通常會新建一個專門用來管理圖像資源的文件夾，當需要查找圖像的時候就會選擇使用路徑的方式來指定圖像文件的位置。

路徑的類型又分為兩種，第一種是相對路徑，第二種是絕對路徑。今天先來了解一下相對路徑。相對路徑是相對于當前文件的位置來表示資源，也就是圖片位置的路徑表達方式。簡單來說就是圖片相對于當前html文檔的位置。這里把相對路徑的分類給大家列出來了，一個一個往下看。

·首先是同級路徑。同級路徑不需要在html里面寫任何符號，只需要將文件名寫到html屬性里就可以了。在代碼里看一下，這里有一個image，點jpg的圖片和html文檔處于同一級，所以在html的屬性里直接寫image，點jpg保存一下看看效果。

可以看到現在圖片是正常展示的，同級路徑下只需要在html屬性里完整填寫圖像文件的名稱就可以了。

·再來看第二個下級路徑。當圖像文件位于html文件下一集時，需要在html屬性里完整填寫同級文件夾的名稱，然后斜杠寫出對應圖片文件的名稱。

→首先打開資源文件夾，在這里新增一個images的文件夾。將image圖片文件復制一份放到images文件夾里。

→打開vscode，新建一個gtml文檔，這里新增一個image標簽。

→在左側資源管理器中剛剛新增的images文件夾已經顯示出來了，打開以后會發現里面有一個image，點jpg的圖片。把這個路徑寫一下，在src屬性里面寫入位于當前html文件同級的images文件夾的名稱，使用符號斜杠找到image，點gpg，看一下效果。此時圖片也完整顯示出來了。

→如果在amager四文件夾里還有一個amager四文件夾，下級路徑又該怎么寫？在amager文件夾里再新建一個文件夾，打開vscod，在左側的資源管理器中a major s文件夾下面又新增了一個a major s文件夾，在這里面又放了一張圖片。

這張圖片應該怎樣讓它展示出來？一起來看一下。

→首先找到同級的images文件夾，使用符號斜杠，此時vscode會提供給兩個選項，一個是imagers文件夾，另一個是imager.gpg。選擇imagers，imagers文件夾里面的imager.gpg的文件了，保存一下看看效果。

在瀏覽器中這兩張圖片都完美的展現出來了。

最后來看一下相對路徑里面的。上級路徑使用的符號是點點杠。上級路徑又應該怎么理解？也就是圖像文件是位于當前這個 hd ml文件的上一集。

在練習文件夾里新增一個名為 hd ml的文件夾，打開vs code，選擇剛剛新增的文件夾，選擇新建文件，這里需要新增一個 hd ml文檔。在當前 hd ml文檔中，如果想要調用上一級的 image 點 j p g 的圖片應該怎么做？在 sr c 屬性里面使用點點杠。

這里 vs code提供了上一集路徑中存在的文件，選擇 image 點 j p g，在瀏覽器中看下效果，此時圖片也是正常顯示的。如果hd ml文件藏得更深一些，把當前的文件復制一份，新增一個hd ml文件夾，將復制的文檔粘貼一下，打開剛剛復制的文檔，修改sr c屬性里面的值，使用點點杠。

此時是沒有找到 amage 點 j p g 的文件，這個時候就需要重復剛剛的操作，點點杠就能找到需要到的 amage 點 jbg 的文件了，保存一下看看效果。這里可以看到圖片還是正常顯示出來了。

本期視頻主要了解了相對路徑的三種分類，一個是同級路徑，一個是下級路徑，還有一個是上級路徑。希望小伙伴們下來可以好好練習一下，這對于后期的內容非常重要。下期再來聊聊絕對路徑。本期的內容到此結束，感謝觀看，下期再見。

敬的用戶，您是否曾經因為需要給大量的HTML文本添加同樣的內容而感到苦惱？讓我們介紹一款高效的批量處理工具，為你解決這個問題！這個工具能夠快速地給html文本批量添加所需內容，讓您不再因苦于手工操作，大幅提升工作效率。

首先，在首助編輯高手的主頁面板塊欄里，選擇“文本批量處理”板塊。

第二步，進入板塊欄里，我們要點擊上方功能欄里的“添加文件”即可

第三步，在彈出來的文件夾里，將您要添加內容的HTML文件進行導入進去

第四步，然后在下方的功能欄里，選擇“添加內容”功能即可。

第五步，選擇完畢之后，我們就要在下方的內容欄里將要輸入的內容進行一一導入進行，即可

第六步，都設置完畢之后，我們就可以點擊批量添加內容，等上方的狀態欄顯示添加成功，我們就可以打開文件進行查看，發現我們的內容已經添加完畢了

在線咨詢

上一篇：CSS樣式更改篇-背景Background
下一篇：css設置高度height: 100%滾動條無法顯示的解決辦法

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商

C# 正則獲取網頁內容, 抓取html源代碼里的 title

您的項目需求