技術分享 - web前端的HTML淺析

文節選自霍格沃茲測試開發學社內部教材

WEB 就是 World Wide Web 的縮寫，稱之為全球廣域網，俗稱 WWW。對于用戶來說其實就是由多個網頁組合在一起而形成一種服務。

WEB 前端負責展示一個網站當中前臺網頁里的內容。而網頁是由前端工程師使用 HTML 語言編寫而成的一種文件，它里面會包含文字、圖片、超鏈接、音頻、視頻等等這些內容。

HTML 超文本標記語言（Hyper Text Markup Language）就是用來描述網頁的一種計算機語言。

HTML發展

在互聯網最初的時候是沒有 HTML 的，只能通過網絡傳輸最簡單的文字內容。隨著用戶的要求越來越多，同時也隨著技術的不斷發展，就出現了一種可以表達文字內容之外的語言 HTML1.0。后來又慢慢發展到了現在的 HTML5，也就是現在常說的 H5。

HTML查看工具

在測試過程中，有時候需要通過工具去查看對應的 HTML 代碼。在這里可以用瀏覽器自帶的開發者工具，打開這個工具的快捷鍵是 F12。

開發者工具是一個相當強大的工具?？梢圆榭葱薷?HTML，還可以調試 JS，可以修改 CSS，還可以查看網絡數據，并且還能進行性能測試，非常的全能。對于 WEB 測試來說，是一個必須要掌握的工具。

要查看 HTML 源碼，只需要進入開發者工具的 Elements 界面。在這里可以對 WEB 頁面上的元素進行定位，并且查看整個 WEB 頁面的 HTML 源碼。

HTML基本結構

基本結構

網頁是通過 HTML 語言來書寫。用 HTML 語言去書寫網頁有一些結構是默認必須存在的，這個結構就叫做網頁（HTML）骨架。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>

</body>
</html>

HTML 基本標簽

標簽

標簽就是 HTML 語言的發明者人為定義好的一些“單詞”，不同的標簽代表了不同的功能。

標簽有兩種常見的形式：

單標簽：<標簽名 />
雙標簽：<標簽名稱>

常見標簽

<!DOCTYPE html>：向瀏覽器聲明當前的文檔是 HTML 類型。
<html> 與 </html> 之間的文本描述網頁，<html>是網頁當中最大的一個標簽，稱之為根標簽。
<head> 與 </head> 描述網頁頭部，里面的內容是寫給瀏覽器看的。
<meta charset="UTF-8"> 表示在設置當前網頁的顯示編碼。
<title> 與 </title> 之間文本為網頁的標題，里面的內容會在瀏覽器的標簽頁上顯示。
<body> 與 </body> 之間的文本是網頁主體，里面的內容會顯示在瀏覽器的空白區域內。
<div> 與 </div> 之間定義網頁中的一個分隔區塊或者一個區域部分。
<h1> 與 </h1> 之間的文本被顯示為標題。
<p> 與 </p> 之間的文本被顯示為段落。

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>網頁標題</title>
</head>
<body>
    <div>
        <h1>我的第一個網頁</h1>
        <p>網頁中的內容</p>
    </div>
</body>
</html>

標簽的屬性

HTML 標簽可以擁有屬性。屬性提供了有關 HTML 元素的更多的信息。屬性總是以名稱/值對的形式出現，比如：name="value"。

屬性的基本格式為：<標簽名屬性1="屬性值1" 屬性2="屬性值2">

每個標簽都可以擁有多個屬性。屬性必須寫在開始標簽中，位于標簽名的后面。屬性之間不區分順序。標簽名與屬性、屬性與屬性之間使用空格隔開。任何屬性都有默認值，省略該屬性表示使用默認值。

在 HTML 里，屬性也有很多種，比如首先有全局屬性，全局屬性是所有的標簽都可以使用的。然后還有事件屬性，事件大家可以理解為不同的操作。在不同的操作中，也有特殊的屬性可以定義。最后還有各個標簽的一些獨有的屬性。

比如常見的全局屬性有:

class：規定元素的類名
id：規定元素的唯一 id

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>網頁標題</title>
</head>
<body>
    <div id="first" class="content">網頁中的內容</div>
</body>
</html>

來霍格沃茲測試開發學社，學習更多軟件測試與測試開發的進階技術，知識點涵蓋web自動化測試 app自動化測試、接口自動化測試、測試框架、性能測試、安全測試、持續集成/持續交付/DevOps，測試左移、測試右移、精準測試、測試平臺開發、測試管理等內容，課程技術涵蓋bash、pytest、junit、selenium、appium、postman、requests、httprunner、jmeter、jenkins、docker、k8s、elk、sonarqube、jacoco、jvm-sandbox等相關技術，全面提升測試開發工程師的技術實力。

獲取更多內容：https://qrcode.testing-studio.com/f?from=toutiao&url=https://ceshiren.com/t/topic/16586

互聯網時代，獲取和整理大量的文章內容是非常必要的。而PHP作為一種強大的編程語言，可以幫助我們高效地采集文章。本文將分享我在使用PHP進行文章采集過程中的經驗和技巧。

1.確定采集目標：

在開始采集之前，我們首先需要明確我們想要采集的文章來源和具體內容。可以選擇一些優質的網站或博客作為目標，提前了解其頁面結構和數據格式。

2.使用HTTP請求庫：

在PHP中，我們可以使用curl或者Guzzle等HTTP請求庫來發送請求并獲取網頁內容。這些庫可以幫助我們模擬瀏覽器行為，獲取到完整的頁面源碼。

3.解析HTML：

獲取到頁面源碼后，我們需要使用HTML解析庫（如Simple HTML DOM）來解析HTML結構，提取出我們所需的文章標題、正文、作者等信息。

4.處理編碼問題：

在進行HTML解析時，經常會遇到編碼問題。我們需要注意判斷網頁的字符編碼，并進行相應的處理，以保證獲取到正確的文本內容。

5.過濾無用信息：

有些網頁中可能包含一些廣告、導航欄等無用信息。我們可以使用正則表達式或者CSS選擇器來過濾掉這些干擾項，只保留我們所需的文章內容。

6.處理分頁：

如果目標網站的文章分頁展示，我們需要處理分頁問題?？梢酝ㄟ^分析URL規律或者使用分頁參數來獲取多頁的文章內容。

7.存儲數據：

獲取到文章內容后，我們可以選擇將其存儲到數據庫中，或者生成JSON、XML等格式的文件進行保存。這樣方便后續的數據處理和展示。

8.定時任務：

如果我們需要定期采集文章，可以使用PHP的定時任務工具（如cron）來自動執行采集程序，保證數據的及時更新。

9.異常處理：

在采集過程中，可能會遇到網絡異常、頁面結構變化等問題。我們需要編寫健壯的代碼，并進行適當的異常處理，以確保程序的穩定性和可靠性。

10.合法合規：

在進行文章采集時，要遵守相關法律法規和網站的規定。尊重原創作者的權益，不侵犯他人的合法權益。

以上是我在使用PHP進行文章采集過程中總結出的經驗和技巧。希望對大家在實際應用中有所幫助。通過合理利用PHP的強大功能，我們可以高效地獲取和整理大量的文章內容，為自己的工作和學習提供有力支持。

tml網頁源碼加密

html網頁源碼能加密嗎？能加密到何種程度？

某些時候，我們可能需要對html網頁源碼加密，使網頁源碼不那么容易被他人獲得。出于這個目標，本文測試一種html加密方式。

提前透露：結論超出預期，似乎還實現了反爬蟲。

首先來到網址：http://fairysoftware.com/html_jia_mi.html

由頁面介紹可知，這是一種使用js和escape結合實現的html加密。

直接使用頁面提供的例程，加密這一段html代碼：

得到加密的html代碼，如下圖：

然后將加密代碼粘貼到一個html文件中測試，如下圖：

頁面可以正常打開。查看網頁源碼，果然源碼是加密的，如下圖：

特別的驚喜之處是：

如上圖所示，鏈接果然消失了。

即使用開發者工具查看，也無法得到鏈接地址，而原始未加密前的html代碼中是有鏈接的，如下圖：

那么消失了的鏈接，還能正常點擊嗎？

點擊，鏈接可以正常打開：

雖然href鏈接隱藏了，但還能正常打開頁面，功能完全正常。

測試結果既驚喜又意外，這樣的html網頁加密，效果還真是不錯，值得一用。

在線咨詢

上一篇：IIS服務器的搭建wind10版
下一篇：公務員報名序號是什么意思？忘記報名序號該怎么辦？

您的項目需求

*請認真填寫需求信息，我們會在24小時內與您取得聯系。

整合營銷服務商