文節選自霍格沃茲測試開發學社內部教材
WEB 就是 World Wide Web 的縮寫,稱之為全球廣域網,俗稱 WWW。對于用戶來說其實就是由多個網頁組合在一起而形成一種服務。
WEB 前端負責展示一個網站當中前臺網頁里的內容。而網頁是由前端工程師使用 HTML 語言編寫而成的一種文件,它里面會包含文字、圖片、超鏈接、音頻、視頻等等這些內容。
HTML 超文本標記語言(Hyper Text Markup Language)就是用來描述網頁的一種計算機語言。
在互聯網最初的時候是沒有 HTML 的,只能通過網絡傳輸最簡單的文字內容。隨著用戶的要求越來越多,同時也隨著技術的不斷發展,就出現了一種可以表達文字內容之外的語言 HTML1.0。后來又慢慢發展到了現在的 HTML5,也就是現在常說的 H5。
在測試過程中,有時候需要通過工具去查看對應的 HTML 代碼。在這里可以用瀏覽器自帶的開發者工具,打開這個工具的快捷鍵是 F12。
開發者工具是一個相當強大的工具??梢圆榭葱薷?HTML,還可以調試 JS,可以修改 CSS,還可以查看網絡數據,并且還能進行性能測試,非常的全能。對于 WEB 測試來說,是一個必須要掌握的工具。
要查看 HTML 源碼,只需要進入開發者工具的 Elements 界面。在這里可以對 WEB 頁面上的元素進行定位,并且查看整個 WEB 頁面的 HTML 源碼。
網頁是通過 HTML 語言來書寫。用 HTML 語言去書寫網頁有一些結構是默認必須存在的, 這個結構就叫做網頁(HTML)骨架。
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Title</title>
</head>
<body>
</body>
</html>
標簽就是 HTML 語言的發明者人為定義好的一些“單詞”,不同的標簽代表了不同的功能。
標簽有兩種常見的形式:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>網頁標題</title>
</head>
<body>
<div>
<h1>我的第一個網頁</h1>
<p>網頁中的內容</p>
</div>
</body>
</html>
HTML 標簽可以擁有屬性。屬性提供了有關 HTML 元素的更多的信息。屬性總是以名稱/值對的形式出現,比如:name="value"。
屬性的基本格式為:<標簽名 屬性1="屬性值1" 屬性2="屬性值2">
每個標簽都可以擁有多個屬性。屬性必須寫在開始標簽中,位于標簽名的后面。屬性之間不區分順序。標簽名與屬性、屬性與屬性之間使用空格隔開。任何屬性都有默認值,省略該屬性表示使用默認值。
在 HTML 里,屬性也有很多種,比如首先有全局屬性,全局屬性是所有的標簽都可以使用的。然后還有事件屬性,事件大家可以理解為不同的操作。在不同的操作中,也有特殊的屬性可以定義。最后還有各個標簽的一些獨有的屬性。
比如常見的全局屬性有:
<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>網頁標題</title>
</head>
<body>
<div id="first" class="content">網頁中的內容</div>
</body>
</html>
來霍格沃茲測試開發學社,學習更多軟件測試與測試開發的進階技術,知識點涵蓋web自動化測試 app自動化測試、接口自動化測試、測試框架、性能測試、安全測試、持續集成/持續交付/DevOps,測試左移、測試右移、精準測試、測試平臺開發、測試管理等內容,課程技術涵蓋bash、pytest、junit、selenium、appium、postman、requests、httprunner、jmeter、jenkins、docker、k8s、elk、sonarqube、jacoco、jvm-sandbox等相關技術,全面提升測試開發工程師的技術實力。
獲取更多內容:https://qrcode.testing-studio.com/f?from=toutiao&url=https://ceshiren.com/t/topic/16586
互聯網時代,獲取和整理大量的文章內容是非常必要的。而PHP作為一種強大的編程語言,可以幫助我們高效地采集文章。本文將分享我在使用PHP進行文章采集過程中的經驗和技巧。
1.確定采集目標:
在開始采集之前,我們首先需要明確我們想要采集的文章來源和具體內容。可以選擇一些優質的網站或博客作為目標,提前了解其頁面結構和數據格式。
2.使用HTTP請求庫:
在PHP中,我們可以使用curl或者Guzzle等HTTP請求庫來發送請求并獲取網頁內容。這些庫可以幫助我們模擬瀏覽器行為,獲取到完整的頁面源碼。
3.解析HTML:
獲取到頁面源碼后,我們需要使用HTML解析庫(如Simple HTML DOM)來解析HTML結構,提取出我們所需的文章標題、正文、作者等信息。
4.處理編碼問題:
在進行HTML解析時,經常會遇到編碼問題。我們需要注意判斷網頁的字符編碼,并進行相應的處理,以保證獲取到正確的文本內容。
5.過濾無用信息:
有些網頁中可能包含一些廣告、導航欄等無用信息。我們可以使用正則表達式或者CSS選擇器來過濾掉這些干擾項,只保留我們所需的文章內容。
6.處理分頁:
如果目標網站的文章分頁展示,我們需要處理分頁問題??梢酝ㄟ^分析URL規律或者使用分頁參數來獲取多頁的文章內容。
7.存儲數據:
獲取到文章內容后,我們可以選擇將其存儲到數據庫中,或者生成JSON、XML等格式的文件進行保存。這樣方便后續的數據處理和展示。
8.定時任務:
如果我們需要定期采集文章,可以使用PHP的定時任務工具(如cron)來自動執行采集程序,保證數據的及時更新。
9.異常處理:
在采集過程中,可能會遇到網絡異常、頁面結構變化等問題。我們需要編寫健壯的代碼,并進行適當的異常處理,以確保程序的穩定性和可靠性。
10.合法合規:
在進行文章采集時,要遵守相關法律法規和網站的規定。尊重原創作者的權益,不侵犯他人的合法權益。
以上是我在使用PHP進行文章采集過程中總結出的經驗和技巧。希望對大家在實際應用中有所幫助。通過合理利用PHP的強大功能,我們可以高效地獲取和整理大量的文章內容,為自己的工作和學習提供有力支持。
tml網頁源碼加密
html網頁源碼能加密嗎?能加密到何種程度?
某些時候,我們可能需要對html網頁源碼加密,使網頁源碼不那么容易被他人獲得。出于這個目標,本文測試一種html加密方式。
提前透露:結論超出預期,似乎還實現了反爬蟲。
首先來到網址:http://fairysoftware.com/html_jia_mi.html
由頁面介紹可知,這是一種使用js和escape結合實現的html加密。
直接使用頁面提供的例程,加密這一段html代碼:
得到加密的html代碼,如下圖:
然后將加密代碼粘貼到一個html文件中測試,如下圖:
頁面可以正常打開。查看網頁源碼,果然源碼是加密的,如下圖:
特別的驚喜之處是:
如上圖所示,鏈接果然消失了。
即使用開發者工具查看,也無法得到鏈接地址,而原始未加密前的html代碼中是有鏈接的,如下圖:
那么消失了的鏈接,還能正常點擊嗎?
點擊,鏈接可以正常打開:
雖然href鏈接隱藏了,但還能正常打開頁面,功能完全正常。
測試結果既驚喜又意外,這樣的html網頁加密,效果還真是不錯,值得一用。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。