蟲涉及的技術包括但不限于熟練一門編程語言(這里以 Python 為例) HTML 知識、HTTP 協議的基本知識、正則表達式、數據庫知識,常用抓包工具的使用、爬蟲框架的使用、涉及到大規模爬蟲,還需要了解分布式的概念、消息隊列、常用的數據結構和算法、緩存,甚至還包括機器學習的應用,大規模的系統背后都是靠很多技術來支撐的。(
網頁知識(html,js,css,xpath等),雖然不難,但一定需要了解。 你得知道這些網頁是如何構成的,然后才能去分解他們。
一、什么是HTML
HTML全稱Hyper Text Mark-up Language(超文本標記語言),它不是一種編程語言,而是一種標記語言 (markup language)。標記語言是一套標記標簽 (markup tag),HTML 使用標記標簽來描述網頁。
HTML是編寫網頁的語言,瀏覽器懂這門語言,爬蟲本質上是模擬瀏覽器抓取數據。因此懂些HTML知識對入門爬蟲很有幫助~
作為一門語言,它有自己的語法規則,用來表示比“文本”更豐富的意義,比如圖片,表格,鏈接等。瀏覽器(IE,FireFox等)軟件知道HTML語言的語法,可以用來查看HTML文檔。目前互聯網上的絕大部分網頁都是使用HTML編寫的。
二、HTML長什么樣?
HTML的語法:文本+標簽
即給文本加上表明文本含義的標簽(Tag),讓用戶(人或程序)能對文本得到更好的理解。
關于標簽:
示例
效果
<html> <head> <title>歡迎來到簡書-皮壹俠</title> </head> <body> 歡迎訪問<a >皮壹俠的簡書主頁</a>! </body> </html>
如果想嘗試,可以下載Notepad++來動手試一試
所有的HTML文檔都應該有一個<html>標簽
<html>標簽可以包含兩個部分:<head>和<body>
上面代碼中,<a>標簽用于表示鏈接,在瀏覽器查看HTML文檔時,點擊<a>標簽括起來的內容時,通常會跳轉到另一個頁面。這個要跳轉到的頁面的地址由<a>標簽的href屬性指定
如上<a >,href屬性的值就是https://www.jianshu.com/u/5a41eb2ceec6
三、HTML可以包含哪些內容?
通過不同的標簽,HTML文檔可以包含不同的內容,比如文本,鏈接,圖片,列表,表格,表單,框架等。
文本
鏈接
圖片
列表
表格
表單
框架
四、HTML文檔格式
HTML 文檔=網頁
Web 瀏覽器的作用是讀取 HTML 文檔,并以網頁的形式顯示出它們。瀏覽器不會顯示 HTML 標簽,而是使用標簽來解釋頁面的內容。在HTML文本中,用尖括號括起來的部分稱為標簽。
如果想在正文里使用尖括號(或者大與號小與號,總之是同一個東西),必須使用字符轉義,也就是說轉換字符的原有意義。<應該使用<代替,>則使用>,至于&符號本身,則應該使用&替代。Python學習關注,每天免費直播課程學習群:839383 765 分享業內最新python學習資源!
示例
標簽本質上是對它所包含的內容的說明,可能會有屬性,來給出更多的信息。比如<img>(圖片)標簽有src屬性(用于指明圖片的地址),width和height屬性(用于說明圖片的寬度和高度)。
HTML里能使用哪些標簽,這些標簽分別可以擁有哪些屬性,都是有規定的,后續如深入學習HTML其實就是學習這些標簽。
HTML文檔結構
標簽通常有開始部分和結束部分(也被稱為開始標簽和結束標簽),它們一起限定了這個標簽所包含的內容。
屬性只能在開始標簽中指定,屬性值可以用單引號或雙引號括起來。結束標簽都以/加上標簽名來表示。有時候,有些標簽并不包含其它內容(只包括自己的屬性,甚至連屬性都沒有),這種情況下,可以寫成類似這樣:<img src="logo.gif" />。(注意最后的一個空格和一個反斜杠),它說明這個標簽已經結束,不需要單獨的結束標簽了。
對比下:
<img src="logo.gif" />
<a >百度</a>
注:HTML文檔里所有的空白符(空格,Tab,換行,回車)會被瀏覽器忽略,唯一的例外是空格,對空格的處理方式是所有連續的空格被當成一個空格,不管有一個,還是兩個,還是100個。之所以有這樣的規則是因為忽略空白符能讓使用HTML的作者以他覺得最方便的格式來排列內容,比如可以在每個標簽開始后增加縮進,標簽結束后減少縮進。由于英語文本中空格用得很普遍(用于分隔單詞),所以對空格做了這樣的特殊處理。如果要顯示連續的空格(比如為了縮進),應該用 來代表空格。
結構解析1
結構解析2
五、常用標簽介紹
(一)文本
文本
(二)圖片
圖片
(三)鏈接
鏈接
(四)分段與換行
分段與換行
(五)表格
表格
(六)列表
列表
(七)框架
好了,以上就是我的分享,每天都會更新,記得關注我們哦!
ark Text是一款國人開發的 Markdown 開源編輯器,基于 Electron 構建,支持多平臺包括 Mac OS、Windows 和 Linux 平臺。Mark Text還內置斗圖功能,通過快捷鍵 Cmd+/ 直接打開斗圖搜索面板。斗圖功能默認是關閉的,需要從user preference 菜單中,打開 preference.md, 然后設置 aidou 為 true。保存然后重啟編輯器即可使用。
主要特性
常在razor文件中,如果這樣寫:
<div>
@content
</div>
@code
{
string content="<h1>hello world</h1>";
}
你將得到的是:
但是你的本意是要讓它正常的渲染html,要怎么來實現呢?
<div>
@((MarkupString)(@content)
</div>
@code
{
string content="<h1>hello world</h1>";
}
@((MarkupString)(@content) 這樣就告訴blazor,要用html格式進行渲染。
這樣就正常了。
*請認真填寫需求信息,我們會在24小時內與您取得聯系。