整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          關于爬蟲,HTML知識需要了解一下!

          關于爬蟲,HTML知識需要了解一下!

          蟲涉及的技術包括但不限于熟練一門編程語言(這里以 Python 為例) HTML 知識、HTTP 協議的基本知識、正則表達式、數據庫知識,常用抓包工具的使用、爬蟲框架的使用、涉及到大規模爬蟲,還需要了解分布式的概念、消息隊列、常用的數據結構和算法、緩存,甚至還包括機器學習的應用,大規模的系統背后都是靠很多技術來支撐的。(

          網頁知識(html,js,css,xpath等),雖然不難,但一定需要了解。 你得知道這些網頁是如何構成的,然后才能去分解他們。

          一、什么是HTML

          HTML全稱Hyper Text Mark-up Language(超文本標記語言),它不是一種編程語言,而是一種標記語言 (markup language)。標記語言是一套標記標簽 (markup tag),HTML 使用標記標簽來描述網頁。

          HTML是編寫網頁的語言,瀏覽器懂這門語言,爬蟲本質上是模擬瀏覽器抓取數據。因此懂些HTML知識對入門爬蟲很有幫助~

          作為一門語言,它有自己的語法規則,用來表示比“文本”更豐富的意義,比如圖片,表格,鏈接等。瀏覽器(IE,FireFox等)軟件知道HTML語言的語法,可以用來查看HTML文檔。目前互聯網上的絕大部分網頁都是使用HTML編寫的。

          二、HTML長什么樣?

          HTML的語法:文本+標簽

          即給文本加上表明文本含義的標簽(Tag),讓用戶(人或程序)能對文本得到更好的理解。

          關于標簽:

          • HTML 標簽是由尖括號包圍的關鍵詞,比如 <html>
          • HTML 標簽通常是成對出現的,比如 <b> 和 </b>
          • 標簽對中的第一個標簽是開始標簽,第二個標簽是結束標簽
          • 開始和結束標簽也被稱為開放標簽和閉合標簽

          示例

          效果

          <html>
           <head>
           <title>歡迎來到簡書-皮壹俠</title>
           </head>
           <body>
           歡迎訪問<a >皮壹俠的簡書主頁</a>!
           </body>
          </html>
          

          如果想嘗試,可以下載Notepad++來動手試一試

          所有的HTML文檔都應該有一個<html>標簽

          <html>標簽可以包含兩個部分:<head>和<body>

          • <head>標簽用于包含整個文檔的一般信息
          • 文檔的標題(<title>標簽用于包含標題)
          • 對整個文檔的描述
          • 文檔的關鍵字
          • ...
          • <body>標簽存放文檔的具體內容

          上面代碼中,<a>標簽用于表示鏈接,在瀏覽器查看HTML文檔時,點擊<a>標簽括起來的內容時,通常會跳轉到另一個頁面。這個要跳轉到的頁面的地址由<a>標簽的href屬性指定

          如上<a >,href屬性的值就是https://www.jianshu.com/u/5a41eb2ceec6

          三、HTML可以包含哪些內容?

          通過不同的標簽,HTML文檔可以包含不同的內容,比如文本,鏈接,圖片,列表,表格,表單,框架等。

          文本

          • HTML對文本的支持是最豐富的,你可以設置不同級別的標題,分段和換行,可以指定文本的語義和外觀,可以說明文本是引用自其它的地方,等等等等。

          鏈接

          • 鏈接用來指出內容與另一個頁面或當前頁面某個地方有關。

          圖片

          • 圖片用于使頁面更加美觀,或提供更多的信息。

          列表

          • 列表用于說明一系列條目是彼此相關的。

          表格

          • 表格是按行與列將數據組織在一起的形式。也有不少人使用表格進行頁面布局。

          表單

          • 表單通常由文本輸入框,按鈕,多選框,單選框,下拉列表等組成,使HTML頁面更有交互性。

          框架

          • 框架使頁面里能包含其它的頁面。

          四、HTML文檔格式

          HTML 文檔=網頁

          • HTML 文檔描述網頁
          • HTML 文檔包含 HTML 標簽和純文本
          • HTML 文檔也被稱為網頁

          Web 瀏覽器的作用是讀取 HTML 文檔,并以網頁的形式顯示出它們。瀏覽器不會顯示 HTML 標簽,而是使用標簽來解釋頁面的內容。在HTML文本中,用尖括號括起來的部分稱為標簽。

          如果想在正文里使用尖括號(或者大與號小與號,總之是同一個東西),必須使用字符轉義,也就是說轉換字符的原有意義。<應該使用<代替,>則使用>,至于&符號本身,則應該使用&替代。Python學習關注,每天免費直播課程學習群:839383 765 分享業內最新python學習資源!

          示例

          標簽本質上是對它所包含的內容的說明,可能會有屬性,來給出更多的信息。比如<img>(圖片)標簽有src屬性(用于指明圖片的地址),width和height屬性(用于說明圖片的寬度和高度)。

          HTML里能使用哪些標簽,這些標簽分別可以擁有哪些屬性,都是有規定的,后續如深入學習HTML其實就是學習這些標簽。

          HTML文檔結構

          標簽通常有開始部分和結束部分(也被稱為開始標簽和結束標簽),它們一起限定了這個標簽所包含的內容。

          屬性只能在開始標簽中指定,屬性值可以用單引號或雙引號括起來。結束標簽都以/加上標簽名來表示。有時候,有些標簽并不包含其它內容(只包括自己的屬性,甚至連屬性都沒有),這種情況下,可以寫成類似這樣:<img src="logo.gif" />。(注意最后的一個空格和一個反斜杠),它說明這個標簽已經結束,不需要單獨的結束標簽了。

          對比下:

          <img src="logo.gif" />

          <a >百度</a>

          注:HTML文檔里所有的空白符(空格,Tab,換行,回車)會被瀏覽器忽略,唯一的例外是空格,對空格的處理方式是所有連續的空格被當成一個空格,不管有一個,還是兩個,還是100個。之所以有這樣的規則是因為忽略空白符能讓使用HTML的作者以他覺得最方便的格式來排列內容,比如可以在每個標簽開始后增加縮進,標簽結束后減少縮進。由于英語文本中空格用得很普遍(用于分隔單詞),所以對空格做了這樣的特殊處理。如果要顯示連續的空格(比如為了縮進),應該用 來代表空格。

          結構解析1

          結構解析2

          五、常用標簽介紹

          (一)文本

          文本

          (二)圖片

          圖片

          (三)鏈接

          鏈接

          (四)分段與換行

          分段與換行

          (五)表格

          表格

          (六)列表

          列表

          (七)框架

          好了,以上就是我的分享,每天都會更新,記得關注我們哦!

          ark Text是一款國人開發的 Markdown 開源編輯器,基于 Electron 構建,支持多平臺包括 Mac OS、Windows 和 Linux 平臺。Mark Text還內置斗圖功能,通過快捷鍵 Cmd+/ 直接打開斗圖搜索面板。斗圖功能默認是關閉的,需要從user preference 菜單中,打開 preference.md, 然后設置 aidou 為 true。保存然后重啟編輯器即可使用。

          主要特性

          • Mark Text 所輸及所見,摒棄了眾多 Markdown 編輯器左邊寫作右邊預覽的寫作方式,巧妙的將編輯和預覽融為一體。
          • snabbdom 作為 Mark Text 的渲染引擎,保證了極速渲染編輯頁面,帶來流暢的書寫體驗。
          • 支持 CommonMark Spec 和 GitHub Flavored Markdown Spec 語法格式,生成的 Markdown 可以復制到任何支持 Markdown 格式的社區、網站。
          • 段落及行內樣式快捷鍵提升您的編輯效率。
          • 輸出 HTML 和 PDF 格式文件,方便在瀏覽器中預覽。
          • 黑、白兩款主題,自由切換。
          • 多種編輯模式:源代碼模式、打字機模式、專注模式。

          常在razor文件中,如果這樣寫:

          <div>
          @content
          </div>
          @code
          {
          string content="<h1>hello world</h1>";
          }

          你將得到的是:

          但是你的本意是要讓它正常的渲染html,要怎么來實現呢?

          <div>
          @((MarkupString)(@content)
          </div>
          @code
          {
          string content="<h1>hello world</h1>";
          }

          @((MarkupString)(@content) 這樣就告訴blazor,要用html格式進行渲染。

          這樣就正常了。


          主站蜘蛛池模板: 国产香蕉一区二区在线网站| 久久久久99人妻一区二区三区| 亚洲第一区视频在线观看| 国产一区二区女内射| 麻豆一区二区免费播放网站| 无码中文人妻在线一区二区三区| 日本高清一区二区三区| 国产麻豆媒一区一区二区三区| 免费人人潮人人爽一区二区 | 中文字幕一区二区免费| 亚洲午夜在线一区| 99久久精品国产免看国产一区| 性无码一区二区三区在线观看| 国产品无码一区二区三区在线| 精品人妻少妇一区二区| 亚洲日韩AV一区二区三区中文 | 亚洲AV成人精品日韩一区18p| 国产自产在线视频一区| 亚洲福利精品一区二区三区| 久久人做人爽一区二区三区| 一区二区三区视频免费观看| 无码国产精品一区二区免费式直播| 国产一区二区福利久久| 亚洲一区二区三区不卡在线播放| 国产免费播放一区二区| 海角国精产品一区一区三区糖心 | 国产在线一区二区在线视频| 亚洲日韩一区二区三区| 精品亚洲A∨无码一区二区三区| 合区精品久久久中文字幕一区| 亚洲av成人一区二区三区观看在线 | 男插女高潮一区二区| 精品国产一区二区三区久久| 国产精品一区二区av不卡| 卡通动漫中文字幕第一区| 国产一区二区在线| 亚洲日韩AV无码一区二区三区人 | 亚洲一区二区三区在线观看网站| 国模私拍一区二区三区| 久久一区二区三区精品| 久久精品一区二区国产|