整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          Python網頁爬蟲爬取豆瓣Top250電影數據(附帶完整代碼)?

          個寫博客的朋友想讓我幫忙獲取一下豆瓣上的Top250的電影數據,說是做個什么電影推薦榜,沒辦法之后硬著頭皮拿出我那一小點點的Python爬蟲技術來完成人家的需求了。當然了也是在不違法的情況下進行的。

          要爬取豆瓣電影排名信息,我們可以使用Python中的Request庫來發送一個請求,然后使用一些HTML解析工具例如BeautifulSoup或者是通過Lxml庫來對HTML頁面進行解析,然后將解析到的結果打印出來。

          一個簡單的實現

          import requests
          from bs4 import BeautifulSoup
          
          def crawl_douban_movies(url):
              # 發送 HTTP GET 請求獲取頁面內容
              response = requests.get(url)
              if response.status_code == 200:
                  # 使用 BeautifulSoup 解析頁面內容
                  soup = BeautifulSoup(response.text, 'html.parser')
                  # 找到電影列表
                  movie_list = soup.find_all('div', class_='item')
                  for movie in movie_list:
                      # 獲取電影名稱和評分
                      title = movie.find('span', class_='title').text
                      rating = movie.find('span', class_='rating_num').text
                      print(f"電影:{title},評分:{rating}")
              else:
                  print("請求失敗")
          
          if __name__ == "__main__":
              # 豆瓣電影 Top 250 頁面 URL
              url = "https://movie.douban.com/top250"
              crawl_douban_movies(url)

          是不是有點簡單了?在這個例子中我們通過requests.get()發送HTTP GET請求獲取豆瓣電影Top250頁面的HTML內容。然后,使用BeautifulSoup解析頁面內容,提取出電影名稱和評分,并打印出來。

          運行程序之后,發現居然給我來了個請求失敗?這是為什么呢?是網絡請求不通?還是說豆瓣網站對相關的操作有所限制呢?

          經過驗證發現豆瓣網站可能設置了反爬蟲機制,檢測到了爬蟲行為并阻止了請求。為了規避這種情況,我嘗試設置請求頭信息,來模擬正常的瀏覽器訪問。

          模擬正常瀏覽器的訪問?

          為了模擬正常瀏覽器的訪問操作,所以添加了請求頭信息,將代碼升級成如下的樣子。

          import requests
          from bs4 import BeautifulSoup
          
          def crawl_douban_movies(url):
              # 添加 User-Agent 請求頭信息
              headers = {
                  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
              }
              # 發送帶有請求頭信息的 HTTP GET 請求
              response = requests.get(url, headers=headers)
              if response.status_code == 200:
                  # 使用 BeautifulSoup 解析頁面內容
                  soup = BeautifulSoup(response.text, 'html.parser')
                  # 找到電影列表
                  movie_list = soup.find_all('div', class_='item')
                  for movie in movie_list:
                      # 獲取電影名稱和評分
                      title = movie.find('span', class_='title').text
                      rating = movie.find('span', class_='rating_num').text
                      print(f"電影:{title},評分:{rating}")
              else:
                  print("請求失敗")
          
          if __name__ == "__main__":
              # 豆瓣電影 Top 250 頁面 URL
              url = "https://movie.douban.com/top250"
              crawl_douban_movies(url)

          與之前不同的是,我們添加了User-Agent請求頭信息。這樣這個請求就是模擬瀏覽器發送的。應該算是正常請求了。果然,運行代碼之后,結果如下。

          正當我以為這樣就可以的時候,朋友居然說為什么沒有導演的信息,為什么沒有那個簡單的評語的信息呀?我勒個去?還要這么麻煩么?這就不得不讓我去分析一下頁面了

          獲取導演信息和評語信息?

          打開網頁開發這工具,簡單的分析頁面之后,有了這樣的結果。如下所示。

          導演信息,在一個div里面,并且class叫做bd,在這個div里面有個p標簽,這個p標簽中就是導演的信息。那么這樣我們就可以通過如下的操作來獲取了。

          # 獲取導演信息
          directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')

          那么評語信息又在什么地方呢?

          簡單查找之后發現,評語在一個span標簽中這就簡單了,我們可以通過如下的方式來進行獲取。

          quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''

          整體代碼修改變成了如下的樣子。

          import requests
          from bs4 import BeautifulSoup
          
          def crawl_douban_movies(url):
              # 添加 User-Agent 請求頭信息
              headers = {
                  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
              }
              # 發送帶有請求頭信息的 HTTP GET 請求
              response = requests.get(url, headers=headers)
              if response.status_code == 200:
                  # 使用 BeautifulSoup 解析頁面內容
                  soup = BeautifulSoup(response.text, 'html.parser')
                  # 找到電影列表
                  movie_list = soup.find_all('div', class_='item')
                  for movie in movie_list:
                      # 獲取電影名稱
                      title = movie.find('span', class_='title').text
                      # 獲取導演信息
                      directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
                      director = directors[0].strip().split(':')[-1]
                      # 獲取評語
                      quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
                      print(f"電影:{title},導演:{director},評語:{quote}")
              else:
                  print("請求失敗")
          
          if __name__ == "__main__":
              # 豆瓣電影 Top 250 頁面 URL
              url = "https://movie.douban.com/top250"
              crawl_douban_movies(url)
          

          運行上述代碼之后,結果如下所示,我心想,這下應該就可以了吧,然后人家說評分沒有了,我去,這東西還能難得我么?我就把評分的代碼給復制粘貼到這段代碼中。

          將評分的獲取代碼復制粘貼完成之后,得到了如下的結果

          我就說這是不是很完美了,他居然說還不行?他還要下面的時間信息、產地信息這些?我去這咋玩?

          獲取時間信息和產地信息?

          其實獲取時間信息和獲取產地信息的方式跟上面的操作是一樣的。只需要通過查看代碼,找到對應的HTML標識就可以提取到對應的信息。

          在獲取電影詳細信息的時候遇到了格式處理的問題,如下所示。

           # 獲取電影詳情信息
          details = movie.find('div', class_='bd').find('p').text.split('\n')
          info = [i.strip() for i in details if i.strip() != '']
          #print("獲取到信息",info)  # 打印詳情信息列表
          # 提取時間、產地和劇情信息
          if len(info) >= 2:
              year_region = info[1].split('\xa0/\xa0')
              year = year_region[0].strip()
              region = year_region[1].strip()
              plot = info[1].strip()
          else:
              year = "未知"
              region = "未知"
              plot = "未知"

          獲取到頁面電影詳情的URL地址?

          要獲取電影的詳細頁面 URL,需要從每個電影條目中提取鏈接信息。豆瓣電影條目的鏈接通常包含在a標簽的href屬性中如下圖所示。

          通過如下的操作來獲取到對應屬性中的數據

           detail_url = movie.find('a')['href']

          最終獲取完成的電影信息如下圖所示。

          到這里,人家的需求才算提完,原來現在電影博主都這么卷的了么?想要這么多信息,居然不自己整理,讓我這個小嘍嘍來幫他實現。真實有天賦呀?

          最終給出完整的代碼

          在滿足了他所有的要求之后,最終我們給出詳細的代碼

          import requests
          from bs4 import BeautifulSoup
          
          def crawl_douban_movies(url):
              # 添加 User-Agent 請求頭信息
              headers = {
                  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
              }
              # 發送帶有請求頭信息的 HTTP GET 請求
              response = requests.get(url, headers=headers)
              if response.status_code == 200:
                  # 使用 BeautifulSoup 解析頁面內容
                  soup = BeautifulSoup(response.text, 'html.parser')
                  # 找到電影列表
                  movie_list = soup.find_all('div', class_='item')
                  for movie in movie_list:
                      # 獲取電影名稱
                      title = movie.find('span', class_='title').text
                      rating = movie.find('span', class_='rating_num').text
          
                      # 獲取電影詳細頁面鏈接
                      detail_url = movie.find('a')['href']
          
                      # 獲取導演信息
                      directors = movie.find('div', class_='bd').find('p').text.split('\n')[1].strip().split('\xa0\xa0\xa0')
                      director = directors[0].strip().split(':')[-1]
                      # 獲取評語
                      quote = movie.find('span', class_='inq').text if movie.find('span', class_='inq') else ''
                      # 獲取電影詳情信息
                      details = movie.find('div', class_='bd').find('p').text.split('\n')
                      info = [i.strip() for i in details if i.strip() != '']
                      #print("獲取到信息",info)  # 打印詳情信息列表
                      # 提取時間、產地和劇情信息
                      if len(info) >= 2:
                          year_region = info[1].split('\xa0/\xa0')
                          year = year_region[0].strip()
                          region = year_region[1].strip()
                          plot = info[1].strip()
                      else:
                          year = "未知"
                          region = "未知"
                          plot = "未知"
                      print(f"電影:{title}\n評分:{rating}\n導演:{director}\n評語:{quote}\n時間:{year}\n產地:{region}\n劇情:{plot}\n詳細頁面鏈接:{detail_url}\n")
              else:
                  print("請求失敗")
          
          if __name__ == "__main__":
              # 豆瓣電影 Top 250 頁面 URL
              url = "https://movie.douban.com/top250"
              crawl_douban_movies(url)

          通過上述代碼,我們就可以獲取到豆瓣電影TOP250的所有電影信息,當然這里需要手動的將頁碼信息進行添加,例如第二頁的URL就會變成https://movie.douban.com/top250?start=25&filter= 樣子,在實際操作的時候我們可以自己進行調整。


          取網頁(https://movie.douban.com/top250)上的電影信息

          • 網頁分析https://movie.douban.com/top250,屬于靜態網頁,我們所需的數據資源在網頁源代碼中呈現。因此,我們只需獲得網頁html代碼進而解析取出其中某些結點(本次簡單獲取電影名稱和引述)就可以獲得想要的數據。


          網頁效果

          每個li標簽中有一部電影


          我們獲取每個li,再對其子節點進行查找可以得到想要的信息。

          • 工作流程:獲取網頁 ->解析網頁 ->打印或保存信息
          • 依賴工具:requests、BeautifulSoup、time,Pycharm或者文本編輯器、瀏覽器
          • Python代碼:
          # -*- coding: utf-8 -*-
          
          # @Author: 搞爬蟲
          
          # @Date:   2020-07-26 09:38:07
          
          # @Last Modified by:   搞爬蟲
          
          # @Last Modified time: 2020-07-26 14:54:25
          
          #庫引入
          
          import requests
          from bs4 import BeautifulSoup
          import time
          
          定義獲取html文檔的函數
          
          # (參數:)可以指定參數類型
          
          def getHtml(i:int,startUrl:str,headers:dict):
                text = ''
          
               #每一頁URL的區別在于start(如:第二頁URL:)
               # https://movie.douban.com/top250?start=25&filter= ,以此類推    
               url = startUrl+'?start=' + str(i*25) 
              try:
                  r = requests.get(url,headers = headers,timeout=8)
                  if r.status_code == 200:
                      return r.text   
          
              except:
                      print("failed to get html")
                      return ""



          
          #定義解析網頁的函數
          def parseHtml(text:str,temp:dict) :
                if text != '':
                    soup = bs(text,'lxml')
                    info_div = soup.find_all('div',class_='info')
                    for eachMovie in info_div:
                    
                          ls = [] #這里用名稱作為字典的鍵,其他信息存放在列表中作為值
                          info_hd = eachMovie.find('div',class_='hd')
                          info_bd = eachMovie.find('div',class_='bd')
          								#電影名稱文本
                          name = info_hd.a.span.text.strip()
          								#電影簡述文本
                          quote = info_bd.find('p',class_='quote').span.text.strip()
                          ls.append(quote)
                          temp[name] = ls
                  return temp
          
          #定義控制臺打印信息函數
          
          def printContent(Info:dict):
                if Info is not None:
                    count = 0
                    print("{:20}\t\t{:10}\t".format("電影名稱","電影引述")) #格式化打印
                      #獲得每一個鍵值對
                    for key,value in Info.items():
                         if count == 10:
                              print('')
                              print("============================================")
                              count = 0
                         print("{:12}\t\t{:^20}".format(key,value[0]))  #字典的值是列表類型
                         count += 1
          
              else:
                  print('no data')
          
          #主函數
          def main():
                #這里可以打開開發者工具查看正常訪問頁面的請求頭
               #網頁不涉及重要信息,我們只進行少量的爬取,不進行偽裝也可以
                headers = {'user-agent':'Mozilla/5.0'}
                result = {}
                startUrl = "https://movie.douban.com/top250"
                num = input('要爬取多少頁(1~10)')
          
                for i in range(eval(num)):
                
                     text = getHtml(i,startUrl,headers)
                     time.sleep(2) #可以間斷訪問
                     result = parseHtml(text,result)
          
                printContent(result)
          
          if __name__ == '__main__':
               main()


          運行結果

          改進過后可以顯示電影的具體信息。完!



          HTML 是什么?
          htyper text markup language 即超文本標記語言。
          超文本: 就是指頁面內可以包含圖片、鏈接,甚至音樂、程序等非文字元素。
          標記語言: 標記(標簽)構成的語言。
          什么是標簽:
          是由一對尖括號包裹的單詞構成 例如: <html> *所有標簽中的單詞不可能以數字開頭.
          標簽不區分大小寫.<html> 和 <HTML>. 推薦使用小寫.
          標簽分為兩部分: 開始標簽<a> 和 結束標簽</a>. 兩個標簽之間的部分 我們叫做標簽體.
          有些標簽功能比較簡單.使用一個標簽即可.這種標簽叫做自閉和標簽.例如: <br/><hr/><input/><img/>
          標簽可以嵌套.但是不能交叉嵌套. <a><b></a></b>
          標簽的屬性:
          通常是以鍵值對形式出現的. 例如 name="nick"
          屬性只能出現在開始標簽 或 自閉和標簽中.
          屬性名字全部小寫. *屬性值必須使用雙引號或單引號包裹 例如 name="nick"
          如果屬性值和屬性名完全一樣.直接寫屬性名即可. 例如 readonly
          HTML5基本結構:
          將HTML4中的DTD定義為如下結構即可,其他不變。
          <!DOCTYPE HTML>
          HTML5支持的兩種指定頁面使用的字符集的方式:
          使用Content-Type指定字符集
          <meta http-equiv="Content-Type" content="text/html ;charset=UTF-8"/>
          直接使用charset指定字符集
          <meta charset="UTF-8">
          <head> 標簽
          <title>
          <title>Title</title>
          <base/>
          標簽為頁面上的所有鏈接規定默認地址或默認目標。
          <!DOCTYPE html>
          <html lang="en">
          <head>
          <meta charset="UTF-8">
          <title>Title</title>
          <base href="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/"/>
          <base target="_blank" />
          </head>
          <body>
          <img src="o_s.png" alt="圖片加載失敗。。。"/>
          <a href="http://cnblogs.com/suoning/">nick blogs</a>
          </body>
          </html>
          # 上面這段代碼中,<img>標簽的src屬性是一個相對路徑,因為<head>中通過base標簽設置了鏈接的默認地址,
          所以img的src實際的地址是“http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_s.png”。
          同樣的,<a>中只是指定了href,并未指定target屬性,所以也會使用base中設置的target屬性的值。
          <link/>
          引用外部文檔,常見于引用外部樣式。重要屬性有三個:rel、href、type。
          rel 規定文檔與被鏈接文檔之間的關系。
          rel="dns-prefetch" 預先解析緩存文檔中使用的域名,目的是為了提高網頁訪問速度。使用場景:在一個網頁頻繁使用其他域名資源時。
          rel="shortcut icon"或rel="icon" 在收藏和標題欄上用于顯示的圖標。示例:<link rel="icon" href="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_s.png">。注意:IE瀏覽器只支持ico格式,為了兼容IE,圖片文件采用ico格式。
          rel="stylesheet" 引用外部樣式表。
          rel="nofollow" 用于指示搜索引擎不要追蹤(爬蟲抓取),減少垃圾鏈接。用于<a>標簽,使用場景:網頁不被信任或是不希望唄搜索引擎錄入的網站。
          href 資源的路徑(相對路徑/絕對路徑)。
          type 規定被連接文檔的MIME類型,用于明確文件的打開方式。例如:.ico文件 p_w_picpath/x-icon。
          <meta/>
          定義關于HTML文檔的元數據。 重要的屬性有三個:http-equiv、name、content
          http-equiv 把content屬性值關聯到http頭部。
          Content-Type(瀏覽器接受的文檔類型,一般是text/html)
          refresh(網頁刷新,以秒為單位)
          expires(設定網頁到期時間,一旦過期,必須到服務器上重傳)
          <meta http-equiv="Content-Type" content="text/html ;charset=UTF-8"/>
          <meta http-equiv="Refresh" content="2">
          <meta http-equiv="Refresh" content="2;URL=https://www.baidu.com">
          <meta http-equiv="expires" content="6 Jun 2016"/>
          name 把content屬性關聯到一個名稱。
          keywords(搜索關鍵字,用于搜索引擎抓取信息的顯示)
          description(搜索到網站后顯示的網頁內容簡描述)
          author(站點制作者信息)
          generator(用以說明生成工具)
          name也可以根據特定的功能自定義,在新浪網中有使用360認證和搜狐認證(<meta name="360-site-verification"content="63349**********"/>、<meta name="sogou_site_verification"content="BVI*******"/>)。
          <meta name="keywords" content="搜索關鍵字">
          <meta name="description" content="簡要描述">
          <meta name="author" content="http://cnblogs.com/suoning">
          <meta name="generator" content="用以說明生成工具">
          content 定義與http-equiv或name屬性相關的元信息,是必要的屬性。
          <body> 標簽
          1、塊級標簽和內聯標簽
          塊級標簽:<p><h1><table><ol><ul><form><div>
          內聯標簽:<a><input><img><sub><sup><textarea><span>
          block(塊)元素的特點
          ① 總是在新行上開始;
          ② 高度,行高以及外邊距和內邊距都可控制;
          ③ 寬度缺省是它的容器的100%,除非設定一個寬度。
          ④ 它可以容納內聯元素和其他塊元素
          inline(內聯)元素的特點
          ① 和其他元素都在一行上;
          ② 高,行高及外邊距和內邊距不可改變;
          ③ 寬度就是它的文字或圖片的寬度,不可改變
          ④ 內聯元素只能容納文本或者其他內聯元素
          對行內元素,需要注意如下
          設置寬度width 無效。
          設置高度height 無效,可以通過line-height來設置。
          設置margin 只有左右margin有效,上下無效。
          設置padding 只有左右padding有效,上下則無效。注意元素范圍是增大了,但是對元素周圍的內容是沒影響的。
          2、基本標簽
          <h1>~<h6> 標題標簽.
          <p>: 段落標簽. 包裹的內容被換行.并且也上下內容之間有一行空白.
              style="text-indent: 2em"可以設置樣式為首行縮進兩個字符。
              <blockquote></blockquote>可以用來設置整個段落的縮進。
          <b> <strong>: 加粗標簽.
          <strike>: 為文字加上一條中線.
          <u>: 文字下方加下劃線.
          <em> <i>: 文字變成斜體.
          <sup>和<sub>: 上角標 和 下角標.
          <br>:換行.
          <hr>:水平線.
          <div>
          塊級標簽。塊級標簽常用于布局,行級標簽常用語顯示內容。
             div的顯示通常使用id或class來標識。id為唯一的標簽標識,class為標簽的類標識。
             div的大小是由內容來決定的,默認情況下,高度由內容的高度決定,寬度適應屏幕。
             可以容納其他元素,是一個容器。
          <span>
          3、特殊符號
            > >
            < <
             空格
            " 引號
            © 版權符號
          特殊符號 符號碼
          " " ;
          & & ;
          < < ;
          > > ;
          © ;
          ® ;
          ± ± ;
          × × ;
          § § ;
          ¢ ;
          ¥ ;
          · · ;
          &euro ;
          £ ;
          &trade ;

          4、<a> 超鏈接標簽(錨標簽)
          重要屬性有三個:href、target、name
          href 超鏈接地址:可以是Web上任意資源,包括圖片,網頁,樣式,腳本文件等。href="#"時,表示被鏈接頁面就是當前頁面。
          target 文檔打開時要顯示的目標位置,屬性值一般有:_blank(新窗口中打開)、_self(默認,在超鏈接所在的容器中打開)、_parent(在超鏈接的父容器中打開)、_top(整個容器中打開)、name(框架名稱)。
          name 錨記名稱。作用:跳轉到文檔的某個地方。返回首頁。
          # 跳轉網頁
          <a href="http://cnblogs.com/suoning" target="_blank">Nick Blogs</a>
          # 跳轉錨記書簽名稱
          <a name="top"><h3>Top!</h3></a>
          <div style="height: 800px"></div>
          <a href="#top">top</a>
          1.標簽最簡式
          <a href="mailto:xxx@xx.com">郵件聯系</a>
          2.標簽幫你填抄送地址
          <a href="mailto:xxx@xx.com?cc=xxxx@xx.com">郵件聯系</a>
          3.標簽幫你填暗送地址
          <a href="mailto:xxx@xx.com?bcc=xxxx@xx.com">郵件聯系</a>
          4.暗,抄
          <a href="xxxxx@xx.com">郵件聯系</a>
          5.標簽幫你填主題
          <a href="mailto:xxx@xx.com?subject=這是主題">郵件聯系</a>
          6.填郵件內容
          <a href="mailto:xxx@xx.com?body=這是內容">郵件聯系</a>
          7.多址發送
          <a href="mailto:xxx@xx.com,xxxx@xx.com">郵件聯系</a>
          # http://shang.qq.com/v3/widget.html
          <a target="_blank" href="http://wpa.qq.com/msgrd?v=3&uin=630571017&site=qq&menu=yes"><img border="0" src="http://wpa.qq.com/pa?p=2:630571017:51" alt="點擊這里給我發消息" title="點擊這里給我發消息"/></a>
          <a href="tencent://message/?uin=630571017" target="_blank"><img style="border:0px;" src=http://wpa.qq.com/pa?p=1:707321921:13></a>
          # 更多圖片地址如下:
          # http://wpa.qq.com/pa?p=1:707321921:1
          # http://wpa.qq.com/pa?p=1:707321921:2
          # http://wpa.qq.com/pa?p=1:707321921:3
          # http://wpa.qq.com/pa?p=1:707321921:4
          # http://wpa.qq.com/pa?p=1:707321921:5
          # http://wpa.qq.com/pa?p=1:707321921:6
          # http://wpa.qq.com/pa?p=1:707321921:7
          # http://wpa.qq.com/pa?p=1:707321921:8
          # http://wpa.qq.com/pa?p=1:707321921:9
          # http://wpa.qq.com/pa?p=1:707321921:10
          # http://wpa.qq.com/pa?p=1:707321921:11
          # http://wpa.qq.com/pa?p=1:707321921:12
          # http://wpa.qq.com/pa?p=1:707321921:13
          5、<img> 圖形標簽
          行級標簽,用來顯示圖片。
          重要屬性有:src、title、alt、width、height、align。
          src 圖片地址。
          title 鼠標懸浮在圖片上的文字。
          alt 圖片找不到時要替換的文字。如果圖片資源使用的是外網資源,則不會顯示要替換的文字。如果使用的是本網站的資源(相對路徑給出),則找不到圖片時會顯示替換的文字,并保留圖片設置的寬高結構。
          align 圖片周圍文字的垂直對齊情況。常用的屬性值有:top(與圖片的頂部對齊)、middle(與圖片的中部對齊)、bottom(默認,與圖片的底部對齊)。
          width 圖片的寬
          height 圖片的高 (寬高兩個屬性只用一個會自動等比縮放.)
          <img src="http://p_w_picpaths.cnblogs.com/cnblogs_com/suoning/845162/o_ns.png" alt="圖片加載失敗。。。" title="The knife girl, kiss"/>
          6、列表標簽 
          <ul> :無序列表標簽
          <li>:列表中的每一項.
          <ol> :有序列表標簽
          <li>:列表中的每一項.
          <li>主要的屬性有:type、value兩個:
          type指明項目的類型,屬性值有:A,a,I,i,1,disc(實心圓),square(實心正方形),circle(空心圓)。
          value表示序號值從幾開始。
          <dl> 定義列表
          <dt> 列表標題
          <dd> 列表項
          <ur>
          <li type="circle">A</li>
          <li type="1">B</li>
          <li type="1">C</li>
          </ur>
          <ol>
          <li value="3">3</li>
          <li>4</li>
          </ol>
          <dl>
          <dt><i>標題</i></dt>
          <dd>第一項</dd>
          <dd>第二項</dd>
          <dd>第三項</dd>
          </dl>
            
          7、<table> 表格標簽
          <table border="1">
          <thead>
          <tr>
          <th>序號</th>
          <th>姓名</th>
          </tr>
          </thead>
          <tbody>
          <tr>
          <th>1.</th>
          <td>nick</td>
          </tr>
          <tr>
          <th>2.</th>
          <td>jenny</td>
          </tr>
          </tbody>
          </table>
          <table> 表格標簽
          border:(表格邊框)
          align(水平對齊方式)
          bgcolor(背景顏色)
          cellpadding(內邊距,單元格與內容之間的距離)
          cellspacing(外邊距,單元格的間距,設置為0時,表格變為實線表格)
          width(表格的寬度,可以用%或者像素,最好通過css來設置長寬)
          <caption> 表格的標題
          <tr> 表格的數據行,table row
          <th> 表格的表頭名稱,與<td>不同在于文字采用加粗居中的形式顯示,table head cell
          <td> 單元格,用來顯示表格內容,table data cell
          <thead> 表格頭部,使結構更加分明
          <tbody> 表格主體部分,使結構更加分明
          rowspan 單元格豎跨多少行,作用在th或者td上
          colspan 單元格橫跨多少列(即合并單元格),作用在th或者td上
          <table>
          <caption>xxxxxxxxxx</caption>
          <thead>
          <tr>
          <th>序號</th>
          <th>姓名</th>
          <th>年齡</th>
          <th>女神</th>
          </tr>
          </thead>
          <tbody>
          <tr>
          <th>1.</th>
          <td>nick</td>
          <td>18</td>
          <td>可可西</td>
          </tr>
          <tr>
          <th>2.</th>
          <td>jenny</td>
          <td>21</td>
          <td>nick!!!</td>
          </tr>
          </tbody>
          </table>
          8、<form>表單標簽
          表單屬性
          HTML 表單用于接收不同類型的用戶輸入,用戶提交表單時向服務器傳輸數據,從而實現用戶與Web服務器的交互。表單標簽, 要提交的所有內容都應該在該標簽中。
          屬性:action、method、enctype
          action 表單要提交的地址,用于處理表單的內容(一般是提交字典到后臺的一個接口,這個接口是java寫成的,提交到這個接口后后臺就知道如何處理這些數據了)。
          method 提交的方法,默認是get方式提交。
          get: 1.提交的鍵值對.放在地址欄中url后面. 2.安全性相對較差. 3.對提交內容的長度有限制.
          post:1.提交的鍵值對不在地址欄. 2.安全性相對較高. 3.對提交內容的長度理論上無限制.
          enctype 對表單數據進行編碼,默認都是要編碼的。格式為:application/x-www-form-urlencoded(表單默認的編碼格式,表單發送前對所有字符進行編碼。編碼規則:空格轉換為“+”號,特殊符號轉換為ASC HEX值)。提交普通的文本內容到服務器就可以采用這種默認的編碼方式。當你需要提交的是一個文件時,編碼就需要采用另一種格式:multipart/form-data(不對字符編碼,文件上傳時使用)。text/plain(是一種純文本編碼,空格轉換為“+”號,但是不對特殊字符進行編碼)。
          <!DOCTYPE html>
          <html lang="en">
          <head>
          <meta charset="UTF-8">
          <title>Title</title>
          </head>
          <body>
          <form action="https://www.baidu.com/s">
          <input type="text" name="wd">
          <input type="submit" value="百度一下">
          </form>
          </body>
          </html>
          <!DOCTYPE html>
          <html lang="en">
          <head>
          <meta charset="UTF-8">
          <title>Title</title>
          </head>
          <body>
          <form action="https://www.sogou.com/web">
          <input type="text" name="query">
          <input type="submit" value="搜狗搜索">
          </form>
          </body>
          </html>
          表單元素
          <input> type 屬性:
          text 文本框輸入(默認text文本框類型)。
          autocomplete(自動完成輸入的內容,要求表單元素要有name屬性才有自動完成的效果,off表示自動完成不可用,on表示自動完成可用)
          disabled(設置或者獲取控件的狀態,默認是false即可用,等于true時不可用,不能輸入內容)
              password 密碼框。(以下屬性text和password共有)
          size(指定表單元素的初始寬度。當type為text或password時,表單元素的大小以字符為單位,對于其他元素,寬度以像素為單位)
          maxlength(type為text或password時,表示輸入的最大字符數),有利于防止sql的注入攻擊
          readonly 只讀. 
                placeholder 框內預置內容(灰色),寫上內容時才消失
          radio 單選按鈕。屬性:
          name(將name的值設置為相同值,才表示一組數據,才能實現單選功能)
          value(必須要寫,提交到服務器的key值,實際開發過程中value一般是編號)
          checked(是否被選中的狀態)
          checkbox 復選框。
          name(名字一定要一樣一樣的,才表示是一組數據,添加到同一value值列表提交到服務器)
          value(必須要寫,提交到服務器的key值,實際開發過程中value一般是編號)
          checked(是否被選中的狀態)
          file 文件域,上傳文件(不同的瀏覽器表現形式不同)
              submit 提交按鈕。用于提交表單。
              reset 重置按鈕。清空表單的輸入,恢復到表單默認的狀態。
          button 普通按鈕。一般結合javascript使用。
              p_w_picpath 圖片按鈕,用來提交表單,與submit是一樣的效果。
          src(圖片路徑)
              hidden 隱藏字段。
          value(隱藏的內容)
              color 顏色標簽。value指定顏色值(采用#十六進制數表示)。
              date 日期。value值指定默認的日期,格式為****-**-**(年月日)。
              datetime-local 顯示本地時間,value值指定默認的時間,格式為2016-05-20T11:10:10(年月日T時分秒)。
              number 數字向上或者向下滑動。可以填數字然后向上或者向下選擇不同的值。
              range 滑動標簽。min(指定最小值)、max(指定最大值)、value(指定當前默認值)。
              week 每年的周數。value指定哪一年第幾周,格式為2016-W25(2016年第25周)。
          <textarea> 文本域標簽。默認表現形式是可以輸入很多行文本的文本框。
          name (表單提交項的key)
              cols(設置文本域寬度)
          rows(設置文本域高度,即行數)
          <select> 下拉框標簽。使用時要結合<option>子標簽一起使用。
          name:表單提交項的key
          size:選項個數
          multiple:多選
          <option> 下拉選中的每一項
          value(表單提交項的值)
          selected(selected下拉選默認被選中)
          <optgroup>為每一項加上分組
          <label> 把元素與文本結合起來
          友好設計:不只是選中復選框才能選中并打鉤,要求點擊對應的文字也能選中該復選框。
          這種情況下要用到<label>標簽的for屬性(設置或獲取給定標簽對象指定到的對象,值=另一個元素的id號即可)
          <label for="name">姓名</label>
          <input id="name" type="text">
          <fieldset> 對表單中的相關元素進行分組
          <fieldset>
          <legend>溫馨提示</legend>
          <div align="middle">不要忘記點贊哦 ==</div>
          </fieldset>
          value: 表單提交項的值
          對于不同的輸入類型,value 屬性的用法也不同:
          type="button", "reset", "submit" - 定義按鈕上的顯示的文本
          type="text", "password", "hidden" - 定義輸入字段的初始值
          type="checkbox", "radio", "p_w_picpath" - 定義與輸入相關聯的值
          框架
          <frameset> 框架
          用來劃分窗體,不能放在<body>中,否則沒有效果。
          cols (縱向分割頁面。其數值表示方法有三種:“30%、30(或者30px)、*”;數值的個數代表分成的視窗數目且數值之間用“,”隔開。“30%”表示該框架區域占全部瀏覽器頁面區域的30%;“30”表示該區域橫向寬度為30像素;“*”表示該區域占用余下頁面空間。例如:cols="25%,200,*" 表示將頁面分為三部分,左面部分占頁面30%,中間橫向寬度為200像素,頁面余下的作為右面部分。)
          rows(橫向分割頁面。屬性和cols一樣)
          frameborder(設置是否顯示框架邊框。設定值只有0、1;0 表示不要邊框,1 表示要顯示邊框)
          border(框架之間的距離,一般設置為0)
          bordercolor(邊框的顏色)
          framespacing(設置框架與框架間的保留的空白距離)
          <frameset cols="40%,*,*"> 第一個框架占整個瀏覽器窗口的40%,剩下的空間平均分配給另外兩個框架。
          <frameset cols="*,*,*,*"> 瀏覽器窗口等分為四部分。
          <iframe> 框架
          元素會創建包含另外一個文檔的內聯框架(即行內框架)
          name (設置框架名稱。此為必須設置的屬性)
          src (設置此框架要顯示的網頁名稱或路徑。此為必須設置的屬性)
          scrolling (設置是否要顯示滾動條。設定值為auto, yes, no)
          bordercolor (設置框架的邊框顏色)
          frameborder (設置是否顯示框架邊框。設定值只有0、1;0 表示不要邊框,1 表示要顯示邊框)
          noresize (設置框架大小是否能手動調節)
          marginwidth (設置框架邊界和其中內容之間的寬度)
          marginhight (設置框架邊界和其中內容之間的高度)
          width(設置框架寬度)
          height (設置框架高度)


          主站蜘蛛池模板: 夜夜精品无码一区二区三区| 日本免费一区二区三区| 国产精品免费大片一区二区| 奇米精品一区二区三区在线观看| 曰韩人妻无码一区二区三区综合部| 女女同性一区二区三区四区| 中文字幕一精品亚洲无线一区| 国产欧美一区二区精品仙草咪| 中文字幕色AV一区二区三区| 一区二区三区伦理高清| 日本无码一区二区三区白峰美 | 波多野结衣一区二区三区aV高清| 精品国产aⅴ无码一区二区| 国产成人一区二区三区视频免费 | 高清一区二区三区免费视频| 中文字幕无码免费久久9一区9| 国产一区中文字幕在线观看| 国模精品视频一区二区三区| 亚洲AV无码一区二区三区鸳鸯影院 | 国产一区二区免费| 内射女校花一区二区三区| 久久无码一区二区三区少妇| 亚洲AⅤ视频一区二区三区| 夜夜爽一区二区三区精品| 日本视频一区二区三区| 一区免费在线观看| 国产一区二区三精品久久久无广告 | 亚洲国产韩国一区二区| 亚洲图片一区二区| 国产精品视频分类一区| 性色AV一区二区三区天美传媒| 亚州AV综合色区无码一区| 国产伦精品一区二区三区无广告 | 日本激情一区二区三区| 亚洲丶国产丶欧美一区二区三区| 国产Av一区二区精品久久| 国产成人精品亚洲一区 | 精品久久久中文字幕一区| 波多野结衣一区在线观看| 精品日韩在线视频一区二区三区 | 色一乱一伦一区一直爽|