整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          網絡爬蟲知識 day02

          網絡爬蟲知識 day02

          .5 連接池

          如果每次請求都要創建HttpClient,會有頻繁創建和銷毀的問題,可以使用連接池來解決這個問題。


          2.6 請求參數

          有時候因為網絡,或者目標服務器的原因,請求需要更長的時間才能完成,我們需要自定義相關時間


          三、Jsoup

          我們抓取到頁面之后,還需要對頁面進行解析。可以使用字符串處理工具解析頁面,也可以使用正則表達式,但是這些方法都會帶來很大的開發成本,所以我們需要使用一款專門解析html頁面的技術。


          3.1 jsoup介紹

          jsoup 是一款Java 的HTML解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于jQuery的操作方法來取出和操作數據。

          jsoup的主要功能如下:

          1. 從一個URL,文件或字符串中解析HTML;

          2. 使用DOM或CSS選擇器來查找、取出數據;

          3. 可操作HTML元素、屬性、文本;

          在Maven工程中的Pom.xml中加入Jsoup依賴:

          <!--Jsoup-->

          <dependency>

          <groupId>org.jsoup</groupId>

          <artifactId>jsoup</artifactId>

          <version>1.10.3</version>

          </dependency>

          <!--測試-->

          <dependency>

          <groupId>junit</groupId>

          <artifactId>junit</artifactId>

          <version>4.12</version>

          </dependency>

          <!--工具-->

          <dependency>

          <groupId>org.apache.commons</groupId>

          <artifactId>commons-lang3</artifactId>

          <version>3.7</version>

          </dependency>

          <dependency>

          <groupId>commons-io</groupId>

          <artifactId>commons-io</artifactId>

          <version>2.6</version>

          </dependency>


          3.2 jsoup解析

          3.2.1 解析url

          Jsoup可以直接輸入url,它會發起請求并獲取數據,封裝為Document對象

          注意:雖然使用Jsoup可以替代HttpClient直接發起請求解析數據,但是往往不會這樣用,因為實際的開發過程中,需要使用到多線程,連接池,代理等等方式,而jsoup對這些的支持并不是很好,所以我們一般把jsoup僅僅作為Html解析工具使用。


          3.2.2 解析字符串

          先準備一個html文件

          Jsoup可以直接輸入字符串,并封裝為Document對象


          3.2.3 解析文件

          Jsoup可以直接解析文件,并封裝為Document對象


          3.2.4 使用dom方式遍歷文檔

          元素獲取

          1. 根據id查詢元素getElementById

          2. 根據標簽獲取元素getElementsByTag

          3. 根據class獲取元素getElementsByClass

          4. 根據屬性獲取元素getElementsByAttribute


          //1、根據id查詢元素getElementById

          Element element=document.getElementById("city_bj");


          //2、根據標簽獲取元素getElementsByTag

          element=document.getElementsByTag("title").first();


          //3、根據class獲取元素getElementsByClass

          element=document.getElementsByClass("s_name").last();


          //4、根據屬性獲取元素getElementsByAttribute

          element=document.getElementsByAttribute("abc").first();

          element=document.getElementsByAttributeValue("class","city_con").first();


          3.2.5 使用選擇器語法查找元素

          jsoup elements對象支持類似于CSS (或jquery)的選擇器語法,來實現非常強大和靈活的查找功能。這個select 方法在Document, Element,或Elements對象中都可以使用。且是上下文相關的,因此可實現指定元素的過濾,或者鏈式選擇訪問。

          Select方法將返回一個Elements集合,并提供一組方法來抽取和處理結果。


          3.2.6 Selector選擇器概述

          tagname: 通過標簽查找元素,比如:span

          #id: 通過ID查找元素,比如:# city_bj

          .class: 通過class名稱查找元素,比如:.class_a

          [attribute]: 利用屬性查找元素,比如:[abc]

          [attr=value]: 利用屬性值來查找元素,比如:[class=s_name]


          3.2.7 Selector選擇器組合使用

          el#id: 元素+ID,比如: h3#city_bj

          el.class: 元素+class,比如: li.class_a

          el[attr]: 元素+屬性名,比如: span[abc]

          任意組合: 比如:span[abc].s_name

          ancestor child: 查找某個元素下子元素,比如:.city_con li 查找"city_con"下的所有li

          parent > child: 查找某個父元素下的直接子元素,比如:

          .city_con > ul > li 查找city_con第一級(直接子元素)的ul,再找所有ul下的第一級li

          parent > *: 查找某個父元素下所有直接子元素

          、需求:爬取http://caijing.bandao.cn/list.asp?cate=YW&page=1財經要聞欄目下的新聞標題、url、時間。

          2、實現




          Jsoup.connect("http://caijing.bandao.cn/list.asp?cate=YW&page=1")
          .timeout(5000)
          .get()
          .getElementsByClass("centerAllList")
          .fold(ArrayList<Map<String,String>>()){ acc, elements -> elements.getElementsByTag("li")
          .mapTo(acc){ mapOf( "text" to it.getElementsByTag("a").html(), "href" to it.getElementsByTag("a").attr("href"), "date" to it.getElementsByClass("date").html()
          ) } }.forEach(::println)

          3、分析

          1)首先獲取頁面上的centerAllList類,新聞數據都在這里面

          2)在centerAllList類下,一對li標簽代表一條新聞信息

          3)我們看到,acc和elements參數被傳進函數中,其中acc表示最后要返回的那個總的List;而elements表示centerAllList的List。我們把此List遍歷,每一個子元素都代表一個centerAllList。接著我們獲取centerAllList下所有的li,這樣我們就能得到由li組成的List。

          4)現在我們已經獲取到所有的li了,接下來我們把li轉為Map,一個Map代表一條新聞,所以我們最后需要的對象是由Map組成的List。其中acc代表最后要返回的List,而it代表每一個li。我們用mapTo把li轉為Map,并將其存入到acc中,此時我們就得到了由Map組成的List了。

          科時,畢業論文需要不少網絡上用戶的問答數據。那時,我還沒有搞過網絡爬蟲,只能利用關鍵詞搜索的方式,找到相關數據,然后一條一條復制。我也覺得這樣很傻,但不得不承認這確實我最初的操作方式,很艱難,累的手疼。

          后來,讀研究生時,做項目的同時還要搞科研。項目和科研,都需要采集大量的網絡數據。領頭做項目的師兄,指定了一系列國內外網站,并把采集任務分配給我。對于當時啥都不咋會的我,內心“啥?這該咋弄???這咋弄啊?……”可是沒辦法,即便瑟瑟發抖,硬著頭皮還是要上。


          好在有著師兄指點,讓我去學習網路爬蟲,說網路爬蟲可以搞定“我想要的數據”。為了“活”下去,我決定放手一搏,但在學習準備階段我就遇到了我的第一個“爬蟲難題”。


          決定要用網絡爬蟲去采集數據,面臨一個選擇就是:是用Java還是Python寫網絡爬蟲呢?對于一個新手,我翻閱了網上各種對比的帖子,各有各的觀點,其中不少說Python上手容易,寫起來方便。但最終我還是選擇了Java,有以下幾點原因:

          1. Java火了很多年,而且依舊很火,其生態也比較完善。目前,很多大公司的系統皆采用Java設計,足以說明其強大之處。把Java學好了,足夠讓我找一份不錯的工作,即入職大廠。

          2. Java嚴謹規范,對于大型工程、大型程序,如果不規范不嚴謹維護豈不容易出問題。

          3. 對網絡爬蟲而言,JAVA中也有很多簡單易用的類庫(如Jsoup、Httpclient等),同時還存在不少易于二次開發的網絡爬蟲框架(Crawler4J、WebMagic等)。

          4. 曾在一個帖子中看到,“世界上99%的人都會選擇一條容易走的大路,因為人都喜歡安逸。這也是人的大腦的思維方式決定的,因為大腦的使命是為了讓你生存,而不是求知。但成功是總是屬于那1%的人,這類人是堅持讓大腦做不愿意做的事的人——求知”。哎,這在我看來,還真有一定的道理。如果勵志想成為一名真正的程序員,建議先學習Java。在此基礎上,如果你對Python感興趣,也是可以快速上手的。


          1 網絡爬蟲流程

          學習網絡爬蟲之前,先看了普通網絡爬蟲大致流程,如下圖所示:

          主要包括5個步驟:

          1. 選取部分種子URL(或初始URL),將其放入待采集的隊列中。如在Java中,可以放入List、LinkedList以及Queue中。

          2. 判斷URL隊列是否為空,如果為空則結束程序的執行,否則執行步驟3。

          3. 從待采集的URL隊列中取出一個URL,獲取URL對應的網頁內容。在此步驟需要使用HTTP響應狀態碼(如200和403等)判斷是否成功獲取到了數據,如響應成功則執行解析操作;如響應不成功,則將其重新放入待采集URL隊列(注意這里需要過濾掉無效URL)。

          4. 針對響應成功后獲取到的數據,執行頁面解析操作。此步驟根據用戶需求獲取網頁內容中的部分字段,如汽車論壇帖子的id、標題和發表時間等。

          5. 針對步驟4解析的數據,執行數據存儲操作。


          2 需要掌握的Java基礎知識

          在使用Java構建網絡爬蟲時,需要掌握很多Java方面的基礎知識。例如,Java中基本的數據類型、Java中的數組操作、判斷語句的使用、集合操作、對象和類的使用、String類的使用、日期和時間的處理、正則表達式的使用、Maven工程的創建、多線程操作、日志的使用等。

          看著知識點很多,但如果將其放入到具體的網絡爬蟲實戰項目中去學習,會發現很簡單。下面,我舉兩個例子。

          在網絡爬蟲中,我們經常需要將待采集的URL放到集合中,然后循環遍歷集合中的每個URL去采集數據。比如,我們使用Queue集合操作:

          Queue<String> urlQueue=new LinkedList<String>();
              //添加要采集的URL
              urlQueue.offer("https://ccm.net/download/?page=1");
              urlQueue.offer("https://ccm.net/download/?page=2");
              urlQueue.offer("https://ccm.net/download/?page=3");
              boolean t=true;
              while (t) {
                //如果隊列為空,循環結束
                if( urlQueue.isEmpty() ){
                  t=false;
                }else {
                  //取出每個URL
                  String url=urlQueue.poll();
                  //獲取HTML
                  String getHtml=...;
                  //判斷是否成功請求到HTML
                  if (成功請求到HTML) {
                    //解析數據
                    ...;
                  }else { //如果網頁存在但沒有請求到數據,重新添加到隊列中
                    urlQueue.offer(url);
                  }
                }
              }

          另外,在采集數據時,不同網站的時間使用格式可能不同。而不同的時間格式,會為數據存儲以及數據處理帶來一定的困難。例如,下圖為某汽車論壇中時間使用的格式,即“yyyy-MM-dd”和“yyyy-MM-dd HH:mm”兩種類型。

          下圖為某新聞網站中的時間使用格式“yyyy-MM-dd HH:mm:ss”。

          再如,藝術品網站deviantart的時間使用的是UNIX時間戳的形式。

          針對汽車論壇中的“yyyy-MM-dd”和“yyyy-MM-dd HH:mm”格式,可以統一轉化成“yyyy-MM-dd HH:mm:ss”格式,以方便數據存儲以及后期數據處理。此時,可以寫個方法將將字符串類型的時間標準化成指定格式的時間。如下程序:

          import java.text.ParseException;
          import java.text.SimpleDateFormat;
          import java.util.Date;
          public class TimeTest {
            public static void main(String[] args) {
              System.out.println(parseStringTime("2016-05-19 19:17",
                  "yyyy-MM-dd HH:mm","yyyy-MM-dd HH:mm:ss"));
              System.out.println(parseStringTime("2018-06-19",
                  "yyyy-MM-dd","yyyy-MM-dd HH:mm:ss"));
            }
            /**
             * 字符型時間格式標準化方法
             * @param inputTime(輸入的字符串時間),inputTimeFormat(輸入的格式),outTimeFormat(輸出的格式).
             * @return 轉化后的時間(字符串)
             */
            public static String parseStringTime(String inputTime,String inputTimeFormat,
                String outTimeFormat){
              String outputDate=null;
              try {
                //日期格式化及解析時間
                Date inputDate=new SimpleDateFormat(inputTimeFormat).parse(inputTime);
                //轉化成新的形式的字符串
                outputDate=new SimpleDateFormat(outTimeFormat).format(inputDate);
              } catch (ParseException e) {
                e.printStackTrace();
              }
              return outputDate;
            }
          }

          針對UNIX時間戳,可以通過如下方法處理:

          //將unix時間戳轉化成指定形式的時間
            public static String TimeStampToDate(String timestampString, String formats) {
              Long timestamp=Long.parseLong(timestampString) * 1000;
              String date=new SimpleDateFormat(formats,
                  Locale.CHINA).format(new Date(timestamp));
              return date;
            }

          3 HTTP協議基礎與網絡抓包

          做網絡爬蟲,還需要了解HTTP協議相關的內容,即要清楚數據是怎么在服務器和客戶端傳輸的。

          具體需要了解的內容包括:

          1. URL的組成:如協議、域名、端口、路徑、參數等。

          2. 報文:分為請求報文和響應報文。其中,請求報文包括請求方法、請求的URL、版本協議以及請求頭信息。響應報文包括請求協議、響應狀態碼、響應頭信息和響應內容。響應報文包括請求協議、響應狀態碼、響應頭信息和響應內容。

          3. HTTP請求方法:在客戶端向服務器發送請求時,需要確定使用的請求方法(也稱為動作)。請求方法表明了對URL指定資源的操作方式,服務器會根據不同的請求方法做不同的響應。網絡爬蟲中常用的兩種請求方法為GET和POST。

          4. HTTP狀態碼:HTTP狀態碼由3位數字組成,描述了客戶端向服務器請求過程中發生的狀況。常使用200判斷網絡是否請求成功。

          5. HTTP信息頭:HTTP信息頭,也稱頭字段或首部,是構成HTTP報文的要素之一,起到傳遞額外重要信息的作用。在網絡爬蟲中,我們常使用多個User-Agent和多個referer等請求頭來模擬人的行為,進而繞過一些網站的防爬措施。

          6. HTTP響應正文:HTTP響應正文(或HTTP響應實體主體),指服務器返回的一定格式的數據。網絡爬蟲中常遇到需要解析的幾種數據包括:HTML/XML/JSON。

          在開發網絡爬蟲時,給定 URL,開發者必須清楚客戶端是怎么向服務器發送請求的,以及客戶端請求后服務器返回的數據是什么。只有了解這些內容,開發者才能在程序中拼接URL,針對服務返回的數據類型設計具體的解析策略。因此,網絡抓包是實現網絡爬蟲必不可少的技能之一,也是網絡爬蟲開發的起點。


          本文作者錢洋博士所著新書《網絡數據采集技術:Java網絡爬蟲實戰》現已上市。系統地介紹了網絡爬蟲的理論知識和基礎工具,并且選取典型網站,采用案例講解的方式介紹網絡爬蟲中涉及的問題,以增強大家的動手實踐能力。


          本書時候國內少見的Java爬蟲寶典。與Python語言相比,使用Java語言進行網絡數據采集,具有采集效率更高、框架性能更好、敏捷易用等優點,而且針對大型搜索引擎系統的數據采集工作更多使用Java語言,故本書值得大家學習。

          (掃碼了解本書詳情)



          █ 關 于 作 者

          錢洋

          合肥工業大學管理科學與工程系博士、CSDN博客專家。作為技術人員參與過多個橫向、縱向學術課題,負責數據采集系統的設計與開發工作。在CSDN(博客名稱:HFUT_qianyang)上撰寫了多篇關于數據采集、自然語言處理、編程語言等領域的原創博客。

          姜元春

          合肥工業大學教授、博士生導師。長期從事電子商務、商務智能、數據采集與挖掘等方面的理論研究與教學工作。先后主持過國家自然科學基金優秀青年科學基金項目、國家自然科學基金重大研究計劃培育項目、國家自然科學基金青年科學基金項目、教育部人文社科青年基金項目、阿里巴巴青年學者支持計劃、CCF-騰訊犀牛鳥基金項目等課題的研究工作。


          █ 大 咖 推 薦

          • 陳國青 / 清華大學教授、博士生導師
          • 程學旗 / 中國科學院計算技術研究所研究員、博士生導師
          • 卓訓方 / 上海數據交易中心項目總監
          • 劉業政 / 合肥工業大學教授博士生導師


          █ 本書內容結構

          第 1 ~3 章

          這3 章重點介紹與網絡爬蟲開發相關的基礎知識,其中包括網絡爬蟲的原理、Java 基礎知識和HTTP 協議等內容。

          第 4~6 章

          這3 章分別從網頁內容獲取、網頁內容解析和網絡爬蟲數據存儲3 個方面介紹網絡爬蟲開發過程中所涉及的一系列技術。在這3 章中,涉及很多開源工具的使用,如Jsoup、HttpClient、HtmlCleaner、Fastjson、POI3 等。

          第 7 章

          本章利用具體的實戰案例,講解網絡爬蟲開發的流程。通過對本章的學習,讀者可以輕松開發Java 網絡爬蟲。

          第 8 章

          針對一些復雜的頁面,如動態加載的頁面(執行JavaScript 腳本),本章介紹了一款實用的工具——Selenium WebDriver。

          第 9 章

          本章重點介紹了3 種比較流行的Java 網絡爬蟲開源框架,即Crawler4j、WebCollector 和WebMagic。讀者可根據數據采集需求,自行開發支持多線程采集、斷點采集、代理切換等功能的網絡爬蟲項目。


          ? 博文菌●互動時間 ?

          Java、Python、Js、C、PHP、Shell、Ruby等等語言都可以實現爬蟲,你嘗試過哪種語言呢?歡迎在留言區與大家分享!


          主站蜘蛛池模板: 国产日产久久高清欧美一区| 免费精品一区二区三区在线观看| 成人精品视频一区二区| 亚洲国产一区二区三区 | 国产一区二区好的精华液| 久久99国产一区二区三区| 国产福利无码一区在线| 国产成人精品日本亚洲专一区| 性色AV 一区二区三区| 日韩伦理一区二区| 日韩aⅴ人妻无码一区二区| 麻豆国产在线不卡一区二区| 天码av无码一区二区三区四区 | 精品无码av一区二区三区| 国产成人高清精品一区二区三区 | 无码精品国产一区二区三区免费 | 精品成人一区二区三区四区| 国产精品资源一区二区| 国产精品美女一区二区| 无码人妻久久一区二区三区蜜桃 | 亚洲字幕AV一区二区三区四区| 亚洲爆乳无码一区二区三区| 中文人妻av高清一区二区| 久久一区不卡中文字幕| 波多野结衣久久一区二区| 日本免费一区二区三区最新vr| 国产suv精品一区二区6| 波多野结衣在线观看一区二区三区 | 亚洲AV无码一区二区三区牲色| 另类国产精品一区二区| 亚洲av成人一区二区三区在线观看| 人妻体内射精一区二区| 一夲道无码人妻精品一区二区 | 日韩美一区二区三区| 国产麻豆媒一区一区二区三区| 熟女少妇精品一区二区| 亚洲一区免费在线观看| 国产一区二区三区四| 久久免费区一区二区三波多野| 国产对白精品刺激一区二区| 国产一区二区三区在线|