使用JSoup實現(xiàn)簡單的爬蟲技術(shù)

.Jsoup簡述

Java中支持的爬蟲框架有很多，比如WebMagic、Spider、Jsoup等。今天我們使用Jsoup來實現(xiàn)一個簡單的爬蟲程序。

?Jsoup擁有十分方便的api來處理html文檔，比如參考了DOM對象的文檔遍歷方法，參考了CSS選擇器的用法等等，因此我們可以使用Jsoup快速地掌握爬取頁面數(shù)據(jù)的技巧。

2.快速開始

1）編寫HTML頁面

<html>

<head>

<title>Insert title here</title>

</head>

<body>

<table>

<thead>

<tr>

</tr>

</thead>

<tbody>

<tr>

<td class="pname">product1</td>

</tr>

<tr>

<td class="pname">product2</td>

</tr>

</tbody>

</table>

</body>

</html>

頁面中表格的商品信息是我們要爬取的數(shù)據(jù)。其中屬性pname類的商品名稱，以及屬于pimg類的商品圖片。

2）使用HttpClient讀取HTML頁面

HttpClient是一個處理Http協(xié)議數(shù)據(jù)的工具，使用它可以將HTML頁面作為輸入流讀進(jìn)java程序中。可以從http://hc.apache.org/下載HttpClient的jar包。

//獲得HttpClient對象

HttpClient httpClient=new DefaultHttpClient();

//定義要爬取數(shù)據(jù)的目標(biāo)頁面url

String url="http://localhost:8080/MyShop/shop.jsp";

//使用HttpGet對象綁定url

HttpGet httpGet=new HttpGet(url);

//訪問url獲得響應(yīng)消息封裝在HttpResponse對象中

HttpResponse httpResponse=httpClient.execute(httpGet);

//entity中是響應(yīng)消息的實體

HttpEntity entity=httpResponse.getEntity();

//使用EntityUtils的toString獲得url指定頁面的字符串內(nèi)容，即html本身

String html=EntityUtils.toString(entity);

System.out.println(html);

3）使用Jsoup解析html字符串

通過引入Jsoup工具，直接調(diào)用parse方法來解析一個描述html頁面內(nèi)容的字符串來獲得一個Document對象。該Document對象以操作DOM樹的方式來獲得html頁面上指定的內(nèi)容。相關(guān)API可以參考Jsoup官方文檔：https://jsoup.org/cookbook/

下面我們使用Jsoup來獲取上述html中指定的商品名稱和價格的信息。

//JSOUP解析頁面數(shù)據(jù)，獲得Document對象

Document doc=Jsoup.parse(html);

//在Document對象的select方法中使用選擇器來獲得指定的元素，該選擇器與CSS及Jquery的選擇器相同。

Elements eles=doc.select("table tbody tr .pname");

Element ele=eles.get(0);

//獲得指定元素的文本內(nèi)容

System.out.println(ele.text());

Elements ele_imgs=doc.select("table tbody img");

//獲得指定元素的src屬性的值

String img_src=ele_imgs.get(0).attr("src");

System.out.println(img_src);

至此，我們已經(jīng)實現(xiàn)使用HttpClient+Jsoup爬取HTML頁面數(shù)據(jù)的功能。接下來，我們讓效果更直觀一些，比如將爬取的數(shù)據(jù)存到數(shù)據(jù)庫中，將圖片存到服務(wù)器上。

3.保存爬取的頁面數(shù)據(jù)

1）保存普通數(shù)據(jù)到數(shù)據(jù)庫中

將爬取的數(shù)據(jù)封裝進(jìn)實體Bean中，并存到數(shù)據(jù)庫內(nèi)。

//將數(shù)據(jù)封裝到Javabean中

Product p=new Product();

p.setPid(UUID.randomUUID().toString());

p.setPname(ele.text());

p.setPimg(img_src);

//將存入數(shù)據(jù)庫中

ProductDao dao=new ProductDao();

try {

dao.addProduct(p);

} catch (SQLException e) {

// TODO Auto-generated catch block

e.printStackTrace();

}

//dao的操作

public void addProduct(Product p) throws SQLException {

QueryRunner qr=new QueryRunner(JDBCUtil.getDataSource());

String sql="insert into product values(?,?,?)";

qr.update(sql,p.getPid(),p.getPname(),p.getPimg());

}

2）保存圖片到服務(wù)器上

直接通過下載圖片的方式將圖片保存到服務(wù)器本地。

private void downloadImg(HttpServletRequest request,Product p) throws ClientProtocolException, IOException {

//獲得圖片的原url

String url="http://localhost:8080"+p.getPimg();

//使用HttpClient獲得圖片資源

HttpClient httpClient=new DefaultHttpClient();

HttpGet httpGet=new HttpGet(url);

HttpResponse httpResponse=httpClient.execute(httpGet);

//獲得請求的圖片資源的輸入流

InputStream is=httpResponse.getEntity().getContent();

//在服務(wù)器本地創(chuàng)建文件，用于接收圖片

String img_name=p.getPimg().substring(p.getPimg().lastIndexOf("/")+1);

String realPath=request.getRealPath("/Download/"+img_name);

File dir=new File(request.getRealPath("/Download"));

if(!dir.exists()){

//如果文件夾不存在，則創(chuàng)建

dir.mkdirs();

}

//讀寫數(shù)據(jù)，保存圖片

File file=new File(realPath);

FileOutputStream fos=new FileOutputStream(file);

int b=0;

while((b=is.read())!=-1){

fos.write(b);

}

fos.close();

}

4.總結(jié)

本案簡單實現(xiàn)了使用HttpClient+Jsoup爬取網(wǎng)絡(luò)數(shù)據(jù)，對于爬蟲技術(shù)本身，還有很多值得深挖的地方，以后再為大家講解。

何配置一個從網(wǎng)頁爬去數(shù)據(jù)的java項目

用工具如myeclipse，可以新建項目，然后把java代碼放在src目錄下，把 html或者jsp頁面放到webroot目錄下，當(dāng)然可以自己新建目錄，js放的位置要看你html中自己引用的相對目錄是什么，jat包需要放在lib目錄下，如果開發(fā)環(huán)境沒有部署tomcat，還得自己部署。

如果只是一個單純的java項目，只想讓java程序運(yùn)行，那就只需要安裝好jdk，就可以執(zhí)行java程序了。否則那就需要安裝tomcat或者其他的網(wǎng)絡(luò)應(yīng)用服務(wù)器，也就是jsp頁面。

枷鎖

如果不想借助myeclipse等集成環(huán)境，那可以在tomcat中自己建立項目目錄，一定放在root文件夾下，然后是web-inf，實在不會的話可以把你要部署的項目代碼什么的都粘貼上來，會有人手把手教你如何部署。

sql文件是以字符串形式存在的，一般是用于生成初始化數(shù)據(jù)庫。如果是擴(kuò)展性好的程序，一般都有一個配置文件，說明sql文件的路徑。然后在java代碼中，根據(jù)配置文件找到sql文件，以字符串形式打開，然后讀取字符串，作為sql語句執(zhí)行。這個過程不需要考慮會不會出錯，因為完整的項目都已經(jīng)做好了處理。

所以，sql文件應(yīng)該放到最初的位置不要動它，或者安裝說明把它挪到應(yīng)該在的地方。

科技

爬取指定網(wǎng)站的數(shù)據(jù)de的java代碼

Package zy.crawl.hupu;

Import java.io.IOException;

Import zy.crawl.common.*;

Import java.util.ArrayList;

Import java.util.List;

Import org.apache.http.HttpEntity;

Import org.apache.http.HttpHost;

Import org.apache.http.HttpResponse;

Import org.apache.http.HttpStatus;

Import org.apache.http.client.HttpClient;

Import org.apache.http.client.methods.HttpGet;

Import org.apache.http.conn.params.ConnRoutePNames;

Import org.apache.http.impl.client.DefaultHttpClient;

Import org.apache.http.params.CoreConnectionPNames;

Import org.apache.http.util.EntityUtils;

Import org.jsoup.Jsoup;

Import org.jsoup.nodes.Document;

Import org.jsoup.nodes.Element;

Import org.jsoup.select.Elements;

Publicclass rawlHupu

{

Private List<NewsInfo>newsList=newArrayList<>();//用來存儲爬取的信息對象

Public StringGetHtml(Stringurl)//還方法是設(shè)置網(wǎng)絡(luò)鏈接，是固定的用法

{

Stringhtml=null;

HttpClient httpClient=new DefaultHttpClient();

術(shù)棧定義

一般來說是指將N種技術(shù)互相組合在一起(N>1)，作為一個有機(jī)的整體來實現(xiàn)某種目的或功能。也可以指掌握這些技術(shù)以及配合使用的經(jīng)驗。

舉個例子：

開發(fā)一個普通OA（辦公自動化）系統(tǒng)，我們使用了html+css+javascript+vue+ Spring Boot+Spring cloud+hibernate + Spring+rocket Mq+Redis+Es+linux+ mysql等等，這些技術(shù)加起來就可以稱為技術(shù)棧。

互聯(lián)網(wǎng)公司的技術(shù)棧整體分為5大塊：前端、后端、中間件、運(yùn)維和工具。

下面就分別給大家解釋一下最重要的前端、后端運(yùn)用了哪些技術(shù)，這些技術(shù)又能解決什么問題。

前端技術(shù)棧

使用css3作為頁面的樣式控制

解決頁面渲染問題。

使用Html5作為頁面結(jié)構(gòu)的標(biāo)簽語言

解決移動端的頁面兼容性問題。

使用seajs框架

解決項目中模塊開發(fā)和加載的問題。

使用使用Jquery前端js框架

解決方便操作頁面元素的問題。

引用流行的前端插件實現(xiàn)業(yè)務(wù)需求

使用bootstrapValidator作為表單的驗證插件

使用bootstrap進(jìn)行頁面的布局；

使用layer作為彈窗插件；

使用jQuery cxSelect 實現(xiàn)下拉列表的多級聯(lián)動；

使用bootstrap fileinput完成多文件的上傳；

使用icheck完成對多選框的美化；

使用百度ueditor解決復(fù)雜內(nèi)容編輯場景。

自定義業(yè)務(wù)插件抽取

主要解決系統(tǒng)導(dǎo)出使用的功能代碼重復(fù)性問題。收藏功能；點贊功能；評論功能；留言功能；關(guān)注功能；頁面多處個人信息的設(shè)置；頁面多處商品頁面調(diào)起支付的功能；題庫的組卷系統(tǒng)中的試題欄。

后端技術(shù)棧

項目分層思想實現(xiàn)分布式架構(gòu)

Core層（中心、核心）：與業(yè)務(wù)無關(guān)，提供基礎(chǔ)的能力，比如：數(shù)據(jù)庫持久，redis緩存，http封裝，通用工具。統(tǒng)一的core項目，提供基礎(chǔ)的能力we-core-Db項目：mybatis的mapper的基礎(chǔ)上做了二次封裝；we-core-redis項目：基于jedis的基礎(chǔ)上做了二次封裝；we-core-web：存放一些與web環(huán)境下使用的工具類和處理器；自定義web環(huán)境；使用的aop注解；統(tǒng)一的異常處理器；自定義分頁標(biāo)簽的。 base層（根基、基礎(chǔ)）：該層中的項目有且只能代表一個真實存在而且能獨立存在的核心實體對應(yīng)的業(yè)務(wù)。 business層（業(yè)務(wù)邏輯層）：業(yè)務(wù)層，解決多端，多項目公用的業(yè)務(wù)流程。 web層：為互聯(lián)網(wǎng)用戶提供對外服務(wù)，在這層的每一個項目都有自己不被共享的業(yè)務(wù)。

抽取獨立服務(wù)實現(xiàn)服務(wù)共享

好多項目都會使用到很多相同的服務(wù)，我們會把它抽取成獨立的項目，先以jar包的方式提供公用。比如：短信服務(wù)，郵件服務(wù)，字典服務(wù)，收藏服務(wù)，關(guān)注服務(wù)，訂單服務(wù)，支付服務(wù)3. 基于jedis的基礎(chǔ)上做了二次封裝，實現(xiàn)java對redis的讀寫。應(yīng)用場景： 整個項目使用統(tǒng)一的id生成策略。使用緩存進(jìn)行存放freemark代碼片段的內(nèi)容，解決高頻查詢數(shù)據(jù)給服務(wù)器帶來的壓力。

使用maven進(jìn)行項目的管理

使用maven自定義骨架可以實現(xiàn)公司內(nèi)部創(chuàng)建項目模板化，減少大家創(chuàng)建項目時的時間，創(chuàng)建完就能使用；使用maven的聚合的特性實現(xiàn)多項目統(tǒng)一進(jìn)行構(gòu)建；使用maven繼承的特性實現(xiàn)同一項目的不同maven工程的相同配置問題；使用maven的屬性我們可以使用自定義變量以及訪問其他配置項值解決我們配置重復(fù)的問題；使用maven幫助我們規(guī)范工程資源的的存放；使用maven的依賴特性可以解決我們，jar包之間的依賴，排出依賴。；使用maven倉庫的http代理可以實現(xiàn)讓maven幫助我們查找，下載所需的jar包，我們只需要指定依賴的gav；使用maven我們把公司自己的開發(fā)的項目發(fā)布到nexus上供其他的項目使用。

使用nexus進(jìn)行內(nèi)網(wǎng)私服搭建

解決jar包重復(fù)下載的問題；解決公司內(nèi)部項目共享的問題； maven倉庫以外的jar包管理。

使用gitlab進(jìn)行項目的版本管理

解決團(tuán)隊多人協(xié)同開發(fā)項目的問題，我們團(tuán)隊制定了使用git開發(fā)的規(guī)范流程。

使用jenkins/hudson實現(xiàn)項目的自動化部署

解決項目自動化構(gòu)建，發(fā)布，回滾等問題；定時構(gòu)建及時發(fā)現(xiàn)項目中的問題；實現(xiàn)一鍵發(fā)布縮短發(fā)布的時間；自動構(gòu)建和發(fā)布的大致流程；從gitlab上拉取最新的代碼；使用maven進(jìn)行構(gòu)建項目；將構(gòu)建完成的項目使用scp復(fù)制到指定服務(wù)器中；并通過遠(yuǎn)程調(diào)用指定服務(wù)器的腳本進(jìn)行項目的發(fā)布。

使用mysql進(jìn)行數(shù)據(jù)存儲

這個不用多解釋。

使用Spring+SpringMvc+Mybitas

使用經(jīng)典的ssm作為平臺的MVC框架, 處理http請求,處理業(yè)務(wù)邏輯，訪問數(shù)據(jù)庫。

使用hibernateValidator

實現(xiàn)后端接收到的參數(shù)進(jìn)行參數(shù)的合法性驗證，像非空，最小，最大，范圍等。

使用spring mvc的攔截器

實現(xiàn)項目內(nèi)的權(quán)限控制，比如：sso權(quán)限驗證，角色的驗證，支付的驗證等。

使用spring mvc的AOP

實現(xiàn)多處相同代碼抽取出來使用AOP的方式進(jìn)行公用，比如：json視圖的固定格式返回。

使用logback

作為架構(gòu)的日志框架。

使用flying-saucer+itext+freemark

解決項目中pdf的應(yīng)用場景，比如：學(xué)生下載的準(zhǔn)考證，測試報告等。

使用JavaMail技術(shù)

實現(xiàn)郵件的發(fā)送服務(wù)。

使用TestNg+H2

實現(xiàn)進(jìn)行單元化測試，保證代碼質(zhì)量。

使用Cookie+Redis

實現(xiàn)平臺單點登錄。

實現(xiàn)SpringMvc提供

的HandlerExceptionResolver接口

使用spring提供HandlerExceptionResolver實現(xiàn)全站統(tǒng)一異常處理。包括：業(yè)務(wù)異常，登錄超時異常，其他異常。

實現(xiàn)SpringMvc提供

的ServletContextAware接口

可以實現(xiàn)項目啟動時添加一些操作。初始化freemarker的配置；初始化項目全局共享的靜態(tài)變量（域名，文件存儲目錄等）。

使用Quartz

實現(xiàn)定時任務(wù)處理。

使用網(wǎng)絡(luò)爬蟲技術(shù)Jsoup

解決爬取其他網(wǎng)站的數(shù)據(jù)信息問題。

使用Qdcode

解決生成二維碼的功能。

使用jsp的自定義標(biāo)簽

解決全站分頁的實現(xiàn)。

使用阿里的Druid

作為連接數(shù)據(jù)庫的連接池。

使用spring的Ioc容器解決對象的依賴注入

使用Ioc實現(xiàn)指定特定接口的實現(xiàn)類以應(yīng)對業(yè)務(wù)實現(xiàn)的變化；使用ioc實現(xiàn)業(yè)務(wù)中需要的配置注入，防止參數(shù)值寫死。

使用CXF或者Axis

實現(xiàn)通過WebService和第三方進(jìn)行對接。

結(jié)合自定義注解+反射

實現(xiàn)對方法訪問的控制以及添加額外業(yè)務(wù)邏輯。

比如:個人信息在多個請求Controller中都需要填充。

使用Mybatis框架

解決數(shù)據(jù)持久化的問題；引入開源的：Mybatis的Mapper接口的方式實現(xiàn)支持單表的curd，避免寫更多的重復(fù)代碼；引入pagehelper解決mybatis的分頁問題；使用Mybatis的Interceptor實現(xiàn)sql的打印功能。

使用Jsp,Freemark

作為視圖層的處理技術(shù)。

使用Freemark+字符串替換實現(xiàn)自定義vt標(biāo)簽

自定義視圖標(biāo)簽主要為了解決像字典那種字段不斷需要跨表查詢的問題。

自定義json視圖

自定義json視圖是為了實現(xiàn)規(guī)定json返回的統(tǒng)一格式。

使用El表達(dá)式和jstl標(biāo)簽庫

解決訪問model中的數(shù)據(jù)以及頁面上顯示的邏輯處理。

使用自定義注解實現(xiàn)某些功能的標(biāo)注

在處理json返回值的時候可以在標(biāo)注一下@Void就表示不需要包裹；在sso攔截權(quán)限的時候可以標(biāo)注一下方法是否需要攔截；在多個Controller里都需要設(shè)置用戶信息到頁面的時候，我們可以利用Aop+Annotation的方式實現(xiàn)。

會用一種是入門，全部會用是大神！

在線咨詢

上一篇：界面劫持之點擊劫持
下一篇：Qt編寫安防視頻監(jiān)控系統(tǒng)25-離線地圖

您的項目需求

*請認(rèn)真填寫需求信息，我們會在24小時內(nèi)與您取得聯(lián)系。

整合營銷服務(wù)商

使用JSoup實現(xiàn)簡單的爬蟲技術(shù)

.Jsoup簡述

2.快速開始

3.保存爬取的頁面數(shù)據(jù)

4.總結(jié)

您的項目需求