名解析 --> 發(fā)起 TCP 的 3 次握手 --> 建立 TCP 連接后發(fā)起 HTTP 請求 -->服務(wù)器響應(yīng) HTTP 請求,瀏覽器得到 html 代碼 -->瀏覽器解析 html 代碼,并請求 html 代碼中的資源(如 js、css、圖片等) --> 瀏覽器對頁面進行渲染呈現(xiàn)給用戶。
請求原理
HTTP 協(xié)議是應(yīng)用層的一種協(xié)議,是一種 C/S 架構(gòu)服務(wù),基于 TCP/IP 協(xié)議來通信,監(jiān)聽在TCP 的 80 端口上,HTTP 協(xié)議實現(xiàn)的是客戶端可以向服務(wù)端獲得 web 資源。
文深入探討如何運用PHP高效獲取網(wǎng)頁HTML元素信息。
運用文件讀取函數(shù),獲取網(wǎng)頁數(shù)據(jù)。
利用PHP腳本的強大功能,網(wǎng)頁數(shù)據(jù)的采集中極為便捷,各類網(wǎng)頁元素亦可轉(zhuǎn)化為字符形式線上展現(xiàn)。
2.使用正則表達式匹配目標(biāo)元素
面對諸多網(wǎng)頁需求,巧妙運用正則表達式可以精準(zhǔn)且迅速搜尋并提取所需的HTML元素。核心技術(shù)在于結(jié)合正則表達式與網(wǎng)頁數(shù)據(jù),以實現(xiàn)精確篩選及獲取這些元素的目的。
3.使用DOMDocument類解析網(wǎng)頁
借助 DOMDocument 類,PHP 為我們提供了深入分析和處理網(wǎng)頁的途徑。該類功能強大且易用,尤其以其精準(zhǔn)讀取 HTML 文檔樹及其靈活操作的表現(xiàn),在準(zhǔn)確獲取所需元素方面具有顯著優(yōu)勢。
4.使用Simple HTML DOM庫
對于正則表達式和DOMDocument類的初學(xué)者而言,可能會遭遇困難。為提升工作效率,可嘗試借助于諸如Simple HTML DOM這類第三方工具。該工具能準(zhǔn)確挖掘所需HTML元素,大幅縮減項目開發(fā)時間。
5.使用XPath查詢語言
憑借其卓越性能,XPath在應(yīng)對XML及HTML文檔元素抽取任務(wù)中表現(xiàn)非凡,為我們提供了對HTML元素的精準(zhǔn)與靈動操縱。
6.使用cURL庫發(fā)送HTTP請求
借助PHP中cURL庫的功能優(yōu)勢,我們能夠精確滿足各種網(wǎng)絡(luò)頁面內(nèi)容獲取和模擬仿真的需求,從而突出頁面關(guān)鍵信息的精度提取。
7.處理JavaScript生成的內(nèi)容
針對個性化需求,運用JavaScript也可實現(xiàn)網(wǎng)站內(nèi)容的動態(tài)生產(chǎn)。為高效達成此目的,我們能依賴于PHP所提供的兩種無頭瀏覽器工具包——Selenium以及PhantomJS。
8.處理AJAX請求返回的數(shù)據(jù)
為了實現(xiàn)在網(wǎng)頁間的數(shù)據(jù)交互和溝通,尤其是借助AJAX技術(shù)模擬網(wǎng)絡(luò)傳輸和數(shù)據(jù)獲取過程的各項操作,我們會充分利用PHP中獨有的CURL模塊和眾多第三方廠商開發(fā)的高效能庫,它們將會成為你處理海量信息的強大后盾。
9.使用API接口獲取數(shù)據(jù)
若目標(biāo)網(wǎng)站具備API訪問許可,那么僅需根據(jù)接口文檔所指定的請求參數(shù),便可自動獲取并拆分JSON或者XML格式的回饋數(shù)據(jù),進而達到信息交換的目標(biāo)。
10.注意事項和其他方法
在獲取網(wǎng)頁中的HTML元素時,需要注意以下幾點:
-確保目標(biāo)網(wǎng)頁存在且可訪問;
-遵守目標(biāo)網(wǎng)站的使用規(guī)則和法律法規(guī);
-防止對目標(biāo)網(wǎng)站造成過大的訪問壓力;
-根據(jù)具體需求選擇合適的方法和工具。
運用此策略,能精準(zhǔn)提取所需HTML組件,為構(gòu)建多樣化應(yīng)用及特性提供強大后盾。盼望本文能對您在PHP開發(fā)過程中網(wǎng)頁元素搜尋有所裨益。
今日內(nèi)容:
1. Servlet
2. HTTP協(xié)議
3. Request
一、Servlet補充內(nèi)容:
1.1 Servlet的體系結(jié)構(gòu):
Servlet -- 接口
|
GenericServlet -- 抽象類
|
HttpServlet -- 抽象類
1.2 GenericServlet:將Servlet接口中其他的方法做了默認(rèn)空實現(xiàn),只將service()方法作為抽象,將來定義Servlet類時,可以繼承GenericServlet,實現(xiàn)service()方法即可
1.3 HttpServlet:對http協(xié)議的一種封裝,簡化操作
1. 定義類繼承HttpServlet
2. 復(fù)寫doGet/doPost方法
1.2 Servlet相關(guān)配置
1.2.1 urlpartten:Servlet訪問路徑
1. 一個Servlet可以定義多個訪問路徑 : @WebServlet({"/d4","/dd4","/ddd4"})
2. 路徑定義規(guī)則:
1. /xxx:路徑匹配
2. /xxx/xxx:多層路徑,目錄結(jié)構(gòu)
3. *.do:擴展名匹配
二、HTTP:
2.1 概念:Hyper Text Transfer Protocol 超文本傳輸協(xié)議
* 傳輸協(xié)議:定義了,客戶端和服務(wù)器端通信時,發(fā)送數(shù)據(jù)的格式
* 特點:
1. 基于TCP/IP的高級協(xié)議
2. 默認(rèn)端口號:80
3. 基于請求/響應(yīng)模型的:一次請求對應(yīng)一次響應(yīng)
4. 無狀態(tài)的:每次請求之間相互獨立,不能交互數(shù)據(jù)
* 歷史版本:
* 1.0:每一次請求響應(yīng)都會建立新的連接
* 1.1:復(fù)用連接
2.2 請求消息數(shù)據(jù)格式
2.2.1 請求行:
請求方式 請求url 請求協(xié)議/版本
GET /login.html HTTP/1.1
2.2.2 請求方式:
* HTTP協(xié)議有7中請求方式,常用的有2種
* GET:
1. 請求參數(shù)在請求行中,在url后。
2. 請求的url長度有限制的
3. 不太安全
* POST:
1. 請求參數(shù)在請求體中
2. 請求的url長度沒有限制的
3. 相對安全
2.2.3 請求頭:客戶端瀏覽器告訴服務(wù)器一些信息
請求頭名稱: 請求頭值
* 常見的請求頭:
1. User-Agent:瀏覽器告訴服務(wù)器,我訪問你使用的瀏覽器版本信息
* 可以在服務(wù)器端獲取該頭的信息,解決瀏覽器的兼容性問題
2. Referer:http://localhost/login.html
* 告訴服務(wù)器,我(當(dāng)前請求)從哪里來?
* 作用:
1. 防盜鏈:
2. 統(tǒng)計工作:
2.2.4 請求空行
空行,就是用于分割POST請求的請求頭,和請求體的。
2.2.5 請求體(正文):
* 封裝POST請求消息的請求參數(shù)的
2.2.6 請求消息舉例:
POST /login.html HTTP/1.1
Host: localhost
User-Agent: Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:60.0) Gecko/20100101 Firefox/60.0
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8
Accept-Language: zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2
Accept-Encoding: gzip, deflate
Referer: http://localhost/login.html
Connection: keep-alive
Upgrade-Insecure-Requests: 1
username=zhangsan
三、Request:
3.1 request對象和response對象的原理
1. request和response對象是由服務(wù)器創(chuàng)建的。我們來使用它們
2. request對象是來獲取請求消息,response對象是來設(shè)置響應(yīng)消息
3.2 request對象繼承體系結(jié)構(gòu):
ServletRequest -- 接口
| 繼承
HttpServletRequest -- 接口
| 實現(xiàn)
org.apache.catalina.connector.RequestFacade 類(tomcat)
3.3 request功能:
3.3.1 獲取請求消息數(shù)據(jù)
1. 獲取請求行數(shù)據(jù)
* GET /day14/demo1?name=zhangsan HTTP/1.1
* 方法:
1. 獲取請求方式 :GET
* String getMethod()
2. (*)獲取虛擬目錄:/day14
* String getContextPath()
3. 獲取Servlet路徑: /demo1
* String getServletPath()
4. 獲取get方式請求參數(shù):name=zhangsan
* String getQueryString()
5. (*)獲取請求URI:/day14/demo1
* String getRequestURI(): /day14/demo1
* StringBuffer getRequestURL() :http://localhost/day14/demo1
* URL:統(tǒng)一資源定位符 : http://localhost/day14/demo1
* URI:統(tǒng)一資源標(biāo)識符 : /day14/demo1
6. 獲取協(xié)議及版本:HTTP/1.1
* String getProtocol()
7. 獲取客戶機的IP地址:
* String getRemoteAddr()
2. 獲取請求頭數(shù)據(jù)
* 方法:
* (*)String getHeader(String name):通過請求頭的名稱獲取請求頭的值
* Enumeration<String> getHeaderNames():獲取所有的請求頭名稱
3. 獲取請求體數(shù)據(jù):
* 請求體:只有POST請求方式,才有請求體,
在請求體中封裝了POST請求的請求參數(shù)
* 步驟:
1. 獲取流對象
* BufferedReader getReader():獲取字符輸入流,只能操作字符數(shù)據(jù)
* ServletInputStream getInputStream():獲取字節(jié)輸入流,可以操作所有類型數(shù)據(jù)
2. 再從流對象中拿數(shù)據(jù)
3.3.2 其他功能:獲取請求參數(shù)通用方式:不論get還是post請求方式都可以使用下列方法來獲取請求參數(shù):
1. String getParameter(String name):根據(jù)參數(shù)名稱獲取值 username=zs
2. String[] getParameterValues(String name):根據(jù)參數(shù)名稱獲取參數(shù)值的數(shù)組 hobby=xx&hobby=game
3. Enumeration<String> getParameterNames():獲取所有請求的參數(shù)名稱
4. Map<String,String[]> getParameterMap():獲取所有參數(shù)的map集合
* 中文亂碼問題:
* get方式:tomcat 8 已經(jīng)將get方式亂碼問題解決了
* post方式:會亂碼
* 解決:在獲取參數(shù)前,設(shè)置request的編碼為
request.setCharacterEncoding("utf-8");
3.3.3 請求轉(zhuǎn)發(fā):一種在服務(wù)器內(nèi)部的資源跳轉(zhuǎn)方式
1. 步驟:
1. 通過request對象獲取請求轉(zhuǎn)發(fā)器對象:
RequestDispatcher getRequestDispatcher(String path)
2. 使用RequestDispatcher對象來進行轉(zhuǎn)發(fā):
forward(ServletRequest request, ServletResponse response)
2. 特點:
1. 瀏覽器地址欄路徑不發(fā)生變化
2. 只能轉(zhuǎn)發(fā)到當(dāng)前服務(wù)器內(nèi)部資源中。
3. 轉(zhuǎn)發(fā)是一次請求
3.3.4. 共享數(shù)據(jù):
* 域?qū)ο螅阂粋€有作用范圍的對象,可以在范圍內(nèi)共享數(shù)據(jù)
* request域:代表一次請求的范圍,一般用于請求轉(zhuǎn)發(fā)的多個資源中共享數(shù)據(jù)
* 方法:
1. void setAttribute(String name,Object obj):存儲數(shù)據(jù)
2. Object getAttitude(String name):通過鍵獲取值
3. void removeAttribute(String name):通過鍵移除鍵值對
3.3.5. 獲取ServletContext:
* ServletContext getServletContext()
四、案例:用戶登錄
* 用戶登錄案例需求:
1.編寫login.html登錄頁面
username & password 兩個輸入框
2.使用Druid數(shù)據(jù)庫連接池技術(shù),操作mysql,day14數(shù)據(jù)庫中user表
3.使用JdbcTemplate技術(shù)封裝JDBC
4.登錄成功跳轉(zhuǎn)到SuccessServlet展示:登錄成功!用戶名,歡迎您
5.登錄失敗跳轉(zhuǎn)到FailServlet展示:登錄失敗,用戶名或密碼錯誤
* 分析
* 開發(fā)步驟
1. 創(chuàng)建項目,導(dǎo)入html頁面,配置文件,jar包
2. 創(chuàng)建數(shù)據(jù)庫環(huán)境
CREATE DATABASE day14;
USE day14;
CREATE TABLE USER(
id INT PRIMARY KEY AUTO_INCREMENT,
username VARCHAR(32) UNIQUE NOT NULL,
PASSWORD VARCHAR(32) NOT NULL
);
3. 創(chuàng)建包cn.itcast.domain,創(chuàng)建類User
package cn.itcast.domain;
/**
* 用戶的實體類
*/
public class User {
private int id;
private String username;
private String password;
public int getId() {
return id;
}
public void setId(int id) {
this.id=id;
}
public String getUsername() {
return username;
}
public void setUsername(String username) {
this.username=username;
}
public String getPassword() {
return password;
}
public void setPassword(String password) {
this.password=password;
}
@Override
public String toString() {
return "User{" +
"id=" + id +
", username='" + username + '\'' +
", password='" + password + '\'' +
'}';
}
}
4. 創(chuàng)建包cn.itcast.util,編寫工具類JDBCUtils
package cn.itcast.util;
import com.alibaba.druid.pool.DruidDataSourceFactory;
import javax.sql.DataSource;
import javax.xml.crypto.Data;
import java.io.IOException;
import java.io.InputStream;
import java.sql.Connection;
import java.sql.SQLException;
import java.util.Properties;
/**
* JDBC工具類 使用Durid連接池
*/
public class JDBCUtils {
private static DataSource ds ;
static {
try {
//1.加載配置文件
Properties pro=new Properties();
//使用ClassLoader加載配置文件,獲取字節(jié)輸入流
InputStream is=JDBCUtils.class.getClassLoader().getResourceAsStream("druid.properties");
pro.load(is);
//2.初始化連接池對象
ds=DruidDataSourceFactory.createDataSource(pro);
} catch (IOException e) {
e.printStackTrace();
} catch (Exception e) {
e.printStackTrace();
}
}
/**
* 獲取連接池對象
*/
public static DataSource getDataSource(){
return ds;
}
/**
* 獲取連接Connection對象
*/
public static Connection getConnection() throws SQLException {
return ds.getConnection();
}
}
5. 創(chuàng)建包cn.itcast.dao,創(chuàng)建類UserDao,提供login方法
package cn.itcast.dao;
import cn.itcast.domain.User;
import cn.itcast.util.JDBCUtils;
import org.springframework.dao.DataAccessException;
import org.springframework.jdbc.core.BeanPropertyRowMapper;
import org.springframework.jdbc.core.JdbcTemplate;
/**
* 操作數(shù)據(jù)庫中User表的類
*/
public class UserDao {
//聲明JDBCTemplate對象共用
private JdbcTemplate template=new JdbcTemplate(JDBCUtils.getDataSource());
/**
* 登錄方法
* @param loginUser 只有用戶名和密碼
* @return user包含用戶全部數(shù)據(jù),沒有查詢到,返回null
*/
public User login(User loginUser){
try {
//1.編寫sql
String sql="select * from user where username=? and password=?";
//2.調(diào)用query方法
User user=template.queryForObject(sql,
new BeanPropertyRowMapper<User>(User.class),
loginUser.getUsername(), loginUser.getPassword());
return user;
} catch (DataAccessException e) {
e.printStackTrace();//記錄日志
return null;
}
}
}
6. 編寫cn.itcast.web.servlet.LoginServlet類
package cn.itcast.web.servlet;
import cn.itcast.dao.UserDao;
import cn.itcast.domain.User;
import javax.servlet.ServletException;
import javax.servlet.annotation.WebServlet;
import javax.servlet.http.HttpServlet;
import javax.servlet.http.HttpServletRequest;
import javax.servlet.http.HttpServletResponse;
import java.io.IOException;
@WebServlet("/loginServlet")
public class LoginServlet extends HttpServlet {
@Override
protected void doGet(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
//1.設(shè)置編碼
req.setCharacterEncoding("utf-8");
//2.獲取請求參數(shù)
String username=req.getParameter("username");
String password=req.getParameter("password");
//3.封裝user對象
User loginUser=new User();
loginUser.setUsername(username);
loginUser.setPassword(password);
//4.調(diào)用UserDao的login方法
UserDao dao=new UserDao();
User user=dao.login(loginUser);
//5.判斷user
if(user==null){
//登錄失敗
req.getRequestDispatcher("/failServlet").forward(req,resp);
}else{
//登錄成功
//存儲數(shù)據(jù)
req.setAttribute("user",user);
//轉(zhuǎn)發(fā)
req.getRequestDispatcher("/successServlet").forward(req,resp);
}
}
@Override
protected void doPost(HttpServletRequest req, HttpServletResponse resp) throws ServletException, IOException {
this.doGet(req,resp);
}
}
7. 編寫FailServlet和SuccessServlet類
@WebServlet("/successServlet")
public class SuccessServlet extends HttpServlet {
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
//獲取request域中共享的user對象
User user=(User) request.getAttribute("user");
if(user !=null){
//給頁面寫一句話
//設(shè)置編碼
response.setContentType("text/html;charset=utf-8");
//輸出
response.getWriter().write("登錄成功!"+user.getUsername()+",歡迎您");
}
}
@WebServlet("/failServlet")
public class FailServlet extends HttpServlet {
protected void doPost(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
//給頁面寫一句話
//設(shè)置編碼
response.setContentType("text/html;charset=utf-8");
//輸出
response.getWriter().write("登錄失敗,用戶名或密碼錯誤");
}
protected void doGet(HttpServletRequest request, HttpServletResponse response) throws ServletException, IOException {
this.doPost(request,response);
}
}
8. login.html中form表單的action路徑的寫法
* 虛擬目錄+Servlet的資源路徑
9. BeanUtils工具類,簡化數(shù)據(jù)封裝
* 用于封裝JavaBean的
1. JavaBean:標(biāo)準(zhǔn)的Java類
1. 要求:
1. 類必須被public修飾
2. 必須提供空參的構(gòu)造器
3. 成員變量必須使用private修飾
4. 提供公共setter和getter方法
2. 功能:封裝數(shù)據(jù)
2. 概念:
成員變量:
屬性:setter和getter方法截取后的產(chǎn)物
例如:getUsername() --> Username--> username
3. 方法:
1. setProperty()
2. getProperty()
3. populate(Object obj , Map map):將map集合的鍵值對信息,封裝到對應(yīng)的JavaBean對象中
*請認(rèn)真填寫需求信息,我們會在24小時內(nèi)與您取得聯(lián)系。