下載地址為:http://www.oracle.com/technetwork/java/javase/downloads/index.html
下載地址為:https://github.com/yui/yuicompressor/releases
注:--type可以不寫,可以自動(dòng)識(shí)別
可以配合maven、ant或批處理命令來實(shí)現(xiàn):
壓縮之前的版本:
壓縮之后的版本:
們已經(jīng)學(xué)到很多反爬機(jī)制以及相應(yīng)的反反爬策略。使用那些手段,其實(shí)已經(jīng)完全可以完成絕大多數(shù)的爬蟲任務(wù)。但是,還是有極個(gè)別的情況下,會(huì)出現(xiàn)諸如 JS 加密和 JS 混淆之類的高深反爬機(jī)制。
如果不幸遇到這種反爬機(jī)制,一個(gè)明智之舉是給站長(zhǎng)點(diǎn)個(gè)贊,然后恭恭敬敬選擇放棄,去別的地方找數(shù)據(jù)。
當(dāng)然,還是那句話,我們可以選擇不爬,但是對(duì)付 JS 加密和 JS 混淆的方法卻不可以不會(huì)。
這里就以中國(guó)空氣質(zhì)量在線檢測(cè)平臺(tái)為例,介紹 JS 加密和 JS 混淆的實(shí)現(xiàn)和破解方法。
要爬取的網(wǎng)站:https://www.aqistudy.cn/html/city_detail.html
這個(gè)網(wǎng)站正在升級(jí),所以頁(yè)面無(wú)法正常顯示。這也意味著這個(gè)網(wǎng)站本身的 JS 解密是有問題的(如果沒問題就能顯示了),所以最后我們并不能完全解析出數(shù)據(jù)來。雖然如此,這個(gè)網(wǎng)站仍然是學(xué)習(xí) JS 加密和 JS 混淆的相當(dāng)不錯(cuò)的平臺(tái)。
閑話少說,開始干活!
首先瀏覽器打開網(wǎng)頁(yè),并打開調(diào)試臺(tái)的抓包工具。修改查詢條件(城市的名稱 + 時(shí)間范圍),然后點(diǎn)擊查詢按鈕,捕獲點(diǎn)擊按鈕后發(fā)起請(qǐng)求對(duì)應(yīng)的數(shù)據(jù)包。點(diǎn)擊查詢按鈕后,并沒有刷新頁(yè)面,顯然發(fā)起的是 ajax 請(qǐng)求。該請(qǐng)求就會(huì)將指定查詢條件對(duì)應(yīng)的數(shù)據(jù)加載到當(dāng)前頁(yè)面中(我們要爬取的數(shù)據(jù)就是該 ajax 請(qǐng)求請(qǐng)求到的數(shù)據(jù))。
分析捕獲到的數(shù)據(jù)包
該數(shù)據(jù)包請(qǐng)求到的是密文數(shù)據(jù),為何在前臺(tái)頁(yè)面顯示的卻是原文數(shù)據(jù)呢?
原來,在請(qǐng)求請(qǐng)求到密文數(shù)據(jù)后,前臺(tái)接受到密文數(shù)據(jù)后使用指定的解密操作(JS 函數(shù))對(duì)密文數(shù)據(jù)進(jìn)行了解密操作,然后將原文數(shù)據(jù)顯示在了前臺(tái)頁(yè)面。
接下來的工作流程:
首先先處理動(dòng)態(tài)變化的請(qǐng)求參數(shù),動(dòng)態(tài)獲取該參數(shù)的話,就可以攜帶該參數(shù)進(jìn)行請(qǐng)求發(fā)送,將請(qǐng)求到的密文數(shù)據(jù)捕獲到。
抽絲剝繭,首先從 getData 函數(shù)實(shí)現(xiàn)中找尋 ajax 請(qǐng)求對(duì)應(yīng)的代碼。在該函數(shù)的實(shí)現(xiàn)中沒有找到 ajax 代碼,但是發(fā)現(xiàn)了另外兩個(gè)函數(shù)的調(diào)用,getAQIData() 和 getWeatherData()。ajax 代碼一定是存在于這兩個(gè)函數(shù)實(shí)現(xiàn)內(nèi)部。
另外,這里記住一個(gè)參數(shù),type == ’HOUR‘,它的含義是查詢時(shí)間是以小時(shí)為單位。這個(gè)參數(shù)我們后來會(huì)用到。
接下來我們就去分析 getAQIData() 和 getWeatherData(),爭(zhēng)取能夠找到 ajax 代碼。
我們找到這兩個(gè)函數(shù)的定義位置,還是沒有找到 ajax 請(qǐng)求代碼。不過我們卻發(fā)現(xiàn)它們同時(shí)調(diào)用了另外一個(gè)函數(shù),getServerData(method,param,func,0.5)。它的參數(shù)的值可以為:
下一步當(dāng)然就要找 getServerData 函數(shù)了,看看那個(gè)函數(shù)里面有沒有我們一致想要的發(fā)送 ajax 請(qǐng)求的代碼。
我們嘗試著在頁(yè)面中搜索,卻找不到這個(gè)函數(shù)。很顯然,它是被封裝到其他 js 文件中了。這時(shí),我們可以基于抓包工具做全局搜索。
好消息是,我們順利找到了 getServerData 函數(shù)!壞消息是,這貨長(zhǎng)得一點(diǎn)也不像是函數(shù)。
這是因?yàn)椋@段 JS 函數(shù)代碼被加密的。這種加密的方式,我們稱為 JS 混淆。
JS 混淆,也就是對(duì)核心的 JS 代碼進(jìn)行加密。
JS 反混淆,則是對(duì) JS 加密代碼進(jìn)行解密。
接下來我們要做的,就是 JS 反混淆,讓這段我們看不懂的東西,顯現(xiàn)出廬山真面目。
我們用的方法十分簡(jiǎn)單粗暴,也就是暴力破解。使用這個(gè)網(wǎng)站就可以實(shí)現(xiàn)對(duì) JS 混淆的暴力破解:https://www.bm8.com.cn/jsConfusion/
將 getServerData 函數(shù)所在的那一整行代碼都復(fù)制過來,粘貼到這個(gè)網(wǎng)址的文本輸入框中,然后點(diǎn)擊 開始格式化 即可:
終于,我們看到了 getServerData 的代碼,并且在其中發(fā)現(xiàn)了發(fā)送 ajax 的請(qǐng)求:
function getServerData(method, object, callback, period) {
const key = hex_md5(method + JSON.stringify(object));
const data = getDataFromLocalStorage(key, period);
if (!data) {
var param = getParam(method, object);
$.ajax({
url: '../apinew/aqistudyapi.php',
data: {
d: param
},
type: "post",
success: function (data) {
data = decodeData(data);
obj = JSON.parse(data);
if (obj.success) {
if (period > 0) {
obj.result.time = new Date().getTime();
localStorageUtil.save(key, obj.result)
}
callback(obj.result)
} else {
console.log(obj.errcode, obj.errmsg)
}
}
})
} else {
callback(data)
}
}
從這段代碼中,我們不難得出下面這幾個(gè)信息:
但是我們并不打算這么做。因?yàn)樵倮^續(xù)深挖下去,難度將會(huì)陡然增加。此時(shí)我們已經(jīng)很疲憊了,如果繼續(xù)下去恐怕要瘋掉。而且,JavaScript 和 Python 畢竟是兩種語(yǔ)言,它們之間的方法和各種包都不相同。JavaScript 能實(shí)現(xiàn)的,Python 未必能夠輕松完成。所以重新寫一個(gè)加密和解密的腳本,并不是明智之舉。
更好的解決方案是,我們提供請(qǐng)求的明文數(shù)據(jù),通過網(wǎng)站自己的 JS 代碼進(jìn)行加密,得到加密的請(qǐng)求參數(shù)。使用這個(gè)參數(shù),我們發(fā)送請(qǐng)求給服務(wù)端。拿到加密的響應(yīng)數(shù)據(jù)后,再通過網(wǎng)站的 JS 代碼進(jìn)行解密。
也就是說,我們接下來需要做的就是要調(diào)用兩個(gè) JS 函數(shù) decodeData 和 getParam,并拿到返回結(jié)果即可。
現(xiàn)在的問題是,在 Python 程序中如何調(diào)用 JS 函數(shù)呢?
這就涉及到一個(gè)新的概念:JS 逆向。JS 逆向,也就是在 Python 中調(diào)用 JS 函數(shù)代碼。
能夠?qū)崿F(xiàn) JS 逆向的方式有兩種:
pip install PyExecJS
接下來,我們就可以生成加密的請(qǐng)求數(shù)據(jù)了。
首先,把我們解析出來的那串代碼保存到本地,比如名為 code.js 的文件中。在里面我們補(bǔ)充一個(gè)函數(shù),比如名字叫 getPostParamCode,用來發(fā)起我們的數(shù)據(jù)請(qǐng)求。之所以這樣做是因?yàn)槭褂?PyExecJS 調(diào)用 JS 函數(shù)時(shí),傳入的參數(shù)只能是字符串。而 getParam 方法的參數(shù)需要用到 JS 的自定義對(duì)象。
我們只需在 code.js 中加上下面的代碼即可:
function getPostParamCode(method, type, city, start_time, end_time) {
var param = {};
param.type = type;
param.city = city;
param.start_time = start_time;
param.end_time = end_time;
return getParam(method, param)
}
然后,使用 PyExecJS 調(diào)用里面的 getParam 方法,將我們的請(qǐng)求數(shù)據(jù)加密:
# 模擬執(zhí)行decodeData的js函數(shù)對(duì)加密響應(yīng)數(shù)據(jù)進(jìn)行解密
import execjs
import requests
node = execjs.get()
# 請(qǐng)求參數(shù)
method = 'GETCITYWEATHER'
type = 'HOUR'
city = '北京'
start_time = '2020-03-20 00:00:00'
end_time = '2020-03-25 00:00:00'
# 編譯js代碼
file = 'code.js' # js代碼的路徑
ctx = node.compile(open(file, encoding='utf-8').read())
# 將請(qǐng)求數(shù)據(jù)加密
encode_js = f'getPostParamCode("{method}", "{type}", "{city}", "{start_time}", "{end_time}")'
params = ctx.eval(encode_js)
# 使用加密的參數(shù),發(fā)起post請(qǐng)求
url = 'https://www.aqistudy.cn/apinew/aqistudyapi.php'
response_text = requests.post(url, data={'d': params}).text
# 將響應(yīng)數(shù)據(jù)解密
decode_js = f'decodeData("{response_text}")'
decrypted_data = ctx.eval(decode_js) # 如果順利,返回的將是解密后的原文數(shù)據(jù)
print(decrypted_data) # 執(zhí)行會(huì)報(bào)錯(cuò):目前頁(yè)面中沒有數(shù)據(jù)。解密函數(shù)只是針對(duì)頁(yè)面中原始的數(shù)據(jù)進(jìn)行解密。
自此,我們完成了 JS 加密和 JS 混淆的處理。這里我們總結(jié)一下這幾個(gè)概念:
附,ajax 請(qǐng)求的各個(gè)數(shù)據(jù)的含義:
最近的一個(gè)漏洞賞金項(xiàng)目中,白帽小哥發(fā)現(xiàn)該網(wǎng)站在給每一個(gè)請(qǐng)求時(shí)(包括GET參數(shù)值)簽名,從而阻止URL修改,他希望找出他們是如何實(shí)現(xiàn)這一點(diǎn),并嘗試找到繞過的方法。
白帽小哥在修改URL和GET參數(shù)值時(shí),收到了一些常見的錯(cuò)誤消息,隨后他意識(shí)到,只有在修改GET參數(shù)并非POST參數(shù)時(shí),才會(huì)出現(xiàn)這些錯(cuò)誤。服務(wù)器會(huì)發(fā)送兩個(gè)頭到服務(wù)器并驗(yàn)證它們是否匹配。
在不更新這些頭部的情況下,試圖修改URL會(huì)導(dǎo)致以下錯(cuò)誤:
{"error":{"code":401,"message":"Please refresh the page"}}
從請(qǐng)求中,雖然看不到服務(wù)器發(fā)送的這些頭部值,但是可以知道客戶端必須生成它們,因此它們可能存在于JavaScript中,我們首先要做的是打開瀏覽器開發(fā)者工具并搜索這些頭部值。
在Firefox下,使用Ctrl+Shift+F進(jìn)行搜索,可以搜索在加載DOM中的每個(gè)JavaScript資源,Sign和Time這些詞相當(dāng)通用,所以結(jié)果很多,但是不幸的是,經(jīng)過所有的結(jié)果搜索,并沒能找到它,說明這些值可能是被混淆了。
在查看了所有的JavaScript庫(kù)后,白帽小哥終于發(fā)現(xiàn)了一個(gè)混淆程度很高的文件:
https://[cdn]/[path]/33415.js?rev=5d210e7-2023-11-29
網(wǎng)上有很多JavaScript反混淆工具和庫(kù),每個(gè)工具都有自己的特點(diǎn),并且根據(jù)代碼的混淆方式有不同的結(jié)果。
但是即使通過反混淆工具運(yùn)行代碼,最后仍然被高度混淆,也許有一種特定的工具可以得到更清晰的輸出,于是白帽小哥決定嘗試自己解決。如果你陷入工具無(wú)法提供幫助的情況,那么學(xué)習(xí)如何做到這一點(diǎn)就非常重要了!
當(dāng)嘗試?yán)斫饣煜a時(shí),白帽小哥發(fā)現(xiàn)一種最好的方法是首先盡可能理解偽代碼,并開始設(shè)置斷點(diǎn):
那么如何在瀏覽器中設(shè)置一個(gè)斷點(diǎn),YouTube上有一些詳細(xì)解釋這些的優(yōu)質(zhì)視頻,但簡(jiǎn)單來說就是:
對(duì)于工程師來說,這有助于幫助他們看到代碼實(shí)時(shí)發(fā)生時(shí)的問題,但對(duì)于黑客來說,這有助于進(jìn)行逆向工程以更好地理解它的工作方式。
在美化了混淆JavaScript代碼后并放置一些斷點(diǎn),就可以觸發(fā)請(qǐng)求了,最終發(fā)現(xiàn)下面這些代碼變量與請(qǐng)求的簽名有關(guān):
當(dāng)斷點(diǎn)在代碼執(zhí)行處觸發(fā)時(shí),開發(fā)者工具將顯示在斷點(diǎn)處的DOM中存儲(chǔ)的變量值,所以現(xiàn)在就可以通過斷點(diǎn)找出這部分代碼的運(yùn)行機(jī)制:
t = n[o( - 570, 'nY58')](u(), W, n[o( - 555, 'U[zo')], '');
function o(W, n) {
return d(W - - 774, n)
}
const c = n[o( - 467, 'lMAW')](u(), window, n[o( - 557, 'EJC^')], null),
i = {};
i[o( - 444, 'BF4)')] = + new Date;
const f = n[o( - 493, 'jUU[')](u(), e.default, n[o( - 565, '2tt4')], null),
k = n[o( - 579, 'FRHE')](
r(),
[
n[o( - 501, 'We4x')],
i[o( - 444, 'BF4)')],
t,
f ||
0
][o( - 519, 'r83A')]('\n')
);
結(jié)合以上代碼,我們可以在第一行(變量k)處設(shè)置一個(gè)斷點(diǎn),當(dāng)瀏覽器在該行暫停時(shí),我們可以復(fù)制值并將它們發(fā)送到控制臺(tái):
可以看到 w 變量是一個(gè)包含請(qǐng)求信息的對(duì)象,然后使用它將當(dāng)前 URL 路徑分配給 const t。
接下來,我們可以看到const c正在存儲(chǔ)我們的請(qǐng)求的User-Agent:
可以看到變量 i 是一個(gè)存儲(chǔ)“time”的對(duì)象,這是一個(gè) Unix 時(shí)間戳,可能用于請(qǐng)求中的時(shí)間頭。
我們可以看到變量 f 存儲(chǔ)的是值 379578839:
變量k是一個(gè)哈希值,但我們不知道它是如何生成的,生成哈希值的代碼:
k = n[o( - 579, 'FRHE')](
r(),
[
n[o( - 501, 'We4x')],
i[o( - 444, 'BF4)')],
t,
f ||
0
][o( - 519, 'r83A')]('\n')
);
在 k 上設(shè)置斷點(diǎn),然后我們可以使用“Step In”(Firefox 中的 F11),這將引導(dǎo)我們一步一步地執(zhí)行代碼,這有助于我們理解混淆代碼在做什么,但最終我們會(huì)看到它們?cè)诠J裁矗瑔尾綀?zhí)行大約 25 次后,我們最終在下圖中看到它正在調(diào)用一個(gè)名為 createOutputMethod 的函數(shù),其中包含一些我們懷疑的字符串。
n 的值是:
"NQ4UQIjeSeFbaORiNgZEt0AVXvwYYGQP\n1703012009162\n/api2/v2/users/notifications/count\n379578839"
變量 W 是另一個(gè)庫(kù)中名為“createOutputMethod”的函數(shù):
https://[cdn]/[路徑]/chunk-vendors-b49fab05.js
通過該 JavaScript 文件,我們可以看到該函數(shù)是名為 js-sha1 外部庫(kù)的一部分:
/*
* [js-sha1]{@link https://github.com/emn178/js-sha1}
*
* @version 0.6.0
* @author Chen, Yi-Cyuan [emn178@gmail.com]
* @copyright Chen, Yi-Cyuan 2014-2017
* @license MIT
*/
現(xiàn)在我們知道哈希值如下:
我們可以根據(jù)請(qǐng)求來檢查這些值,以便更好地了解它們可能是什么:
我們可以看到哈希末尾的數(shù)字(379578839)是請(qǐng)求的User_Id。根據(jù)現(xiàn)在掌握的信息,我們可以將混淆的代碼重寫為更容易理解的代碼:
const c = W["url"];
// const d = window.navigator.userAgent;
const d = userAgent;
f["time"] = +new Date;
const i = W["headers"]["user-id"];
const k = sha1(
[
n["frWIg"], // pE5CRmAhC8fvaWy6u58tKDTEKCZyTKLA
f["time"], // time
c, // url
i || // user-id
0
]["join"]('\n')
);
現(xiàn)在我們對(duì)代碼的工作原理有了一些了解,但是 Sign 標(biāo)頭中仍然有我們尚未確定的其它值,在類的末尾,有一個(gè)帶有嵌套函數(shù)調(diào)用的巨大返回,為了簡(jiǎn)單起見,白帽小哥刪除了嵌套函數(shù)。
return i[o( - 442, 'WQdV')] = [
o( - 560, 'r83A'),
k,
function (W) {
function t(W, n) {
return o(W - 583, n)
}
return Math[t(89, 'BF4)')](
…
}(k),
n[o( - 483, 'Trv&')]
][o( - 458, '$LL1')](':'),
i
}
}
}
我們可以在其中一個(gè)函數(shù)中看到它傳入“:”,假設(shè) Sign 標(biāo)頭的值由 : 分隔,可以假設(shè)這是連接值,我們可以使用斷點(diǎn)和控制臺(tái)技巧來檢查它:
檢查加入的值:
請(qǐng)記住,Sign 標(biāo)頭值如下所示:
大量的函數(shù)調(diào)用很可能是數(shù)學(xué)運(yùn)算,操縱哈希值得出最終的數(shù)字(例如 770)。
此時(shí)我們有幾個(gè)問題需要考慮:
我們的一種選擇是使用瀏覽器擴(kuò)展,例如資源覆蓋(Firefox、Chrome)或?yàn)g覽器內(nèi)置腳本覆蓋,可以通過右鍵單擊Debugger中的Sources來訪問它們。
但這并不高效,如果想在 Burp Suite 中操作請(qǐng)求,那么我們需要重寫 Python 或 Java 代碼,繼續(xù)逆向混淆代碼并用另一種語(yǔ)言重寫它需要花費(fèi)更多的精力,更快的選擇是復(fù)制代碼,進(jìn)行我們想要的修改,然后將其設(shè)置為 NodeJS 服務(wù)器,并在 Burp 中作為插件來請(qǐng)求該服務(wù)。
以下是概念圖:
既然已經(jīng)驗(yàn)證了可以操作 URL 并生成正確的哈希值,那么就需要找到一種方法自動(dòng)將此數(shù)據(jù)傳遞給 BurpSuite,如果你之前從未寫過Burp插件,并且對(duì)插件的API也不熟悉,沒關(guān)系,因?yàn)楝F(xiàn)在我們有了 ChatGPT 來輕松實(shí)現(xiàn)。
可以看到ChatGPT生成了相當(dāng)準(zhǔn)確的代碼,大約有 60% 的功能,當(dāng)然由于對(duì) Burp插件進(jìn)行的 API 更改,我們還需要進(jìn)行一些小的調(diào)整。
最終的插件代碼可以查看:https://gist.github.com/ziot/3d5002bcb239591290f22003c6c029de
要使用該插件,必須確保安裝了 Jython.jar 和用于安裝的 Python 模塊的模塊文件夾:
成功加載擴(kuò)展插件后,就可以開始在 Burp Suite 中操作請(qǐng)求了:
現(xiàn)在就可以修改 GET請(qǐng)求中的“l(fā)imit”參數(shù)值,并且不會(huì)再收到 401 錯(cuò)誤響應(yīng)了。你學(xué)會(huì)了么?
*請(qǐng)認(rèn)真填寫需求信息,我們會(huì)在24小時(shí)內(nèi)與您取得聯(lián)系。