擊右上方,關注開源中國OSC頭條號,獲取最新技術資訊
GoldDataSpider 是用于抓取網頁和抽取數據的工具。其核心代碼是從金色數據抓取融合平臺分離而來。
該項目提供抓取和抽取來自網頁數據,不僅可以抽取網頁內的內容,還能抽取URL、HTTP報頭、Cookie里的數據。
該項目定義了一種簡潔、靈活、敏捷的結構或者說是規則語法。極盡其所能將網頁內容、HTTP報頭、Cookie、甚至關聯其它網頁、其它網站數據,抽取出有意義有價值數據字段,組成一條數據記錄。除此之外,還能內嵌http請求,以補充數據字段,比如某些字段需要向詞典提供翻譯這樣的字段等等。
該項目還可支持從各種類型文檔抽取數據,比如html/xml/json/javascript/text等。
我們還提供了規則可視化配制,請下載采集數量不受限、爬蟲數量不受限、導出數據數量不受限的完全免費金色數據平臺社區版 。以及詳盡的文檔
使用入門
首先,我們需要將依賴加入項目當中,如下:
1、對于maven項目
<dependency> <groupId>com.100shouhou.golddata</groupId> <artifactId>golddata-spider</artifactId> <version>1.1.3</version> </dependency>
2、對于gradle項目
compile group: 'com.100shouhou.golddata', name: 'golddata-spider', version: '1.1.3'
然后你將可以使用該依賴所提供的簡潔清晰的API,如下:
@Test public void testGoldSpider(){ String ruleContent= " { \n"+ " __node: li.sky.skyid \n"+ " date: \n"+ " { \n"+ " expr: h1 \n"+ " __label: 日期 \n"+ " } \n"+ " sn: \n"+ " { \n"+ " \n"+ " js: md5(baseUri+item.date+headers['Content-Type']);\n"+ " } \n"+ " weather: \n"+ " { \n"+ " expr: p.wea \n"+ " } \n"+ " temprature: \n"+ " { \n"+ " expr: p.tem>i \n"+ " } \n"+ " } \n"; GoldSpider spider= com.xst.golddata.GoldSpider.newSpider() .setUrl("http://www.weather.com.cn/weather/101020100.shtml") .setRule(ruleContent) .request(); List list=spider.extractList(); // List<Weather> weathers=spider.extractList(Weather.class); // Weather weathers=spider.extractFirst(Weather.class); list.forEach( System.out::println); }
運行上面的測試,你將可以看類似下面的輸出:
{date=19日(今天), weather=陰轉小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d} {date=20日(明天), weather=小雨轉多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd} {date=21日(后天), weather=多云轉中雨, temprature=11℃, sn=728539ac882721187741708860324afa} {date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3} {date=23日(周日), weather=小雨轉多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f} {date=24日(周一), weather=多云轉小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d} {date=25日(周二), weather=小雨轉中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}
當作Service或者API使用
你可以在項目中,可以當作調用服務和API使用。例如如下:
@Service public class WeatherServiceImpl implements WeatherService{ public List<Weather> listByCityId(Long cityId){ String url="http://www.weather.com.cn/weather/"+cityId+".shtml" String rule="<同上>" GoldSpider spider= com.xst.golddata.GoldSpider.newSpider() .setUrl(url) .setRule(ruleContent) .request(); return spider.extractList(Weather.class); } }
對于可視化配制,可以參考免費社區版文檔。以下就免費社區版做簡單介紹 ,詳情見官網!
免費社區版:
開源/免費
讓用戶更好理解和使用產品
我們針對數據采集免費,還開放和維護核心的開源代碼項目。讓用戶可以更好的使用、理解采集,用好采集。 讓用戶在各種場景應用金色數據采集帶來的便利,我們有信心讓客戶見到一個開放的數據平臺,讓用戶放心/省心/省力。
自由/靈活
透出一股強大的采集核心
我們的采集器,將向用戶暴露一切目標數據,除了常規網頁內容,還有如URL、HTTP報頭、Cookie等。還提供了各種解析工具和函數,讓用戶不僅能得到網頁內容里的數據,還能得到URL、HTTP報頭、Cookie里隱藏的核心數據,還能靈活做到智能防封。
分布式采集
私有云,更靈活,更安全,更放心
可以根據自身需求,隨意部署采集器數量,7*24小時不間斷運行,采集后端集中靈活控制。可自由指揮數據在哪個采集器采集。可定義定時采集,無需人員值守。
數據可關聯可追蹤
恢復/重建數據內在與外在價值
可以讓每條數據隨著目標網站目標內容更新(如商品價格)、而更新用戶應用表該條數據相關字段內容。
非侵入式融合
融合從未如此現實和簡單
完全可以在不改變用戶應用表結構(增刪改表列),而將采集數據融入到應用表中。
自動化/一體化
無需人力操作,即抓即用
不只是采集可以自動化抓取,融合也提供了手動化和強大自動化功能。還將采集與融合操作無縫對接,可將目標數據抓一條融合一條,實時流向應用表,做到即抓即用!
點擊下方鏈接,獲取軟件下載地址↓↓↓
GoldDataSpider首頁、文檔和下載 - 網頁數據抽取工具 - 開源中國
九月在廈門舉行的金磚國家領導人第九次會晤,備受國際社會關注。以“下一個金色十年,你將收獲哪些金磚福利?”為主題,新華網邀請中央對外聯絡部原副部長于洪君、中國國際問題研究院副院長榮鷹,解讀廈門會晤的諸多合作亮點。 ”
金磚國家在資源稟賦、產業結構等方面具有很強互補性,金磚五國的發展潛力巨大。目前,五國之間的經貿合作與交流勢頭大好,其中最主要的還是同中國的經貿合作?,F需考慮如何把金磚五國的潛力、互補性發揮出來,使五國相互之間的經貿聯系、利益捆綁更加密切,創造更多的金磚福利。
http://vod.xinhuanet.com/v/vod.html?vid=445180
“金磚+”這種新型合作框架,使金磚國家在不斷鞏固自身合作的基礎上,拓展新的合作范圍、合作區域和思路,使金磚為核心的朋友圈越做越大,并實現一種更緊密、穩固、可靠的新型合作關系,這也是中國推動全球治理,共同應對逆全球化的挑戰,推動建立更加合理的世界政治經濟秩序的一種嘗試。
電商行業發展是世界趨勢,各國都在采取各種措施,迎接這個時代的到來。俄羅斯畢竟擁有超過1.4億人口的市場,中產階級較多,富裕程度雖然趕不上西方發達國家,但與很多發展中國家相比,仍排在前面。俄羅斯人的消費能力、消費水平、消費品位都不低。從長遠看,俄羅斯的電商市場潛力很大。
http://vod.xinhuanet.com/v/vod.html?vid=446106
視網消息:8月4日深夜至5日凌晨,受大地磁暴影響,新疆多地可見極光。在阿勒泰的哈巴河縣,紅色的極光如紅絲絨般柔軟細膩,一顆顆流星劃過天際,如夢如幻。
今年5月,在一場超大地磁暴的影響下,阿勒泰曾連續兩天出現絢麗極光。此次的極光與5月相比,規模相對較小。
河南原陽:數千只鷺鳥翱翔黃河濕地
這段時間,在河南新鄉原陽縣的黃河濕地,數千只國家二級保護動物白鷺、蒼鷺在此停留。它們時而在空中盤旋飛舞,時而在水中覓食嬉戲,遠看似繁星點綴在黃河上。
夕陽時分,鷺鳥成群,黃河生態之美盡收眼底。據了解,從6月下旬開始,一直到深秋時節,數千只蒼鷺、白鷺都會在這里停留棲息。
河南洛陽:老君山現云海美景 波瀾壯闊宛如仙境
日前,位于河南洛陽欒川縣的老君山出現云海美景,峰巒之間,云海波瀾壯闊。山頂的古建筑群在云海中若隱若現,仿佛空中樓閣,在陽光的照耀下,云海又變成了金色,如夢似幻。山川云海美景吸引了眾多游客在山頂駐足欣賞。
來源: 央視網
*請認真填寫需求信息,我們會在24小時內與您取得聯系。