整合營銷服務商

          電腦端+手機端+微信端=數據同步管理

          免費咨詢熱線:

          軟件推薦丨GoldDataSpider - 網頁數據抽取工具

          擊右上方,關注開源中國OSC頭條號,獲取最新技術資訊

          GoldDataSpider 是用于抓取網頁和抽取數據的工具。其核心代碼是從金色數據抓取融合平臺分離而來。

          該項目提供抓取和抽取來自網頁數據,不僅可以抽取網頁內的內容,還能抽取URL、HTTP報頭、Cookie里的數據。

          該項目定義了一種簡潔、靈活、敏捷的結構或者說是規則語法。極盡其所能將網頁內容、HTTP報頭、Cookie、甚至關聯其它網頁、其它網站數據,抽取出有意義有價值數據字段,組成一條數據記錄。除此之外,還能內嵌http請求,以補充數據字段,比如某些字段需要向詞典提供翻譯這樣的字段等等。

          該項目還可支持從各種類型文檔抽取數據,比如html/xml/json/javascript/text等。

          我們還提供了規則可視化配制,請下載采集數量不受限、爬蟲數量不受限、導出數據數量不受限的完全免費金色數據平臺社區版 。以及詳盡的文檔

          使用入門

          首先,我們需要將依賴加入項目當中,如下:

          1、對于maven項目

          <dependency>
           <groupId>com.100shouhou.golddata</groupId>
           <artifactId>golddata-spider</artifactId>
           <version>1.1.3</version>
          </dependency>
          

          2、對于gradle項目

           compile group: 'com.100shouhou.golddata', name: 'golddata-spider', version: '1.1.3'
          

          然后你將可以使用該依賴所提供的簡潔清晰的API,如下:

          @Test
          public void testGoldSpider(){
           String ruleContent=
           " { \n"+
           " __node: li.sky.skyid \n"+
           " date: \n"+
           " { \n"+
           " expr: h1 \n"+
           " __label: 日期 \n"+
           " } \n"+
           " sn: \n"+
           " { \n"+
           " \n"+
           " js: md5(baseUri+item.date+headers['Content-Type']);\n"+
           " } \n"+
           " weather: \n"+
           " { \n"+
           " expr: p.wea \n"+
           " } \n"+
           " temprature: \n"+
           " { \n"+
           " expr: p.tem>i \n"+
           " } \n"+
           " } \n";
           GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()
           .setUrl("http://www.weather.com.cn/weather/101020100.shtml")
           .setRule(ruleContent)
           .request();
           List list=spider.extractList();
           // List<Weather> weathers=spider.extractList(Weather.class);
           // Weather weathers=spider.extractFirst(Weather.class);
           list.forEach( System.out::println);
          }
          

          運行上面的測試,你將可以看類似下面的輸出:

          {date=19日(今天), weather=陰轉小雨, temprature=10℃, sn=8bc265cb2bf23b6764b75144b255d81d}
          {date=20日(明天), weather=小雨轉多云, temprature=11℃, sn=9efd7e7bbbfb9bb06e04c0c990568bfd}
          {date=21日(后天), weather=多云轉中雨, temprature=11℃, sn=728539ac882721187741708860324afa}
          {date=22日(周六), weather=小雨, temprature=9℃, sn=a23fa2233e750a3bdd11b2e200ed06c3}
          {date=23日(周日), weather=小雨轉多云, temprature=8℃, sn=b27e1b8a8e92a7bed384ceb3e4fdfb5f}
          {date=24日(周一), weather=多云轉小雨, temprature=8℃, sn=c142b7fd12330ca031dd96b307c0d50d}
          {date=25日(周二), weather=小雨轉中雨, temprature=6℃, sn=16f71d3c8f09394588532a3ed1a8bacf}
          

          當作Service或者API使用

          你可以在項目中,可以當作調用服務和API使用。例如如下:

          @Service
          public class WeatherServiceImpl implements WeatherService{
          	public List<Weather> listByCityId(Long cityId){
          		String url="http://www.weather.com.cn/weather/"+cityId+".shtml"
          	 String rule="<同上>"
          		GoldSpider spider= com.xst.golddata.GoldSpider.newSpider()
          						.setUrl(url)
          						.setRule(ruleContent)
          						.request();
           
           return spider.extractList(Weather.class); 
          	}
          }
          

          對于可視化配制,可以參考免費社區版文檔。以下就免費社區版做簡單介紹 ,詳情見官網!

          免費社區版:

          開源/免費

          讓用戶更好理解和使用產品

          我們針對數據采集免費,還開放和維護核心的開源代碼項目。讓用戶可以更好的使用、理解采集,用好采集。 讓用戶在各種場景應用金色數據采集帶來的便利,我們有信心讓客戶見到一個開放的數據平臺,讓用戶放心/省心/省力。

          自由/靈活

          透出一股強大的采集核心

          我們的采集器,將向用戶暴露一切目標數據,除了常規網頁內容,還有如URL、HTTP報頭、Cookie等。還提供了各種解析工具和函數,讓用戶不僅能得到網頁內容里的數據,還能得到URL、HTTP報頭、Cookie里隱藏的核心數據,還能靈活做到智能防封。

          分布式采集

          私有云,更靈活,更安全,更放心

          可以根據自身需求,隨意部署采集器數量,7*24小時不間斷運行,采集后端集中靈活控制。可自由指揮數據在哪個采集器采集。可定義定時采集,無需人員值守。

          數據可關聯可追蹤

          恢復/重建數據內在與外在價值

          可以讓每條數據隨著目標網站目標內容更新(如商品價格)、而更新用戶應用表該條數據相關字段內容。

          非侵入式融合

          融合從未如此現實和簡單

          完全可以在不改變用戶應用表結構(增刪改表列),而將采集數據融入到應用表中。

          自動化/一體化

          無需人力操作,即抓即用

          不只是采集可以自動化抓取,融合也提供了手動化和強大自動化功能。還將采集與融合操作無縫對接,可將目標數據抓一條融合一條,實時流向應用表,做到即抓即用!

          點擊下方鏈接,獲取軟件下載地址↓↓↓

          GoldDataSpider首頁、文檔和下載 - 網頁數據抽取工具 - 開源中國

          九月在廈門舉行的金磚國家領導人第九次會晤,備受國際社會關注。以“下一個金色十年,你將收獲哪些金磚福利?”為主題,新華網邀請中央對外聯絡部原副部長于洪君、中國國際問題研究院副院長榮鷹,解讀廈門會晤的諸多合作亮點。 ”

          金磚國家在資源稟賦、產業結構等方面具有很強互補性,金磚五國的發展潛力巨大。目前,五國之間的經貿合作與交流勢頭大好,其中最主要的還是同中國的經貿合作?,F需考慮如何把金磚五國的潛力、互補性發揮出來,使五國相互之間的經貿聯系、利益捆綁更加密切,創造更多的金磚福利。

          http://vod.xinhuanet.com/v/vod.html?vid=445180

          “金磚+”這種新型合作框架,使金磚國家在不斷鞏固自身合作的基礎上,拓展新的合作范圍、合作區域和思路,使金磚為核心的朋友圈越做越大,并實現一種更緊密、穩固、可靠的新型合作關系,這也是中國推動全球治理,共同應對逆全球化的挑戰,推動建立更加合理的世界政治經濟秩序的一種嘗試。

          電商行業發展是世界趨勢,各國都在采取各種措施,迎接這個時代的到來。俄羅斯畢竟擁有超過1.4億人口的市場,中產階級較多,富裕程度雖然趕不上西方發達國家,但與很多發展中國家相比,仍排在前面。俄羅斯人的消費能力、消費水平、消費品位都不低。從長遠看,俄羅斯的電商市場潛力很大。

          http://vod.xinhuanet.com/v/vod.html?vid=446106

          視網消息:8月4日深夜至5日凌晨,受大地磁暴影響,新疆多地可見極光。在阿勒泰的哈巴河縣,紅色的極光如紅絲絨般柔軟細膩,一顆顆流星劃過天際,如夢如幻。

          今年5月,在一場超大地磁暴的影響下,阿勒泰曾連續兩天出現絢麗極光。此次的極光與5月相比,規模相對較小。

          河南原陽:數千只鷺鳥翱翔黃河濕地

          這段時間,在河南新鄉原陽縣的黃河濕地,數千只國家二級保護動物白鷺、蒼鷺在此停留。它們時而在空中盤旋飛舞,時而在水中覓食嬉戲,遠看似繁星點綴在黃河上。

          夕陽時分,鷺鳥成群,黃河生態之美盡收眼底。據了解,從6月下旬開始,一直到深秋時節,數千只蒼鷺、白鷺都會在這里停留棲息。

          河南洛陽:老君山現云海美景 波瀾壯闊宛如仙境

          日前,位于河南洛陽欒川縣的老君山出現云海美景,峰巒之間,云海波瀾壯闊。山頂的古建筑群在云海中若隱若現,仿佛空中樓閣,在陽光的照耀下,云海又變成了金色,如夢似幻。山川云海美景吸引了眾多游客在山頂駐足欣賞。

          來源: 央視網


          主站蜘蛛池模板: 国产精品一区不卡| 免费看AV毛片一区二区三区| 无码午夜人妻一区二区不卡视频| 亚洲国产精品一区二区久| 国产一区二区高清在线播放| 日韩精品中文字幕无码一区| 日韩精品一区二区三区毛片| 国产精品一区二区久久不卡| 一区二区亚洲精品精华液| 久久精品国产一区二区三| 波多野结衣精品一区二区三区| 久久亚洲中文字幕精品一区| 亚洲国产精品一区二区三区久久 | 亚洲一区二区三区电影| 无码毛片视频一区二区本码| 无码av中文一区二区三区桃花岛| 无码国产亚洲日韩国精品视频一区二区三区 | 99精品高清视频一区二区| 亚洲国产精品一区二区第一页| 亚洲美女视频一区二区三区| 三级韩国一区久久二区综合| 无码人妻一区二区三区在线| 天堂一区人妻无码| 亚洲国产精品一区二区久久hs| 亚洲AV成人精品一区二区三区 | 国产午夜精品一区二区三区漫画| 亚洲日本乱码一区二区在线二产线| 国产一区二区三区免费在线观看| 亚洲色婷婷一区二区三区| 无码av中文一区二区三区桃花岛 | 国产伦精品一区二区三区不卡| 本免费AV无码专区一区| 精品国产精品久久一区免费式 | 久久福利一区二区| 一区二区免费电影| 视频一区在线播放| 国产成人一区二区动漫精品| 亚洲高清一区二区三区电影 | 国产传媒一区二区三区呀| 亚洲乱码av中文一区二区| 亚洲午夜一区二区电影院|