八爪魚采集器是一款業界領先的新一代、智能、通用網頁數據采集器,全可視化操作,無需編寫代碼,內置海量模板,支持任意網絡數據抓取,無需專業知識,會上網就能輕松掌握,新聞、論壇、電話郵箱、競爭對手、客戶資料、汽車房產、電子商務等任何網站均可采集,并且可以將采集到的數據導出為多種格式,讓用戶在網上抓取資料編的更加簡單和容易!
八爪魚采集器特色
1、任何人都可以使用
還在研究網頁源代碼和抓包工具嗎?現在不用了,會上網就能使用八爪魚采集器采集,所見即所得的界面,可視化流程,無需懂技術,點點鼠標,2分鐘即可快速入門。
2、任何網站都可以采集
八爪魚采集器不僅使用簡單,而且功能強大:點擊,登陸,翻頁,甚至識別驗證碼,當網頁出錯誤,或者多套模版完全不一樣的時候,還可以根據不同情況做不同的處理。
3、云采集,關機也可以
配置好采集任務,就可以關機了,任務可以在云端執行,數量龐大的企業云,24*7不間斷運行,再也不用擔心IP被封,網絡中斷了,還能瞬間采集大量數據。
八爪魚采集器功能
1、簡易采集
簡易采集模式內置上百種主流網站數據源,如京東、天貓、大眾點評等熱門采集網站,只需參照模板簡單設置參數,就可以快速獲取網站公開數據。
2、智能采集
八爪魚采集可根據不同網站,提供多種網頁采集策略與配套資源,可自定義配置,組合運用,自動化處理。從而幫助整個采集過程實現數據的完整性與穩定性。
3、云采集
由5000多臺云服務器支撐的云采集,7*24小時不間斷運行,可實現定時采集,無需人員值守,靈活契合業務場景,幫你提升采集效率,保障數據時效性。
4、API接口
通過八爪魚API,可以輕松獲取八爪魚任務信息和采集到的數據,靈活調度任務,比如遠程控制任務啟動與停止,高效實現數據采集與歸檔。基于強大的API體系,還可以無縫對接公司內部各類管理平臺,實現各類業務自動化。
5、自定義采集
針對不同用戶的采集需求,八爪魚可提供自動生成爬蟲的自定義模式,可準確批量識別各種網頁元素,還有翻頁、下拉、ajax、頁面滾動、條件判斷等多種功能,支持不同網頁結構的復雜網站采集,滿足多種采集應用場景。
6、便捷定時功能
簡單幾步點擊設置,即可實現采集任務的定時控制,不論是單次采集的定時設置,還是預設某一天或是每周每月的定時采集,都可以同時對多個任務自由進行設置,根據需要對選擇時間進行多重組合,靈活調配自己的采集任務。
7、全自動數據格式化
八爪魚內置了強大的數據格式化引擎,支持字符串替換、正則表達式替換或匹配、去除空格、添加前綴或后綴、日期時間格式化、HTML轉碼等多項功能,采集過程中全自動處理,無需人工干預,即可得到所需格式數據。
8、多層級采集
很多主流新聞、電商類的網站,里面包含一級商品列表頁,也包含二級商品詳情頁,還有三級評論詳情頁面;不論網站有多少層級,八爪魚都可以不限制層級的采集數據,滿足各類業務采集需求。
9、支持網站登錄后采集
八爪魚內置了采集登錄模塊,只需配置目標網站的賬號密碼,即可用該模塊采集到登錄后的數據;同時八爪魚還具備采集Cookie自定義功能,首次登錄以后,可以自動記住cookie,免去多次輸入密碼的繁瑣,支持更多網站的采集。
使用教程
先我們新建一個任務-->進入流程設計頁面-->添加一個循環步驟到流程中-->選中循環步驟-->勾選上軟件右方的URL 列表勾選框-->打開URL列表文本框-->將準備好的URL列表填寫到文本框中
接下來往循環中拖入一個打開網頁的步驟-->選中打開網頁步驟-->勾選上使用當前循環里的URL作為導航地址-->點擊保存。系統會在界面下方的瀏覽器中打開循環中選中的URL對應的網頁
到這里,循環打開網頁的流程就配置完成了,運行流程的時候,系統會逐個的打開循環中設置的URL。最后我們不需要配置一個采集數據的步驟,這里就不在多講,大家可以參考從入門到精通系列1:采集單個網頁 這篇文章。下圖就是最終和流程
下面是流程最終的運行結果
更新日志
1、新增邊采集邊下載文件(暫支持本地采集)
操作提示系統新增文件URL識別和下載提取設置
數據預覽的字段選項新增“下載文件”選項,自動生成下載文件“保存位置”字段
任務設置面板新增文件下載路徑、啟動項設置
本地采集面板新增下載信息模塊
2、新增賬戶中心系統
新增個人頭像
新增微信、手機、郵箱信息綁定修改
新增余額系統,支持模板、驗證碼、IP代理直接用余額扣費
新增自助在線上傳支付憑證(線下支付方式)
3、新增版本套餐頁面
支持客戶端內升級或購買賬號版本套餐
4、本地采集日志系統
新增錯誤日志上下文信息
5、優化修復已知的性能bug問題