開發爬蟲大家都用什麼爬蟲框架

1樓：網友

我最近想要實現爬蟲功能，本來用nodejs爬指定的少量**，用request加cheerio就足夠了，要爬幾百個**的話，解析dom的規則也不盡相同，nodejs的最好（不過估計不太可能有），python也可以。

python爬蟲框架哪個好用？

2樓：箬淺箬漾

scrapy框架是一套比較成熟的python爬蟲框架，是使用python開發的快速、高層次的資訊爬取框架，可以高效的爬取web頁面並提取出結構化資料。

scrapy應用範圍很廣，爬蟲開發、資料探勘、資料監測、自動化測試等。

3樓：老男孩教育

python爬蟲常用框架有：

grab：網路爬蟲框架；

scrapy：網路爬蟲框架，不支援python3;

pyspider：乙個強大的爬蟲系統；

cola：乙個分散式爬蟲框架；

portia：基於scrapy的視覺化爬蟲；

restkit：python的http資源工具包。它可以讓你輕鬆地訪問http資源，並圍繞它建立的物件。

demiurge：基於pyquery的爬蟲微框架。

4樓：網友

用訊**爬蟲，我自己的事可以無限切換ip

用python寫爬蟲，用什麼方式，框架比較好

5樓：育知同創教育

beautiful soup。名氣大，整合了一些常用爬蟲需求。缺點：不能載入js。

scrapy。看起來很強大的爬蟲框架，可以滿足簡單的頁面爬取（比如可以明確獲知url pattern的情況）。用這個框架可以輕鬆爬下來如亞馬遜商品資訊之類的資料。

但是對於稍微複雜一點的頁面，如weibo的頁面資訊，這個框架就滿足不了需求了。

mechanize。優點：可以載入js。缺點：文件嚴重缺失。不過通過官方的example以及人肉嘗試的方法，還是勉強能用的。

selenium。這是乙個呼叫瀏覽器的driver，通過這個庫你可以直接呼叫瀏覽器完成某些操作，比如輸入驗證碼。

cola。乙個分散式爬蟲框架。專案整體設計有點糟，模組間耦合度較高，不過值得借鑑。

以下是我的一些實踐經驗：

對於簡單的需求，比如有固定pattern的資訊，怎麼搞都是可以的。

對於較為複雜的需求，比如爬取動態頁面、涉及狀態轉換、涉及反爬蟲機制、涉及高併發，這種情況下是很難找到乙個契合需求的庫的，很多東西只能自己寫。

至於題主提到的：

還有，採用現有的python爬蟲框架，相比與直接使用內建庫，優勢在哪？因為python本身寫爬蟲已經很簡單了。

third party library可以做到built-in library做不到或者做起來很困難的事情，僅此而已。還有就是，爬蟲簡不簡單，完全取決於需求，跟python是沒什麼關係的。

哪個開源的爬蟲框架比較成熟

6樓：匿名使用者

最好的爬蟲語言是前嗅的forespider爬蟲指令碼語言。是一門專門的爬蟲指令碼語言，而不是爬蟲框架，可以用簡單幾行**，實現非常強大的爬蟲功能。

forespider是視覺化的通用性採集軟體，同時內建了強大的爬蟲指令碼語滾信言。如果有通過視覺化採集不到的內容，都可以通過簡單幾行**，實現強大的指令碼採集。軟體同時支援正規表示式操作，可以通過視覺化、正則、指令碼任意方式，實現對資料的清洗、規範。

對於一些高難度的**，反爬蟲措施比較多，可以使用forespider內部自帶的爬蟲指令碼語言系統，簡單幾行**就可以採集到高難度的**。比如國家自然**會**、全國企業資訊公示系統等，最高難度的**完全沒有問題。

在通用性爬蟲中，forespider爬蟲的採集速度和採集能力是最強的，支援登入、cookie、post、https、驗證碼、js、ajax、關鍵詞搜尋等等技術的採集，採集效率在普通桌上型電腦上，可以達到500萬條資料/每天。這樣的採集速度是一般的通用性爬蟲的8到10倍。

對於大量的**採集需求而言，forespider爬蟲可以在規則模板固定之後，開啟定時採集。支援資料多次清洗吵激。

對於關鍵詞搜尋的需求而言，forespider爬蟲支援關鍵詞搜尋和資料探勘功能，自帶關鍵詞庫和資料探勘字典，可以有效採集關鍵詞相關的內容。

開發爬蟲大家都用什麼爬蟲框架

為什麼需要在爬蟲程式設計中需要考慮頁面的編碼

花盆土裡有好多爬蟲，有知道這是什麼蟲子的嗎？怎麼殺死它，比芝麻小，這是我用60倍放大鏡拍的

網路爬蟲跟採集有什麼不一樣什麼區別概念定義如何區分

開發爬蟲 大家都用什麼爬蟲框架

為什麼需要在爬蟲程式設計中需要考慮頁面的編碼

花盆土裡有好多爬蟲，有知道這是什麼蟲子的嗎？怎麼殺死它，比芝麻小，這是我用60倍放大鏡拍的

網路爬蟲跟採集有什麼不一樣什麼區別概念定義如何區分

相關推薦

開發爬蟲大家都用什麼爬蟲框架