多線程爬蟲是什么？多線程爬蟲流程分析

更新時間:2020-09-18 來源:傳智播客瀏覽量:

由于外部網(wǎng)絡(luò)不穩(wěn)定，在使用單線程爬取網(wǎng)頁數(shù)據(jù)時，如果有一個網(wǎng)頁響應速度慢或者卡住了，那整個程序都要等待下去，這顯然是無效率的。因此，我們可以使用多線程、多進程、協(xié)程技術(shù)來實現(xiàn)并發(fā)下載網(wǎng)頁。

那么，在Python中多線程、多進程和協(xié)程應該如何選擇呢?

一般來說，多進程適用于CPU密集型的代碼，例如各種循環(huán)處理、大量的密集并行計算等。多線程適用于I/O密集型的代碼，例如文件處理、網(wǎng)絡(luò)交互等。協(xié)程無需通過操作系統(tǒng)調(diào)度，沒有進程、線程之間的切換和創(chuàng)建等開銷，適用于大量不需要CPU的操作，例如網(wǎng)絡(luò)I/O等。

實際上，限制爬蟲程序發(fā)展的瓶頸就在于網(wǎng)絡(luò)I/O，原因是網(wǎng)絡(luò)I/O的速度趕不上CPU的處理速度。結(jié)合多線程、多進程和協(xié)程的特點和用途，我們一般采用多線程和協(xié)程技術(shù)來實現(xiàn)爬蟲程序。

線程爬蟲將多線程技術(shù)運用在采集網(wǎng)頁信息和解析網(wǎng)頁內(nèi)容上，它的流程如圖1所示。

1600421153115_多線程爬蟲.jpg