更新時間:2023-03-13 來源:黑馬程序員 瀏覽量:
多進程爬蟲一般也被視為分布式爬蟲的基礎,在單機上可以使用。通常來說大型網站采用分布式來部署服務器,能夠采用多進程同時間在不同的服務器上進行爬取。
在實際的數據采集過程中,既考慮網速和響應的問題,也需要考慮自身機器的硬件情況,來決定設置多線程或者多進程。因此,如果需要爬取的數據任務量很大,那么可以考慮多進程+多線程的機制。先創(chuàng)建多個進程完成不同的任務,然后每個進程內部再創(chuàng)建多個線程,最后完成需要爬取到的數據。