Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
.idea		.idea
html_process		html_process
sdju		sdju
zhihu		zhihu
README.md		README.md
download_manager.py		download_manager.py
output_manager.py		output_manager.py
parse_manager.py		parse_manager.py
spiader_main.py		spiader_main.py
url_manager.py		url_manager.py

Repository files navigation

spide 爬虫思路

python爬取百度百科

从python总入口进去：

循环从url管理器中找是否含有url
下载器下载url，返回html
解析器解析html，返回urls和data
url管理器装载urls（先判断是否含有url）
输出器输出数据到html中

完毕。

About

No description, website, or topics provided.

Report repository

Releases

No releases published

Packages

Contributors

Languages

Python 100.0%