Python爬虫入门保姆级教程！看完不会来找我( 三 ) 其实在当今社会

fire 函数
这是一个主执行函数，使用 range 函数来处理分页。

range 函数可以快速的创建整数列表，在 for 循环时及其好用。函数中的0代表从0开始计数， 450代表一直迭代到450 ，不包含450 ， 30代表步长，即每次递增的数字间隔。 range(0, 450, 30) ，依次会输出：0 ， 30 ， 60 ， 90 …
format 函数，是一种字符串格式化方式
time.sleep(1) 即为暂停1秒钟

get_poster_url 函数
这个就是解析 HTML 的函数，使用的是 BeautifulSoup

通过 find_all 方法查找所有 class 为 “cover” 的 div 元素，返回的是一个列表
使用 for 循环，循环上一步拿到的列表，取出 src 的内容， append 到列表中
append 是列表的一个方法，可以在列表后面追加元素

download_picture 函数
简易图片下载器

首先判断当前目录下是否存在 picture 文件夹， os.path.exists
os 库是非常常用用来操作系统相关的命令库， os.mkdir 就是创建文件夹
split 用于切割字符串，取出角标为7的元素，作为存储图片的名称
with 方法用来快速打开文件，打开的进程可以自行关闭文件句柄，而不再需要手动执行 f.close() 关闭文件

总结本节讲解了爬虫的基本流程以及需要用到的 Python 库和方法，并通过一个实际的例子完成了从分析网页，到数据存储的全过程。其实爬虫，无外乎模拟请求，解析数据，保存数据。
当然有的时候，网站还会设置各种反爬机制，比如 cookie 校验，请求频度检查，非浏览器访问限制， JS 混淆等等，这个时候就需要用到反反爬技术了，比如抓取 cookie 放到 headers 中，使用代理 IP 访问，使用 Selenium 模拟浏览器等待方式。
由于本课程不是专门的爬虫课，这些技能就留待你自己去探索挖掘啦。

文章插图
文源：萝卜大杂烩作者：周萝卜