以『B站』为实战案例!手把手教你掌握爬虫必备框架『Scrapy』

1.前言

作为爬虫一员,掌握一门爬虫框架是必备技能,因此作为一名小白的你,我想向你推荐『Scrapy』。

具体『Scrapy』是什么,作用这些就不啰嗦(都是废话,百度有Scrapy简介),时间宝贵,就直接上干货(实战案例带你体验scrapy的使用)。

下面会以『B站』为目标进行实战!

2.Scrapy入门实战

1.环境准备

安装scrapy

通过上面这个命令即可直接安装好scrapy库

2.建立scrapy项目

通过上面这个命令可以建立一个项目名称:Bili 的爬虫项目。





这里就可以在桌面建立了一个名字为:Bili 的爬虫项目

项目结构

各个文件作用

3.明确爬取内容



以上面链接为例(B站),爬取视频的标题(title)和链接(url)

4.定义项目中每一个类

Items类

爬取字段是视频的标题(title)和链接(url),所以对于了title和url两个变量

定义spider类

spider类作用是自定义网页解析规则(新建scrapy项目是没有的,需要自己新建)。

Scrapy 为创建 Spider 提供了 scrapy genspider 命令,该命令的语法格式如下:

在命令行窗口中进入 Bili 目录下,然后执行如下命令即可创建一个 Spider:




运行上面命令,即可在 Bili 项目的 Bili /spider 目录下找到一个 lyc.py 文件
编辑lyc.py

修改pipeline类

这个类是对爬取的文件最后的处理,一般为负责将所爬取的数据写入文件或数据库中.。
这里我们将它输出到控制台.

修改settings类

一个 Scarpy项目的简单架构就完成了我们可以运行一下试试.

启动项目




但只有 一页的内容 , 我们可以解析下一页 .
将以下代码加到 lyc.py

下一页爬取




再次执行 , 就会一页一页的爬取 .

3.总结

1、通过实战案例『B站』,手把手实现scrapy项目的创建,解析网页,最后成功爬取数据并打印(保存)
2、适合小白入门scrapy,欢迎收藏,分析,学习

聚圣源大智路俊与浚哪个起名好捉妖记演员表e租宝繁字起名空中冲突太平洋航母镇魂百度云又是一年春好处店铺免费起名测名打分结果7788电影网宝宝免费起名苏一往情深的意思玉兔号月球车2021年好听宝宝起名大全起名字大全女孩免费打分姓宁女起名小男孩起什么名字好听的名字大全猪小儿起名易用字海绵宝宝是一种原始的什么动物写给姓郭的起名带瑞男孩起名字爱与魔法东游记演员表诚信是金足球小说消失的子弹公司起名带水网络祭祀乱象txt下载网毒龙是什么意思淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化