Python爬取起点中文网小说排行榜信息(上海线下培训作业)

Python爬取起点中文网小说排行榜信息(上海线下培训作业)

周末两天的天善智能上海线下培训已经结束啦~
小编带大家从爬虫零基础到进阶飞飞飞
以下是部分课程内容和学员成果展示


1课程内容



2课堂实景


大家都在听小编讲课【听的好认真啊】



学员课堂实际操作时间【学一点就要及时动手操作一下】



小编在课上给学员答疑【有问题要及时解决】


助教知己在给学员答疑【小编的好朋友哈】



学员们相互帮助解决问题【好有爱啊啊啊】



最后的合影【有好多小姐姐也来学爬虫技术】

3学员群答疑和反馈


课前准备工作



课前准备工作



必须让每个学员都学到东西



学员不仅学到技能,还认识了新朋友



课后答疑



学员来交作业啦【好有成就感啊】


4学员作业风采欣赏第二天最后留下的作业是爬取起点小说排行榜信息
作业要求如下:



以下是部分学员完成情况:

01
作者:柳东
原文链接: ask.hellobi.com/blog/ld

两天的爬虫线下培训结束了,感谢大伟老师和工作人员们的辛苦付出,以下为本次作业的简述:

一、先处理单页信息的爬取:




输出结果后发现网页被重定向至其他网页,并非需要爬取的排行榜,于是加入代理及异常机制尝试:




输出结果正常:




接着,加入解析器,通过循环,把需要的信息先放入字典,再将全部信息分类汇总入列表:




引入pandas,将信息转化为DataFrame:



输出结果第一页所需信息:




至此,单页爬取完成。

二、爬取前200名的信息:

单页爬取成功,加入循环,实现多页爬取,并输出结果,以下为完整代码:




以下为完整输出结果:





如有发现问题,欢迎各位老师同学的批评指正。
再次感谢大伟老师,各位天善的工作人员及各位同学!

02
作者:走马兰台
原文链接: ask.hellobi.com/blog/ys

周末两天的培训结束了,非常感谢这段时间老师的热情指导,现对起点小说排名信息的爬取已完成,具体思路如下:

第一步:首先选取起点的网站网址: qidian.com/rank/hotsale,先尝试用代理和cookies进入网址,发现得到的界面源代码都没有问题,然后去掉代理和cookies发现也能爬取信息

使用代理和headers运行程序:




不使用代理运行程序结果:




第二步:查看起点排行榜多个界面,发现只是后面的page=不同,取出所有的源代码信息,发现所有内容都在class=book-mid-info的a标签上,然后用BS4来对整个网页内容的提取,使用find_all和css的select方法都可以得到结果,结果如下:

find_all方法:




select方法:




第三步:在这里使用css的select方法提取数据,然后把数据转变为pandas的DataFrame格式,因为数据都是在同一列,需要对数据进行切片及去掉原有索引,然后用pandas的concat把书名、作者等信息进行合并

数据传入DataFrame结果:




用pandas的concat把作者等信息进行合并运行后的结果:



最后就是保存在csv中,因为格式不同,需要对数据使用gbk格式写入

下图即是所有的代码:


03
作者:Zexuan
原文链接: ask.hellobi.com/blog/Ka


上周末在上海进行了2天的python爬虫培训,感谢天善智能感谢王大伟老师,要开始入坑啦!

上课基本能听懂,但是回来自己码代码就会发现各种问题~~~~(>_<)~~~~

把python的基础知识补了一遍,完成了老师留下的作业。
要求:

qidian.com/rank/hotsale
爬取前200名排行榜的作者,书名,分类,更新的信息
建议先爬取一页
要求使用BeautifulSoup爬取

交作业啦!





虽然只是一个简单的交作业,不过完成了还是超有成就感的!!!


未完待续
小编鼓励大家写博客记录自己的学习成果
方便以后用到回顾,还能分享给需要的人虽然这期的上海站线下爬虫培训结束了
以后还会有的,除了上海还可能去其他城市哦
除了网络爬虫
以后还会开机器学习,数据分析挖掘之类的线下课程哦
敬请期待~

聚圣源慈禧全传真假学园第三季五行少土起名大全水葫芦之灾阅读答案513au火焰山历险记百变猪排加盟多少钱姓金的美女宝宝起名跟水相关的起名慕姓女人起名鼠年起名称大全男孩姓牛男宝宝取名起名大全新疆企业起名付字男孩子起名无限技能无限蓝闫妮主演的电视剧融金所真正的起名免费起名字二个字广字辈起名字男孩吗门窗厂取名上上城五期业主论坛牛宝宝起名大全女猪宝宝起名适合用那个字高丽王朝火锅高端的甜品店起名大全送给软件起名新型农村合作医疗网网上起名字可靠吗纨绔绝顶风流淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化