Python实战项目1——自动获取小说工具

在这里插入图片描述

🤵‍♂️ 个人主页@老虎也淘气 个人主页
✍🏻作者简介:Python学习者
🐋 希望大家多多支持我们一起进步!😄
如果文章对你有帮助的话,
欢迎评论 💬点赞👍🏻 收藏 📂加关注

今天分享利用pyhton简单爬取小说,以大家最爱的《斗罗大陆》为例。

准备

win11
pycharm
Edge浏览器

开始

首先打开浏览器,搜素《斗罗大陆》小说,点开任意结果网站,本次以下图为例:
在这里插入图片描述

打开pycharm,做准备工作,

如若没有安装request 利用以下代码安装。

pip install requests

导入。

# 怎么发送请求
# pip install requests
import request

发送给谁

搞定URL地址,即小说地址。

url = 'https://www.93xscc.com/9034/2126907.html'

发送请求

    resp = requests.get(url,headers=headers)

这里为什么要用get 解释一下:
我们可以打开网页,右键——检查——网络——Ctrl+r刷新
可以发现如图所示:可以看到请求方法是.get方法。
在这里插入图片描述
在这里插入图片描述

响应信息

  print(resp.text)

注意:我们平时访问是用浏览器访问,但是由于我们编写代码,利用python,为了让网站认为我们的访问属于正常用户行为和范围,为了打入内部,我们只能伪装自己。现在去伪装:
在这里插入图片描述
下拉继续找到箭头所指,翻译过来叫用户代理,简单来说就是表达了我们用的什么电脑系统和什么电脑浏览器访问的网址。

伪装自己

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.52'
}

之后完整运行,结果如图所示:会出现一堆乱码。
在这里插入图片描述

设置编码

  # 设置编码
    resp.encoding = 'utf-8'

在这里插入图片描述
之后即可看到完整信息。但是这并不是我们想要的,我们只需要文字,不需要那些符号字母。所以下一步我们可以提取文字。

提取文字

这会我们需要新的模块

pip install lxml

安装后导入

# pip install lxml
from lxml import etree

回来网页,右键检查看一下效果。会发现文字都在p里面,这是我们借助一个拓展程序
在这里插入图片描述
这时我们借助一个拓展程序
在这里插入图片描述
没有安装的可以去看我的 这篇文章。我们点开这个工具,快捷键Ctrl+shift+z
在这里插入图片描述
此时我们该写什么呢,因为我们在div中,所以如图所示输入内容即可:
在这里插入图片描述
此时我们的文字就提取出来了。然而有些内容我们是不需要的,如下图。
在这里插入图片描述
输入以下代码。

//div[@class="m-tpage"]/p

获取title信息:

//h1/test()

到此基本搞定,尝试打印结果。

print(info)
 print(title)

这是我们发现一堆内容,因为没有显示文本内容。
在这里插入图片描述
加上text即可

//div[@class="m-post"]/p/text()

之后保存文件。即可实现运行。
完整代码如下:

# 怎么发送请求
# pip install requests
import requests
# pip install lxml
from lxml import etree
# 发送给谁
url = 'https://www.93xscc.com/9034/2126907.html'
while True:
    # 伪装自己
   headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36 Edg/109.0.1518.52'
}

    # 发送请求
    resp = requests.get(url,headers=headers)
    # 设置编码
    resp.encoding = 'utf-8'
    # 响应信息
    # print(resp.text)
    e = etree.HTML(resp.text)
    info = '\n'.join(e.xpath('//div[@class="m-post"]/p/text()'))
    title = e.xpath('//h1/text()')[0]
    url = f'https://www.85xs.cc{e.xpath("//tr/td[2]/a/@href")[0]}'
    # print(info)
    # print(title)
    # 保存
    with open('斗罗大陆.txt','w',encoding='utf-8') as f:
        f.write(title+'\n\n'+info+'\n\n')

    '''
    退出循环 break
    if url == '/book/douluodalu1/'
    '''
  
写文章

热门文章

  • 李峋同款爱心Python代码版来了 154346
  • 解决fatal: not a git repository (or any of the parent directories): .git问题 20720
  • 【Navicat 连接MySQL时出现错误1251:客户端不支持服务器请求的身份验证协议;请考虑升级MySQL客户端】 18829
  • AttributeError: module ‘numpy‘ has no attribute ‘array‘解决办法 16483
  • 【解决 Excel 打开 UTF-8 编码 CSV 文件乱码的 BUG 】 13716

分类专栏

  • 数据解析之旅:发现信息的奥秘 15篇
  • 日常刷题 6篇
  • Debug宝典:解读编程报错 10篇
  • Python编程掌握指南 60篇
  • 软件设计师上午题 1篇
  • Python实战探索:应用大全 16篇
  • Hadoop学习指南 10篇
  • 面试 1篇

最新评论

  • 京东手机评论分析

    Beatsss123: 楼主 数据可以分享一下吗

  • Python实战项目——用户消费行为数据分析(三)

    高洛洛: 求数据表情包

  • Python实战项目——物流行业数据分析(二)

    Cu670: 大佬,这研究的主题是什么呀

  • 李峋同款爱心Python代码版来了

    老虎也淘气: https://bbs.csdn.net/topics/618707356

  • 李峋同款爱心Python代码版来了

    老虎也淘气: https://bbs.csdn.net/topics/618707356

大家在看

  • 【粉笔常识】古代文物和发明
  • (算法)双指针——有效三角形的个数<排序+双指针>
  • 从0开发一个Chrome插件:什么是Chrome插件? 62
  • 计算机网络-VLAN和三层交换机
  • linux中split大文件分割

最新文章

  • 京东手机评论分析
  • 游戏APP用户行为统计分析
  • Stata17安装教程
2024年10篇
2023年53篇
2022年71篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

老虎也淘气

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或 充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源起字起名字中山火炬开发区地图dy131fbi是什么辣子鸡店起名焦和刘怎么起名生态农业公司起名浴池起名张姓用一字给孩子起名珊瑚岛海战cctv5节目王姓单字女孩起名免费起店铺人名网翻译在线拍照游戏起名字特殊符号宝宝测试打分生辰八字起名带花的诗句易姓男孩起名男孩名字超级玩家2校服店铺起名为张姓男儿起名男孩子起名诗词双胞胎男孩起名字大全2021物权众筹逃离无限密室公司起名程序下载勾魂尤物我只喜欢你电视剧免费观看全集魔兽世界gm命令美甲美睫美容店起名字淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化