Python爬虫学习日志(1)

10 篇文章 0 订阅
订阅专栏

樱桃青衣,蕉叶覆鹿。人生苦短,我用Python。

我的第一篇日志

今天开始记录自己学习Python爬虫的过程。
学习书籍:《Python3 网络爬虫开发实战》崔庆才 著 当当购买地址 http://product.dangdang.com/25249602.html
学习视频:《Python 爬虫视频教程全集》中国大学 MOOC B站播放地址

1.笔记

视频课程

  1. 总体内容
    在这里插入图片描述
  2. 开发工具
    Anaconda+PyCharm (Python 3.7)
  3. 爬取网页的通用代码框架
    在这里插入图片描述
import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() #如果状态不是200,引发HTTPError异常
        r.encoding = r.apparent_encoding #apprent_encoding是网页的准确编码方式
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url = "http://www.baidu.com"
    # url = "www.baidu.com"
    print(getHTMLText(url))

当 url = “www.baidu.com”时,输出结果为:产生异常

  1. HTTP协议
    在这里插入图片描述
    在这里插入图片描述
    PATCH与PUT的区别:
    URL位置有一组数据共有20个字段,其中包括UserName。
    要求:用户修改UserName,而保持其他不变。
  • PATCH,仅向URL提交UserName的局部更新请求,节省带宽。
  • PUT,必须将所有20个字段一并提交到URL,未提交字段将被删除。
  1. Requests库的主要方法在这里插入图片描述
    requests.request(method, url, **kwargs)
    method: get, head, post, put, patch, delete
    **kwargs: 访问控制的参数,均为可选项。(params, data, json, headers)(cookie, auth, files, timeout)(proxies, allow_redirects, stream, verify, cert)
  • 重点掌握 get 和 head 两个。
python爬虫-小白学习日志(分享超详细哦!更新中……)
qq_63290322的博客
10-20 492
大家好,这是一篇记录小白学习爬虫日志,让我们共同进步吧!
Python爬虫学习日志.zip
最新发布
12-23
Python爬虫源码大放送:抓取数据,轻松搞定! 想轻松抓取网站数据,却苦于技术门槛太高?别担心,这些源码将助你轻松搞定数据抓取,让你成为网络世界的“数据侠盗”。 它们还具有超强的实用价值。无论你是想要分析竞品数据、收集行业情报,还是想要偷窥某个女神的社交媒体动态,这些源码都能满足你的需求。 是时候打破技术壁垒,开启数据抓取的新篇章了
python爬虫你爬什么爬我嘛
winnerdance的博客
11-21 245
首先来了解什么是爬虫Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。 调度器:相当于一台电脑的CPU,主要负责调度URL管理器、下载器、解析器之间的协调工作。 URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Pytho
Python学习日记(爬虫
dream-seeker的博客
10-31 380
一、爬虫 通过编写程序来获取网上的资源 用程序模拟浏览器,输入一个网址,从该网址获取到资源或者内容 二、基础步骤 1.导包 from urllib.request import urlopen 2.写入网址 url = "http://www.xx.com" 3.打开网址 resp = urlopen(url) 4.读写并爬取文件然后读写 with open("mybaidu.html",mode="w",encoding="utf-8") as f: f.write(resp.read().dec
爬虫日志(1)
weixin_41506373的博客
07-22 773
内容记录在开源中国博客这个系列用来记录我从0开始学习python爬虫的过程,分享这个过程希望能够给像我一样的初学者一些启示。
python爬虫日记(一)
qq_52660776的博客
03-28 184
学习内容 正则表达式:re requests请求
python3爬虫学习(一)
Asunqingwen的博客
10-29 347
刚签完offer没事干,之前断断续续学过一点爬虫,又想着再次学习一下,希望这次能坚持下来,好好的学习爬虫——顾名思义,在整个网络系统中,像蜘蛛一样,爬啊爬啊,每到一个节点,就记录该节点的数据,以及是否访问过。所谓的节点,在网络中就是我们常说的网址。整个爬虫的过程就类似于广度优先搜索(BFS)一个网络。代码实现(一)#encoding:UTF-8 import urllib.request im
Python爬虫之路-scrapy爬虫框架课程
01-04
1.scrapy的概念作用和工作流程 2.scrapy的入门使用 3.scrapy构造并发送请求 4.scrapy模拟登陆 5.scrapy管道的使用 6.scrapy中间件的使用 7.scrapy_redis概念作用和流程 8.scrapy_redis原理分析并实现断点续爬以及...
王纯业的Python学习笔记 下载
12-23
python版使用Python编写简单网络爬虫抓取视频下载资源python多线程http下载实现示例python从ftp下载数据保存实例python批量下载图片的三种方法python 从远程服务器下载日志文件的程序Python实现HTTP协议下的文件下载...
基于python爬虫进行在线视频的下载(m3u8、mp4)+源代码+文档说明
12-01
# 利用python爬虫(requests)进行在线视频的下载 下载类型:m3u8 and mp4 实现对在线视频的下载,具体包括: (1)多线程下载 (2)ts视频文件合并 (3)进度条显示 (4)日志记录 (5)重复下载提示 -------- 该...
Python爬虫初步个人学习及心得
热门推荐
Linnnnnger的博客
02-28 5万+
自从毕设开始搞了Python之后就觉得这个东西值得研究。但是毕设的东西非常的浅显,个人觉得最值得训练的还是Python爬虫,谨以此开篇,作为学习和练习Python的起步。——————————学习分割线————————————第一次学习的是Python爬取图片信息。网上有很多很多关于这一类东西的教程,我也仅仅是可以实现,并且停留在一知半解的程度,在代码过程中添加了很多对Python的新的理解,对编...
python爬虫个人学习笔记
Roxannekkk的博客
09-10 1005
1.URI 是统一资源标识符(Universal Resource Identifier),URL 是统一资源定位符(Universal Resource Locator),URI 是用字符串来标识某一互联网资源,而 URL 则是表示资源的地址(我们说某个网站的网址就是 URL),因此 URI 属于父类,而 URL 属于 URI 的子类。 url网页地址:由三部分组成 第一部分是协议:http https ftp file ed2k… 第一部分与第二部分用**://隔开 第二部分是存放自愿的服务器域名系统或
Python爬虫实习笔记 | Week4 项目数据爬取与反思
Maple的博客
11-14 855
2018/11/05 1.所思所想: 今天我把Python爬虫实战这本书Chapter6看完,很有感触的一点是,书本中对爬虫实现的模块化设计很给我灵感,让我对项目中比较无语的函数拼接有了解决之道,内省还是比较兴奋。此外,在吃饭问题上需要认真思考下,是否应注意合理的膳食,是否应对要吃的进行好好考究。下午主要是做项目的东西,信用评价这一块很少用到技术性的手段,只写了个格式化脚本,另外了解并运用Navi...
Python学习日记-简单小爬虫
qq_36850938的博客
09-21 228
Python学习日记-简单小爬虫 简单小爬虫 最近一直在学习python,学了又忘,忘了又学, 好记性不如烂笔头。索性记录下来,方便以后翻看。 一、思路:找一个网页通过python的urllib包获取源代码,在通过re模块和正则表达式匹配需要的字段保存如mysql数据库 二、实现:由于不知爬那个网页,突然浏览器弹出H网链接,那就爬它吧,嘻嘻嘻:https://www.gzkd888.com/280...
PythonPython3网络爬虫实战-23、使用Urllib:分析Robots协议
Python8年程序员教程分享
07-27 357
利用 Urllib 的 robotparser 模块我们可以实现网站 Robots 协议的分析,本节我们来简单了解一下它的用法。 1. Robots协议 Robots 协议也被称作爬虫协议、机器人协议,它的全名叫做网络爬虫排除标准(Robots Exclusion Protocol),用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。它通常是一个叫做 robots.txt 的文本文件,放在网...
找实习心得(Python爬虫
Mike_Shine的博客
06-13 6356
既昨天收到天润融通的Offer之后(虽然觉得自己的面试表现比较差,但是可能还是由于学校的关系吧,有一些优势),今天陆续收到了两个面试通知。在拉勾网和Boss网这样的网站上搜索相关实习,然后投简历感觉比在论坛靠谱多了。   感觉去面试的时候可以带着电脑,给他们看一下做过的爬虫Demo,然后自己主动一点掌握节奏,之前那么差的面试都过了,我觉得这两个面试也不会有什么问题。   关键是这两个面试的...
Python爬虫实习笔记 | Week6 Daliy工作流水
Maple的博客
11-24 914
2018/11/19 1.所思所想 上午主要就是做自己的事情,是的,如果没有一天天的积淀,而完全依靠项目中的不足而及时弥补,很难发现自己的痛点,并自觉的去完善。 下午可以说很成功,虽然没有做具体任务,但却解决了“困境”中的一环:不需要手动寻找我们需要爬取的数据,主要是url,而是根据html文档自有的特性,及所爬去模块的特征去寻找,可以说相当棒了。 2.工作: 【1】184 长沙市环保局 没找到...
【记录爬虫实战过程】入门学习·详细过程·用爬虫实现小说爬取1
Rover95的博客
07-06 229
要做一个项目,所以先学习熟练应用爬虫。 在此记录学习过程,供他人参考,也督促自己坚持学习。 目标: 用爬虫实现小说爬取! 背景: 1.已掌握一些基础的相关知识 2.运行环境为vs code 3.安装一些爬虫所用的库文件:可以在cmd中,使用pip获取,例如按照如下指令安装requests库文件::pip install requests 大致路线: 模仿+学习他人 自己练习+扩展 总结问题+经验 此篇为第一部分:模仿学习 参照这篇文章 来逐步练习小说爬取。过程很清楚完整,很适合初学者熟悉大致过程。不知道
Python爬虫学习日志(7)
樱桃青衣的博客
11-29 165
正则表达式正则表达式1.概念正则表达式的作用正则表达式的使用正则表达式的语法:由字符和操作符构成正则表达式的常用操作符正则表达式语法实例经典正则表达式实例2.Re库的基本使用正则表达式的表示类型Re库主要功能函数Re库的等价用法Re库主要功能函数的示例Re库的Match对象Re库的贪婪匹配和最小匹配 正则表达式 RE:regular expression 或 regex 1.概念 正则表达式的...
python 爬虫课程设计
05-11
2. 学习Python爬虫的基础知识,包括requests库、beautifulsoup库、正则表达式等。 3. 编写Python爬虫代码,使用requests库发送HTTP请求获取网页内容,使用beautifulsoup库解析HTML文档,使用正则表达式提取所需数据...

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • python中导入sklearn库报错解决 2659
  • MySQL下载以及安装过程的注意事项 1787
  • win11安装 kali Linux导致开机启动时提示“选择操作系统”问题?如何删除“Debain GUN-/安装程序”启动选项 631
  • Python爬虫学习日志(1) 627
  • Python爬虫学习日志(3) 508

分类专栏

  • Python爬虫基础教程 10篇

最新评论

  • MySQL下载以及安装过程的注意事项

    CSDN-Ada助手: 推荐 MySQL入门 技能树:https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql

  • Python爬虫学习日志(3)

    樱桃青衣 回复 aaaaaqqqqxx: pycharm的Python Console编程环境显示

  • Python爬虫学习日志(3)

    aaaaaqqqqxx: 爬取的东西在哪里显示?

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • 【求助】笔记本换了个USB分线器后休眠和睡眠后会立刻重启,使用电池电源则没问题。
  • MySQL下载以及安装过程的注意事项
  • win11安装 kali Linux导致开机启动时提示“选择操作系统”问题?如何删除“Debain GUN-/安装程序”启动选项
2024年1篇
2023年2篇
2019年12篇

目录

目录

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源手机传奇游戏乳名起名软件姓名陆起名谢苗电影姓王有起名大全蜂蜜店起名字大全集徽信起名姓潘起名tv1988影院夜思高端的护肤品起名1987年日历华易起名网深化新时代教育评价改革总体方案心得体会黎吧啦央视音乐频道虐杀姬teengirls店铺起名电器天乩之白蛇传说百度云起公司名字中国卫星通信集团什么叫电灯泡起名字大全男孩姓李蜘蛛侠3英雄无归国内上映时间雷殿生兰桂坊五行缺金 如何起名字示儿小厂子起名大全参照淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化