Python爬虫学习日志（1）

最新推荐文章于 2021-10-31 19:56:02 发布

樱桃青衣

最新推荐文章于 2021-10-31 19:56:02 发布

阅读量627

点赞数 1

分类专栏： Python爬虫基础教程文章标签： Python 爬虫基础

本文链接： https://blog.csdn.net/qq_27250775/article/details/103288862

版权

Python爬虫基础教程专栏收录该内容

10 篇文章 0 订阅

订阅专栏

樱桃青衣，蕉叶覆鹿。人生苦短，我用Python。

我的第一篇日志
- 1.笔记

我的第一篇日志

今天开始记录自己学习Python爬虫的过程。
学习书籍：《Python3 网络爬虫开发实战》崔庆才著当当购买地址 http://product.dangdang.com/25249602.html
学习视频：《Python 爬虫视频教程全集》中国大学 MOOC B站播放地址

1.笔记

视频课程

总体内容
开发工具
Anaconda+PyCharm (Python 3.7)
爬取网页的通用代码框架

import requests
def getHTMLText(url):
    try:
        r = requests.get(url, timeout=30)
        r.raise_for_status() #如果状态不是200，引发HTTPError异常
        r.encoding = r.apparent_encoding #apprent_encoding是网页的准确编码方式
        return r.text
    except:
        return "产生异常"

if __name__=="__main__":
    url = "http://www.baidu.com"
    # url = "www.baidu.com"
    print(getHTMLText(url))

当 url = “www.baidu.com”时，输出结果为：产生异常

HTTP协议

PATCH与PUT的区别：
URL位置有一组数据共有20个字段，其中包括UserName。
要求：用户修改UserName，而保持其他不变。

PATCH，仅向URL提交UserName的局部更新请求，节省带宽。
PUT，必须将所有20个字段一并提交到URL，未提交字段将被删除。

Requests库的主要方法
requests.request(method, url, **kwargs)
method: get, head, post, put, patch, delete
**kwargs: 访问控制的参数，均为可选项。(params, data, json, headers)(cookie, auth, files, timeout)(proxies, allow_redirects, stream, verify, cert)

重点掌握 get 和 head 两个。

樱桃青衣

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Python爬虫学习日志（1）

樱桃青衣，蕉叶覆鹿。人生苦短，我用Python。我的第一篇日志1.笔记2.问题我的第一篇日志今天开始记录自己学习Python爬虫的过程。学习书籍：《Python3 网络爬虫开发实战》崔庆才著当当购买地址 http://product.dangdang.com/25249602.html学习视频：《Python 爬虫视频教程全集》中国大学 MOOC B站播放地址1.笔...
复制链接

扫一扫