Python爬虫学习日志(1)
樱桃青衣,蕉叶覆鹿。人生苦短,我用Python。
- 我的第一篇日志
- 1.笔记
我的第一篇日志
今天开始记录自己学习Python爬虫的过程。
学习书籍:《Python3 网络爬虫开发实战》崔庆才 著 当当购买地址 http://product.dangdang.com/25249602.html
学习视频:《Python 爬虫视频教程全集》中国大学 MOOC B站播放地址
1.笔记
视频课程
- 总体内容
- 开发工具
Anaconda+PyCharm (Python 3.7) - 爬取网页的通用代码框架
import requests
def getHTMLText(url):
try:
r = requests.get(url, timeout=30)
r.raise_for_status() #如果状态不是200,引发HTTPError异常
r.encoding = r.apparent_encoding #apprent_encoding是网页的准确编码方式
return r.text
except:
return "产生异常"
if __name__=="__main__":
url = "http://www.baidu.com"
# url = "www.baidu.com"
print(getHTMLText(url))
当 url = “www.baidu.com”时,输出结果为:产生异常
- HTTP协议
PATCH与PUT的区别:
URL位置有一组数据共有20个字段,其中包括UserName。
要求:用户修改UserName,而保持其他不变。
- PATCH,仅向URL提交UserName的局部更新请求,节省带宽。
- PUT,必须将所有20个字段一并提交到URL,未提交字段将被删除。
- Requests库的主要方法
requests.request(method, url, **kwargs)
method: get, head, post, put, patch, delete
**kwargs: 访问控制的参数,均为可选项。(params, data, json, headers)(cookie, auth, files, timeout)(proxies, allow_redirects, stream, verify, cert)
- 重点掌握 get 和 head 两个。
CSDN-Ada助手: 推荐 MySQL入门 技能树:https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
樱桃青衣 回复 aaaaaqqqqxx: pycharm的Python Console编程环境显示
aaaaaqqqqxx: 爬取的东西在哪里显示?