前程无忧招聘网站(51job)——数据爬取

2 篇文章 0 订阅
订阅专栏

第一次爬数据这么多的网站,有点小激动╰(*°▽°*)╯╰(*°▽°*)╯

  1. 进入前程无忧网,在首页的搜索框中,输入大概的职位或公司名称,就能查看需要的职位和公司,但,如果你的搜索输入为空时,它就会查出那个地区的所有记录。如图

  2.这时,我们似乎就拿到了全国的所有数据,但是只有2千页,感觉数据不对头,然后我又去看了看广东省的数据,如图:
 

 (╯>д<)╯⁽˙³˙⁾广东省都有2千页,全国怎么也才两千页,ORZ,然后我又去百度了一下,发现网上许多人都只是把这个全国的两千页数据给爬了下来,就没了。
        3.但我想要完整的数据,所以就只有去按照城市和省份一个一个的爬取,然后发现在URL上每个地区 都有其对应的数字组合。如图:

4.广东省对应的是030000,江苏省对应的是070000,然后每一页的数据增长也在URL看出了规律,如图:

        5.在每增长一页时,URL的那个地方就会加 1,这样的话我们只要找出所有城市省份地区对应的数字组合,再按照这个页数增长就能获取所有数据。

        6.但就是这个,找出所有城市省份地区对应的数字组合有点恼火,因为按照笨方法就是去把每一个地区城市都打开一遍,然后把对应的数字组合复制下来,那样虽说也行,但估计我人都要累死,这样就真的成"码农"了。我才不要╭(╯^╰)╮╭(╯^╰)╮

        7.所以我就把他的城市选择列表打开,发现他把每次城市对应的数字组合保存在HTML标签属性中的。如图:

        8.这样的话,就可以遍历出它所有的<td>标签,然后取出里面的数字组合和城市名字就行了,因为它是要每次点击一个地区分类,才能打开一个地区的城市列表,所以就不能用"传统的爬虫"的方式去爬取了。    
        9.我是把每个城市列表都打开一遍,这样它就在HTML中加载出了所有的城市列表,然后我就在控制台中,创建一个空数组,获取父节点,然后遍历子节点的<td>,然后把每一个td的数字组合和城市名称组合为一个对象添加进空数组里面,这样我就得到了所有城市对应的数字组合。如图:

 10.然后在爬取时就按照这个对应关系来就行了。我开了 10 个线程,爬了大概4个小时左右,下面是我的Python源代码:

GitHub地址:https://github.com/potatopeople/recruit

python爬虫前程无忧51job招聘网站.zip
01-19
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
Python爬虫(三)Beautiful Soup 实战,爬取前程无忧网站
凡心所向.AI
08-15 4711
Beautiful Soup介绍 Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。 Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。 Beautiful Soup已成为和lxml、html5lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。 模块安装 pi...
Python爬虫爬取招聘网站系列 - 前程无忧(2),Python驱动面试
2401_84182578的博客
04-10 1396
🍅 硬核资料:关注即可领取PPT模板、简历模板、行业经典书籍PDF。🍅 技术互助:技术群大佬指点迷津,你的问题可能不是问题,求资源在群里喊一声。🍅 面试题库:由技术群里的小伙伴们共同投稿,热乎的大厂面试真题,持续更新中。🍅 知识体系:含编程语言、算法、大数据生态圈组件(Mysql、Hive、Spark、Flink)、数据仓库、Python、前端等等。一个人可以走的很快,但一群人才能走的更远。
使用scrapy爬取前程无忧所有大数据岗位并做出数据可视化
一条会编程的鱼
06-24 6535
项目目录项目要求工具软件具体知识点具体要求数据爬取字段数据存储数据分析与可视化具体步骤分析网页实现代码抓取全部岗位的网址字段提取可视化分析“数据分析”、“大数据开发工程师”、“数据采集”等岗位的平均工资、最高工资、最低工资,并作条形图将结果展示出来分析“数据分析”、“大数据开发工程师”、“数据采集”等大数据相关岗位在成都、北京、上海、广州、深圳的岗位数,并做条形图将结果展示出来分析大数据相关岗位1-3年工作经验的薪资水平(平均工资、最高工资、最低工资),并做出条形图展示出来将数据采集岗位要求的技能做出词云
scrapy爬取51job前程招聘网站的机构信息并存储到xls工作簿中
06-27
scrapy爬取51job前程招聘网站的机构信息并存储到xls工作簿中
51job网站信息爬取.zip
10-19
采用Python爬取前程无忧网站的职位信息,采用mysql数据库。职位 属性:职位类型、薪资、工作城市、公司名称、招聘人数等等。 资源包含:python代码、数据库建表语句、已经爬取的6万多条职位数据
爬取招聘数据 | scrapy 前程无忧51job
lijiamingccc的博客
07-23 4507
目录1. 预备知识2. 抓取目标结构3.抓包分析3.1 抓包分析url地址3.2 分析页码规律3.3分析数据存储位置4. 正则表达式的应用5. 代码编写5.1 start_requests5.2 正则提取数据5.3 提取职位的详情信息 1. 预备知识 python语言,scrapy爬虫基础,正则表达式 2. 抓取目标结构 职位列表中的以下信息: 点击职位,进入职位详情页中,提取以下信息: 3.抓包分析 3.1 抓包分析url地址 先进入到我们的页面中来,选择想要爬取的城市,url地址会发生相应的变化
爬取51job中用到的技巧的分析、记录
枪枪枪的博客
06-10 3137
好吧,又到了一学期的期末,又遇课程设计,不过还好,课程设计比较简单,爬取51job有关大数据的工作,并进行分析。在这里做一个记录。 主要思路是在网上找到的一篇博文,之前也做过类似的东西,本身没有什么难度,这里我就将细节细细的过一遍,巩固一下所学吧 参考的博文的链接 https://blog.csdn.net/lbship/article/details/79452459 这里搜索的关键词为:数...
记一次爬虫学习(爬取51job
crush的博客
04-23 2331
51job上岗位爬取及分析 综合应用所学的python语言知识,设计完成一个爬虫。 (1)请求网页,先获取所有招聘信息的详情url地址; (2)通过对爬取数据的分析确定要提取的内容(职位,发布日期,工资,工作地点,工作经验,学历要求,招聘人数,公司类别,公司规模); (3)保存数据为csv文件; (4)对csv文件内的数据进行分析 (5)用可视化的图表表现出来。 需求分析 每到毕业季,找工作就成了一个重要的事,大量的信息让应聘者眼花缭乱,对此可以制作一个爬虫,自动爬取51job网站上的应聘者感兴趣的相关职位
前程无忧招聘数据爬虫——(1)
weixin_46951551的博客
03-07 8419
毕业设计第一弹 “前程无忧招聘数据爬虫 操作系统: Win 10 爬取工具: Jupyter Notebook (Anaconda) 存储路径: 电脑D盘,csv格式 文件名: 招聘.csv 语言: python 3.8 需求: 分析数据分析岗位的招聘情况,包括地区分布、薪资水平、职位要求等,了解最新数据分析岗位的情况 1、导入爬虫所需要的requests、csv模块 # 1、发送请求,对于找到分析得到的url地址发送请求 import requests # 导入时间模块 来个延时 import time
前程无忧python爬虫
hairclipper的博客
11-29 4340
前程无忧python爬虫 实践要求做一个数据分析以及处理的实验,我负责的是爬取数据的这一块任务。做爬虫的话,python是比较好用的,于是学习了一小段时间,专门学着写了一个小爬虫爬取的是一些静态网页上的内容。 环境 语言:python 3.8 工具:PyCharm 2019 操作系统:win10 前言 我主要学习的是C++,对于python语言并没有学习过,但是就爬虫这一块,我去了解的时候发现...
51job:前程无忧(51job)招聘信息爬取
05-14
前程无忧(51Job招聘信息爬取) 介绍 爬取前程无忧所有的招聘信息 软件架构 传统的maven和mybatis和mysql 安装教程 将resource中的sql文件在mysql中执行,然后修改jdbc.properties中的连接地址信息,运行JobMain 使用说明 无 参与贡献 无
爬取51job网站招聘信息
11-05
这是一个爬取51job招聘网站的代码,可以输入关键字爬取想要的各个职业的招聘信息,根据页码爬取制定页数的信息,可以选择存储到TXT,mongodb或者mysql中,代码简单易懂,可阅读性高
基于spark+echarts实现的前程无忧招聘网站数据大屏分析源码+项目说明.zip
最新发布
04-18
基于spark+echarts实现的前程无忧招聘网站数据大屏分析源码+项目说明.zip本资源中的源码都是经过本地编译过可运行的,评审分达到95分以上。资源项目的难度比较适中,内容都是经过助教老师审定过的能够满足学习、使用...
爬取51job网站实现数据可视化实验报告书.doc
06-05
爬取51job网站实现数据可视化实验报告书.doc 计算机专业,软件工程专业,通信工程大学生课程设计 自己大三的时候写的 适合大家做课程设计,写毕业设计也可以参考 基于可视化的课程设计
爬取前程无忧51job(动态数据
weixin_48676558的博客
05-02 1340
python爬虫
python爬取前程无忧网,看看我们是否真的“前程无忧”?
zhuxiao5的博客
08-31 1486
作者:旧时晚风拂晓城公众号:凹凸数据The best time to plant a tree was 10 years ago,the second best time is now....
Python爬虫requests+BeautifulSoup4+MongoDB 爬取51job招聘信息(最新)
kunger6的博客
08-26 861
新手训练 51job 网站完整Python爬虫程序 文章目录前言一、网站解析1.分析网站加载形式2.分析网站的url二、代码实现1.引入库2.解析城市编码3.获取数据3.1 解析数据3.2 数据的清洗和存储4.完整代码总结下载重要 前言 今天在学Python爬虫的书,看到有个爬取51job招聘网的信息实战,使用的是requests + BeautifulSoup4,但是代码才写了一半就发现出不来结果。 之前也有学过一些爬虫,本着学习的精神,我打算自己实现一下。 一、网站解析 1.分析网站加载形..
基于python前程无忧网站招聘信息进行爬取
05-15
好的,你需要使用Python中的requests库和BeautifulSoup库来进行网页爬取和信息提取。下面是一个简单的示例代码,可以帮助你了解如何进行爬取: ```python import requests from bs4 import BeautifulSoup url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,1.html' # 以python岗位为例 response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') job_list = soup.select('.dw_table div.el')[1:] for job in job_list: job_name = job.select_one('.t1 a').text.strip() company_name = job.select_one('.t2 a').text.strip() job_location = job.select_one('.t3').text.strip() salary = job.select_one('.t4').text.strip() publish_date = job.select_one('.t5').text.strip() print(f'{job_name} | {company_name} | {job_location} | {salary} | {publish_date}') ``` 这段代码爬取的是前程无忧上的Python岗位信息,并打印出了岗位名称、公司名称、工作地点、薪资以及发布日期等信息。你可以根据自己的需求修改代码中的网址和提取信息的方式,来爬取其他岗位的信息。注意要遵守网站的Robots协议和反爬虫策略。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • vue-quill-editor和quill-image-resize-module的使用方法 13678
  • Vue中监听路由变化,来决定是否跳转页面 5058
  • 前程无忧招聘网站(51job)——数据爬取 3707
  • JS简单获取猫眼电影所有城市完整的json数据(包括城市id和城市拼音) 1845
  • For循环的一些使用 179

分类专栏

  • js基础知识 2篇
  • 前端 3篇
  • 框架 3篇
  • 爬虫 2篇
  • 后端

最新评论

  • vue-quill-editor和quill-image-resize-module的使用方法

    weixin_38384967: 请问你们成功了吗?我是nuxt项目,加了那个模块,不报错,但不生效,插入的图片连框框都没出来

  • vue-quill-editor和quill-image-resize-module的使用方法

    fjy_1012: v3的在vue.config.js文件下 插入:var webpack = require('webpack'); 然后在 module.exports= {...} 加入下面的代码: chainWebpack: config => { config.plugin('provide').use(webpack.ProvidePlugin, [{ 'window.Quill': 'quill/dist/quill.js', Quill: 'quill/dist/quill.js' }]) } 加完记得重启

  • vue-quill-editor和quill-image-resize-module的使用方法

    Web_Lys: 但是我是vue3啊 webpack在哪里配置啊

  • 前程无忧招聘网站(51job)——数据爬取

    Tisfy: 辛苦辛苦

  • JS简单获取猫眼电影所有城市完整的json数据(包括城市id和城市拼音)

    刺猬怕刺: 感谢

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • JS简单获取猫眼电影所有城市完整的json数据(包括城市id和城市拼音)
  • vue-quill-editor和quill-image-resize-module的使用方法
  • 个人Vuex的一些使用方法
2019年5篇
2018年1篇

目录

目录

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

聚圣源极乐天师日本人起名字陈卓璇半山腰太挤了免费起名哪些软件农女有田开字男孩起名盛世军婚全文免费阅读傲斗凌天2.6神话再临美人心计演员表我的莫格利男孩周易起名字有哪些拍拍贷网无相之岩男孩子生辰八字起名大全属鼠的缺火起名字郑姓起名100分的名字女孩青少年宫水上世界宿命传说2图文攻略宋词起名 女孩名字的梁孟松简介单亲妈妈演员表豆制品起名长相守2022年公司起名影视世界大闲人通讯新店起名吊灯鬼女孩姓夏起什么名字彭字的起名男孩王子病的春天淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化