鱼C论坛

 找回密码
 立即注册
查看: 1653|回复: 5

[原创] 爬取BOSS直聘

[复制链接]
发表于 2020-8-6 14:59:20 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 风尘岁月 于 2020-8-6 15:03 编辑

最近闲的无聊 jio的BOSS有点难度 然后拿来练手
废话少说上代码

注意:
一定要用代理IP
sleep缓冲锁请调大一点

如果没有代理IP 可以参考一下我的这篇帖子:https://fishc.com.cn/thread-176757-1-1.html




from requests import get
import parsel
from time import sleep

for page in range(1,1000):
    print('\n##########正在下载第{}页数据##########\n'.format(page))
    base_url = 'https://www.zhipin.com/c100010000-p100109/?page={}&ka=page-{}'.format(page,page)
    if page>1:
        sleep(20)

    cookie ''
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36',
        'cookie': cookie,
    }

    html_data = get(url=base_url,headers=headers).text


    selector = parsel.Selector(html_data)
    result_list = selector.css("#main > div > div.job-list > ul > li")
    for sel in result_list:
        Job_benefits = sel.css("div > div.info-append.clearfix > div.info-desc ::text").extract_first() #工作福利

        job_name = sel.css("div > div.info-primary > div.primary-wrapper > div > div.job-title > span.job-name > a ::text").extract_first()

        Working_data_1 = sel.css("div > div.info-append.clearfix > div.tags > span:nth-child(1) ::text").extract_first() #工作数据_1
        Working_data_2 = sel.css("div > div.info-append.clearfix > div.tags > span:nth-child(2) ::text").extract_first()  # 工作数据_2
        Working_data_3 = sel.css("div > div.info-append.clearfix > div.tags > span:nth-child(3) ::text").extract_first()  # 工作数据_3
        Working_data_4 = sel.css("div > div.info-append.clearfix > div.tags > span:nth-child(4) ::text").extract_first()  # 工作数据4
        Working_data_5 = sel.css("div > div.info-append.clearfix > div.tags > span:nth-child(5) ::text").extract_first()  # 工作数据_5
        Working_data = str(str(Working_data_1) + ' ' + str(Working_data_2) + ' ' + str(Working_data_3) + ' ' + str(Working_data_4) + ' ' + str(Working_data_5))

        employer = sel.css("div > div.info-primary > div.info-company > div > h3 > a ::text").extract_first()


        work_place = sel.css("div > div.info-primary > div.primary-wrapper > div > div.job-title > span.job-area-wrapper > span ::text").extract_first() #工作地点

        work_money = sel.css("div > div.info-primary > div.primary-wrapper > div > div.job-limit.clearfix > span ::text").extract_first() #工资

        Job_requirements_1 = sel.xpath('./div/div[1]/div[1]/div/div[2]/p/text()[1]').extract_first() #工作要求_1
        Job_requirements_2 = sel.xpath('./div/div[1]/div[1]/div/div[2]/p/text()[2]').extract_first() #工作要求_2
        Job_requirements = str(Job_requirements_1 + ' ' + Job_requirements_2)

        #print(Job_requirements)




        job_data = {
            '工作': job_name,
            '工作要求': Job_requirements,
            '工资': work_money,
            '雇主': employer,
            '工作数据': Working_data,
            '工作地点': work_place,
            '工作福利': Job_benefits,

        }



        with open('job_data.csv',mode='a+',encoding='utf-8') as f:
            job_data_write = str(job_data)
            f.write(job_data_write+'\n')
            print('保存完成:',job_data)


以后我有不懂 会向各位继续学习 请教的


希望大家
7455W2F5Z`FS{MFGSIP%APN.png


如果想测试记得评分哦





G2JQWX19S$8LSX}J6O58Q0E.png
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-8-6 15:01:45 | 显示全部楼层
1000页,oh my god!!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-6 15:03:54 | 显示全部楼层

BOSS的末尾页数我也不知道啊
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-6 15:04:35 | 显示全部楼层

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-6 15:07:47 | 显示全部楼层

其实"斗图啦"的网页页数比我多多了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-8-6 19:19:17 | 显示全部楼层

其实测试完毕 BOSS也才10页数据
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-12-22 12:08

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表