wcq15759797758 发表于 2021-6-29 17:22:27

爬取招聘网站

无聊爬一爬
import requests# 网络请求模块
import time      # 时间模块
import random    # 随机模块
import re,json
json_url = 'https://search.51job.com/list/000000,000000,0000,00,9,99,python,2,{page}.html'
class Crawl():
    def __init__(self):
      # 创建头部信息
      self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Firefox/66.0'}
    def get_json(self,json_url):
      response = requests.get(json_url, headers=self.headers)
      # 判断请求是否成功
      if response.status_code == 200:
            html_data = re.findall('window\.__SEARCH_RESULT__ =(.*?)</script>', response.text)
            json_data = json.loads(html_data)
            search_result = json_data['engine_search_result']
            for index in search_result:
                item = {}
                item['title'] = index['job_name']
                item['xin_xi'] = index['attribute_text']
                item['gong_si'] = index['company_name']
                print(item)
      else:
            print('获取信息的请求没有成功!')

if __name__ == '__main__':
    c = Crawl()                # 创建爬虫类对象
    for page in range(1,6):   #页码
      text = c.get_json(json_url.format(page=page))
      time.sleep(random.randint(2,4))# 随机产生获取json请求的间隔时间'''

fish_nian 发表于 2021-6-29 18:12:35

不错

永恒的蓝色梦想 发表于 2021-6-29 19:45:09

鱼币

hornwong 发表于 2021-6-29 20:11:42

感谢分享!

jynjbn 发表于 2021-6-29 22:34:16

666

超级玛尼哄 发表于 2021-6-29 23:23:01

学习了

星期天去散步 发表于 2021-7-31 16:00:19

好强,俺要加油

18929659582 发表于 2022-1-19 15:55:42

{:10_256:}
页: [1]
查看完整版本: 爬取招聘网站