温木zou 发表于 2020-10-15 17:17:36

从文件中读取数据,获取需要的内容并保存(爬虫)

目的是获取window.__SEARCH_RESULT__ = 这里面的数据

怎么将里面的job_name等数据单个提出存储在字典里并保存
https://search.51job.com/list/000000,000000,7501,00,9,99,+,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
这个是我下载源代码的网站


希望大佬可以帮帮忙,拯救一下爬虫萌新
给整吐了。。

疾风怪盗 发表于 2020-10-15 17:17:37

import requests
import re
import json

url='https://search.51job.com/list/000000,000000,7501,00,9,99,+,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36 Edg/86.0.622.38'}
response=requests.get(url=url,headers=headers)
html_str=response.content.decode('gbk')
pattern=re.compile(r'window.__SEARCH_RESULT__ =(.*?)</script>')
data=pattern.findall(html_str)
data=json.loads(data)
print(data)

温木zou 发表于 2020-10-16 13:34:08

疾风怪盗 发表于 2020-10-15 18:00


data=pattern.findall(html_str)这句的作用是什么?

温木zou 发表于 2020-10-16 13:49:12

疾风怪盗 发表于 2020-10-15 18:00


dongle   ...xiexie

疾风怪盗 发表于 2020-10-16 13:54:35

温木zou 发表于 2020-10-16 13:34
data=pattern.findall(html_str)这句的作用是什么?

re正则findall找到返回的是列表,也就找到一个元素,所以直接取索引0就是要找的数据

温木zou 发表于 2020-10-16 14:36:17

疾风怪盗 发表于 2020-10-16 13:54
re正则findall找到返回的是列表,也就找到一个元素,所以直接取索引0就是要找的数据

D:\work\数据清洗\1.png
那我可以像这样一样把里面的数据分成一个个列表单独提取出来吗?

温木zou 发表于 2020-10-16 14:36:48

疾风怪盗 发表于 2020-10-16 13:54
re正则findall找到返回的是列表,也就找到一个元素,所以直接取索引0就是要找的数据

eee图片怎么上传
页: [1]
查看完整版本: 从文件中读取数据,获取需要的内容并保存(爬虫)