[已解决]从文件中读取数据，获取需要的内容并保存（爬虫）

温木zou · 发表于 2020-10-15 17:17:36

目的是获取window.__SEARCH_RESULT__ = 这里面的数据

怎么将里面的job_name等数据单个提出存储在字典里并保存
https://search.51job.com/list/000000,000000,7501,00,9,99,+,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare=
这个是我下载源代码的网站

希望大佬可以帮帮忙，拯救一下爬虫萌新
给整吐了。。

最佳答案

月排行榜 / 总排行榜

疾风怪盗

2020-10-15 17:17:37

import requests
import re
import json
url='https://search.51job.com/list/000000,000000,7501,00,9,99,+,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36 Edg/86.0.622.38'}
response=requests.get(url=url,headers=headers)
html_str=response.content.decode('gbk')
pattern=re.compile(r'window.__SEARCH_RESULT__ =(.*?)</script>')
data=pattern.findall(html_str)[0]
data=json.loads(data)
print(data)

复制代码

跳转到最佳答案楼层

疾风怪盗 · 发表于 2020-10-15 17:17:37

import requests
import re
import json
url='https://search.51job.com/list/000000,000000,7501,00,9,99,+,2,1.html?lang=c&postchannel=0000&workyear=99&cotype=99&degreefrom=99&jobterm=99&companysize=99&ord_field=0&dibiaoid=0&line=&welfare='
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36 Edg/86.0.622.38'}
response=requests.get(url=url,headers=headers)
html_str=response.content.decode('gbk')
pattern=re.compile(r'window.__SEARCH_RESULT__ =(.*?)</script>')
data=pattern.findall(html_str)[0]
data=json.loads(data)
print(data)

复制代码

温木zou · 发表于 2020-10-16 13:34:08

疾风怪盗发表于 2020-10-15 18:00

data=pattern.findall(html_str)[0]这句的作用是什么？

温木zou · 发表于 2020-10-16 13:49:12

疾风怪盗发表于 2020-10-15 18:00

dongle ...xiexie

疾风怪盗 · 发表于 2020-10-16 13:54:35

温木zou 发表于 2020-10-16 13:34
data=pattern.findall(html_str)[0]这句的作用是什么？

re正则findall找到返回的是列表，也就找到一个元素，所以直接取索引0就是要找的数据

温木zou · 发表于 2020-10-16 14:36:17

疾风怪盗发表于 2020-10-16 13:54
re正则findall找到返回的是列表，也就找到一个元素，所以直接取索引0就是要找的数据

D:\work\数据清洗\1.png
那我可以像这样一样把里面的数据分成一个个列表单独提取出来吗？

温木zou · 发表于 2020-10-16 14:36:48

疾风怪盗发表于 2020-10-16 13:54
re正则findall找到返回的是列表，也就找到一个元素，所以直接取索引0就是要找的数据

eee图片怎么上传

账号		自动登录	找回密码
密码			立即注册