|
发表于 2020-9-29 00:07:37
|
显示全部楼层
本楼为最佳答案
本帖最后由 疾风怪盗 于 2020-9-29 00:22 编辑
不要用beautifulsoup了,用xpath或者正则
获取的网页源代码和网页上看到的不一样,用浏览器的复制地址功能不行,自己写又麻烦,还不如正则匹配来的快
下面试着获取了第一页的数据(50个),你自己看看吧,想获取后面页码的,没找到方法
- import requests,re
- url='https://search.51job.com/list/020000,000000,0000,00,9,99,Python开发工程师,2,2.html'
- headers={'User-Agent': 'User-Agent: Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.121 Mobile Safari/537.36 Edg/85.0.564.63',
- }
- response=requests.get(url,headers=headers)
- html=response.content.decode()
- print(html)
- job_name=re.findall(r"<label class='c_red'>(.*?)</label>",html)
- print(job_name)
- company_name=re.findall(r"<aside>(.*?)</aside>",html)
- print(company_name)
- print(len(company_name))
复制代码 |
|