[已解决]爬虫求助

君苏依寂 · 发表于 2021-5-17 21:54:52

我想要爬取程序员客栈的技能要求那一栏的数据，但是现在不知道该怎么往下写了，求帮忙，

#需要调用的库
import urllib.request as u_request
import os,re,base64
import time
import requests
import bs4
#打开网址
def url_open(url):
header = {}
header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
html = requests.get(url,headers = header).text
return html
#print(html)
def find_data(url):
html = url_open(url)
if __name__ == '__main__':
url = 'https://job.proginn.com/?from=top_nav'
find_data(url)

复制代码

最佳答案

月排行榜 / 总排行榜

美徒思福

2021-5-17 21:54:53

1.url_open构造访问网页的函数，必要时加上header，以及proxy做代理；
2.find_data 打开的网页之后，通过访问网页的源码(Chrome浏览器，右键检查源码)，扎到"技能要求"后面的关键字，通过正则完成，r"技能要求"(.*)。。。需要自己来组合找到最高匹配；
3.save_data，将找到的数据保存下来，最简单的方式就是with open(x,ab) as f的方式；
4.主函数引用上述三个函数，串联起来就可以了

跳转到最佳答案楼层

美徒思福 · 发表于 2021-5-17 21:54:53

1.url_open构造访问网页的函数，必要时加上header，以及proxy做代理；
2.find_data 打开的网页之后，通过访问网页的源码(Chrome浏览器，右键检查源码)，扎到"技能要求"后面的关键字，通过正则完成，r"技能要求"(.*)。。。需要自己来组合找到最高匹配；
3.save_data，将找到的数据保存下来，最简单的方式就是with open(x,ab) as f的方式；
4.主函数引用上述三个函数，串联起来就可以了

wp231957 · 发表于 2021-5-18 09:29:08

import requests,re
from lxml import etree
url="https://job.proginn.com/d/5af3107a563d"
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
data = tree.xpath("//div[@id='markIsAppWebview']/div[2]/div[2]/div[2]/span/text()")
print(data)

复制代码

君苏依寂 · 发表于 2021-5-18 13:12:19

wp231957 发表于 2021-5-18 09:29

感谢您的帮助

君苏依寂 · 发表于 2021-5-18 13:13:00

美徒思福发表于 2021-5-17 21:54
1.url_open构造访问网页的函数，必要时加上header，以及proxy做代理；
2.find_data 打开的网页之后，通过 ...

感谢您的帮助

账号		自动登录	找回密码
密码			立即注册

[已解决]爬虫求助

最佳答案

评分

浏览过的版块