爬虫求助
我想要爬取程序员客栈的技能要求那一栏的数据,但是现在不知道该怎么往下写了,求帮忙,#需要调用的库
import urllib.request as u_request
import os,re,base64
import time
import requests
import bs4
#打开网址
def url_open(url):
header = {}
header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
html = requests.get(url,headers = header).text
return html
#print(html)
def find_data(url):
html = url_open(url)
if __name__ == '__main__':
url = 'https://job.proginn.com/?from=top_nav'
find_data(url)
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
4.主函数引用上述三个函数,串联起来就可以了 import requests,re
from lxml import etree
url="https://job.proginn.com/d/5af3107a563d"
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
data = tree.xpath("//div[@id='markIsAppWebview']/div/div/div/span/text()")
print(data) wp231957 发表于 2021-5-18 09:29
感谢您的帮助 美徒思福 发表于 2021-5-17 21:54
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过 ...
感谢您的帮助
页:
[1]