|
5鱼币
我想要爬取程序员客栈的技能要求那一栏的数据,但是现在不知道该怎么往下写了,求帮忙,
- #需要调用的库
- import urllib.request as u_request
- import os,re,base64
- import time
- import requests
- import bs4
- #打开网址
- def url_open(url):
- header = {}
- header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
- html = requests.get(url,headers = header).text
- return html
- #print(html)
- def find_data(url):
- html = url_open(url)
-
- if __name__ == '__main__':
- url = 'https://job.proginn.com/?from=top_nav'
-
- find_data(url)
复制代码
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
4.主函数引用上述三个函数,串联起来就可以了
|
-
最佳答案
查看完整内容
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
4.主函数引用上述三个函数,串联起来就可以了
|