|  | 
 
5鱼币 
| 我想要爬取程序员客栈的技能要求那一栏的数据,但是现在不知道该怎么往下写了,求帮忙, 
 复制代码#需要调用的库
import urllib.request as u_request
import os,re,base64
import time
import requests
import bs4   
#打开网址
def url_open(url):
    header = {}
    header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'
    html = requests.get(url,headers = header).text
    return html
    #print(html)  
def find_data(url):
    html = url_open(url)
    
if __name__ == '__main__':
    url = 'https://job.proginn.com/?from=top_nav'
    
    find_data(url)
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
 3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
 4.主函数引用上述三个函数,串联起来就可以了
 | 
 
 
  
最佳答案
查看完整内容 1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
4.主函数引用上述三个函数,串联起来就可以了 |