爬虫求助,Python交流,编程语言专区,鱼C论坛

君苏依寂 发表于 2021-5-17 21:54:52

爬虫求助

我想要爬取程序员客栈的技能要求那一栏的数据，但是现在不知道该怎么往下写了，求帮忙，
#需要调用的库
import urllib.request as u_request
import os,re,base64
import time
import requests
import bs4

#打开网址
def url_open(url):
header = {}
header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

html = requests.get(url,headers = header).text
return html
#print(html)

def find_data(url):
html = url_open(url)

if __name__ == '__main__':
url = 'https://job.proginn.com/?from=top_nav'

find_data(url)

美徒思福 发表于 2021-5-17 21:54:53

1.url_open构造访问网页的函数，必要时加上header，以及proxy做代理；
2.find_data 打开的网页之后，通过访问网页的源码(Chrome浏览器，右键检查源码)，扎到"技能要求"后面的关键字，通过正则完成，r"技能要求"(.*)。。。需要自己来组合找到最高匹配；
3.save_data，将找到的数据保存下来，最简单的方式就是with open(x,ab) as f的方式；
4.主函数引用上述三个函数，串联起来就可以了

wp231957 发表于 2021-5-18 09:29:08

import requests,re
from lxml import etree
url="https://job.proginn.com/d/5af3107a563d"
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
data = tree.xpath("//div[@id='markIsAppWebview']/div/div/div/span/text()")
print(data)

君苏依寂 发表于 2021-5-18 13:12:19

wp231957 发表于 2021-5-18 09:29

感谢您的帮助

君苏依寂 发表于 2021-5-18 13:13:00

美徒思福发表于 2021-5-17 21:54
1.url_open构造访问网页的函数，必要时加上header，以及proxy做代理；
2.find_data 打开的网页之后，通过 ...

感谢您的帮助

页: [1]

鱼C论坛's Archiver

爬虫求助