鱼C论坛

 找回密码
 立即注册
查看: 2160|回复: 4

[已解决]爬虫求助

[复制链接]
发表于 2021-5-17 21:54:52 | 显示全部楼层 |阅读模式
5鱼币
我想要爬取程序员客栈的技能要求那一栏的数据,但是现在不知道该怎么往下写了,求帮忙,
#需要调用的库
import urllib.request as u_request
import os,re,base64
import time
import requests
import bs4   

#打开网址
def url_open(url):
    header = {}
    header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'

    html = requests.get(url,headers = header).text
    return html
    #print(html)  

def find_data(url):
    html = url_open(url)

    



if __name__ == '__main__':
    url = 'https://job.proginn.com/?from=top_nav'
    
    find_data(url)
最佳答案
2021-5-17 21:54:53
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
4.主函数引用上述三个函数,串联起来就可以了
捕获.PNG

最佳答案

查看完整内容

1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理; 2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配; 3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式; 4.主函数引用上述三个函数,串联起来就可以了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-17 21:54:53 | 显示全部楼层    本楼为最佳答案   
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过访问网页的源码(Chrome浏览器,右键检查源码),扎到"技能要求"后面的关键字,通过正则完成,r"技能要求"(.*)。。。需要自己来组合找到最高匹配;
3.save_data,将找到的数据保存下来,最简单的方式就是with open(x,ab) as f的方式;
4.主函数引用上述三个函数,串联起来就可以了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-5-18 09:29:08 | 显示全部楼层
import requests,re
from lxml import etree
url="https://job.proginn.com/d/5af3107a563d"
headers={'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 11_1_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/87.0.4280.88 Safari/537.36'}
res=requests.get(url,headers=headers)
tree = etree.HTML(res.text)
data = tree.xpath("//div[@id='markIsAppWebview']/div[2]/div[2]/div[2]/span/text()")
print(data)

评分

参与人数 1鱼币 +5 收起 理由
君苏依寂 + 5

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-18 13:12:19 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2021-5-18 13:13:00 | 显示全部楼层
美徒思福 发表于 2021-5-17 21:54
1.url_open构造访问网页的函数,必要时加上header,以及proxy做代理;
2.find_data 打开的网页之后,通过 ...

感谢您的帮助
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-15 20:56

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表