boss直聘爬虫页面不断刷新，数据无法读取,Python交流,编程语言专区,鱼C论坛

熊猫竹子 发表于 2022-11-29 11:27:59

boss直聘爬虫页面不断刷新，数据无法读取

想要通过playwright模块对boss直聘进行爬虫
目前的问题：
1.在跑代码，登录boss直聘的时候，登录后的主页面一直刷新，以前在用八爪鱼爬boss的时候也是这样，爬到一半，在某一个页面一直刷新，这有办法解决嘛？
2.下面的代码是从我已经写好的智联招聘的爬虫代码copy，修改过来的，但是在boss直聘上跑的时候却读取不了任何数据，这是为什么啊？
import time
from playwright.sync_api import sync_playwright
import playwright
from bs4 import BeautifulSoup
import json
import openpyxl
def spiders():
# #获取cookie
# browser = playwright.chromium.launch(headless=False)
# context = browser.new_context()
# page = context.new_page()
# page.goto('https://login.zhipin.com/?ka=header-login')
# page.get_by_role("link", name="验证码登录").click()
# page.get_by_role("textbox", name="手机号").fill("15521292132")
# time.sleep(50)
# #保存cookies
# cookies = context.cookies()
# with open('boss直聘cookies.json', 'w') as c:
#       c.write(json.dumps(cookies))
# context.close()
# browser.close()
# #重新打开浏览器
# #加载cookies

with open('boss直聘cookies.json', 'r') as r:
   load_cookies = json.loads(r.read())
browser = playwright.chromium.launch(headless=False)
context = browser.new_context()
context.add_cookies(load_cookies)
page1 = context.new_page()
page2 = context.new_page()
page1.goto('https://www.zhipin.com/web/geek/job?query=VR&city=101240100&page=1')
time.sleep(5)
#翻页
data = []
for page_num in range(1,2):
   page1.goto(f'https://www.zhipin.com/web/geek/job?query=VR&city=101240100&page={page_num}')
#提取数据,获取列表
   job_list = BeautifulSoup(page1.content(), "html.parser")
   time.sleep(5)
   for i in job_list.find_all('ul', attrs={'class':'job-list-box'}):
         job_name = i.find('span', attrs={'class':'job-name'}).text
         job_area = i.find('span', attrs={'class':'class="job-area'}).text
         job_comp = i.find('span', attrs={'ka':"search_list_company_1_custompage"}).text
         job_salary = i.find('span', attrs={'class':'salary'}).text
         detail_page = i.find('a').attrs['href']
         # # 提取详情页信息
         # page2.goto(url=detail_page)
         # time.sleep(1)
         # detail_content = BeautifulSoup(page2.content(), "html.parser")
         # detail = detail_content.find('div', attrs={'class': 'describtion'}).text
         data.append()
         print(job_name, job_area,job_comp, job_salary, detail_page, )

#储存数据
book = openpyxl.load_workbook('boss直聘.xlsx')
sheet = book['boss']
for row in data:
   sheet.append(row)
print('写入数据条数：',len(data))
book.save('boss直聘.xlsx')

with sync_playwright() as playwright:
spiders()

cflying 发表于 2022-11-29 13:06:23

playwright不是可以有界面的嘛，看界面是卡在哪个页面嘛

熊猫竹子 发表于 2022-11-29 13:25:27

cflying 发表于 2022-11-29 13:06
playwright不是可以有界面的嘛，看界面是卡在哪个页面嘛

对于问题1：一般是登陆后，在boss直聘的主页一直刷新，但刷新几次后就听了，所以我用time.sleep给他个加载时间，但我不知道出现这个问题的原因是什么
问题2：整个程序是可以跑的，但是读取不了文本

cflying 发表于 2022-11-29 17:14:08

本帖最后由 cflying 于 2022-11-29 18:51 编辑

page1.goto(f'https://www.zhipin.com/web/geek/job?query=VR&city=101240100&page={}'.format(page_num))

看了眼，刷新应该是网站的安全验证，
至于为啥没数据，那是因为页面还没加载出来你就下一步了，要么设置sleep等几秒，要么等待某个元素出来后再下一步，LZ再研究研究

对了，最后记得加close

最后，遇到问题要想程序运行的逻辑，然后一步一步找原因，就像这个一样，如果是刷新，至少应该打开界面看看人家刷新了啥地址吧，爬不到数据至少返回去让代码返回一个响应页面源码看看呗，要是源码里都没内容，那还爬个啥

熊猫竹子 发表于 2022-11-30 11:40:31

cflying 发表于 2022-11-29 17:14
看了眼，刷新应该是网站的安全验证，
至于为啥没数据，那是因为页面还没加载出来你就下一步了，要么设 ...

我上网查了反扒机制，刷新时因为boss直聘的cookie回动态更新{:10_284:}，这些直接把我整不会了

cflying 发表于 2022-11-30 11:45:50

熊猫竹子发表于 2022-11-30 11:40
我上网查了反扒机制，刷新时因为boss直聘的cookie回动态更新，这些直接把我整不会了

又没啥影响，最后一刻的页面是准确就行，多等几秒就行了呗

熊猫竹子 发表于 2022-11-30 13:24:56

cflying 发表于 2022-11-30 11:45
又没啥影响，最后一刻的页面是准确就行，多等几秒就行了呗

但是他刷新次数多了会出错{:10_284:}，而且感觉和等待时间没有关系
playwright._impl._api_types.Error: Unable to retrieve content because the page is navigating and changing the content.

cflying 发表于 2022-11-30 21:07:54

熊猫竹子发表于 2022-11-30 13:24
但是他刷新次数多了会出错，而且感觉和等待时间没有关系
playwright._impl._api_types.Error: ...

我刚才试了哈，那个反复刷新的就是网站的反爬检测，问题不大，换个IP就好了，问题不大，最终刷新后的页面是OK的

熊猫竹子 发表于 2022-12-1 10:08:53

cflying 发表于 2022-11-30 21:07
我刚才试了哈，那个反复刷新的就是网站的反爬检测，问题不大，换个IP就好了，问题不大，最终刷新后的页面 ...

谢谢大佬！

cflying 发表于 2022-12-1 16:50:47

本帖最后由 cflying 于 2022-12-1 19:06 编辑

熊猫竹子发表于 2022-12-1 10:08
谢谢大佬！

不好意思，这两天忙没看这个，刚才看到你信息，我又回去看了哈，确实会出错，就是网站反爬，不过好处理，你给代码里加一段注释就行args就是browser = playwright.chromium.launch(headless=False,channel='msedge',args=["--enable-automation=true","--disable-blink-features=AutomationControlled"])

熊猫竹子 发表于 2022-12-6 17:34:14

cflying 发表于 2022-12-1 16:50
不好意思，这两天忙没看这个，刚才看到你信息，我又回去看了哈，确实会出错，就是网站反爬，不过好处理 ...

这串代码可以用在任何的一个招聘网站上吗？（比如说智联）

cflying 发表于 2022-12-6 17:54:10

熊猫竹子发表于 2022-12-6 17:34
这串代码可以用在任何的一个招聘网站上吗？（比如说智联）

可以呀，但是智联本身没检测这个，所以加不加无所谓

猪猪以都都 发表于 2022-12-6 23:18:35

qwq

页: [1]

鱼C论坛's Archiver

boss直聘爬虫页面不断刷新，数据无法读取