[已解决]爬虫问题

jump_p · 发表于 2020-6-18 14:34:12

您需要登录才可以下载或查看，没有账号？立即注册

x

想要爬这个网站的二级页面，出不来东西

https://kcls.bibliocommons.com/e ... art=2020-06-17%20TO

import requests
from lxml import etree
from fake_useragent import UserAgent
url = "https://kcls.bibliocommons.com/events/event_series?client_scope=events&ids=5eab1dbe9f683f2f002ef1b8%2C5ec71a24d75f424500deeb8f%2C5ebb06c0318ab13a002084eb%2C5ebf2c39171b7a2400152407%2C5ebb07163a6fc12f007e1df8"
headers = {"User-Agent": UserAgent().random}
res = requests.get(url, headers=headers)
html = res.content.decode("utf-8")
parse_html = etree.HTML(html)
parse_html
events_list = parse_html.xpath('//div/h2/a/@href')
for event in events_list:
print(event)

复制代码

最佳答案

admintest166

2020-6-18 16:44:48

import requests
url='https://kcls.bibliocommons.com/events/events/search?'
headers={
'Accept':'application/json, text/javascript, */*; q=0.01'
}
data={
'client_scope': 'events',
'query': 'q=online&start=20',
'facet_fields': 'branch_location_id,types,program,audiences,languages,is_virtual',
'local_start': '2020-06-17 TO',
'include_near_location': 'false'
}
request=requests.get(url,headers=headers,params=data).text
print(request)

复制代码

你试下这个代码是不是你想要的的数据因为我英语不太好也不知道你具体需要哪个数据

admintest166 · 发表于 2020-6-18 16:27:15

我点开你给的URL 数据是通过JSON传到前端的直接抓包拿到JSON地址就行了根本不需要lxml

admintest166 · 发表于 2020-6-18 16:28:41

而且这个网站有请求头反爬爬的时候记得加

jump_p · 发表于 2020-6-18 16:29:24

admintest166 发表于 2020-6-18 16:27
我点开你给的URL 数据是通过JSON传到前端的直接抓包拿到JSON地址就行了根本不需要lxml

不是很懂诶，能加个QQ指导一下吗，感谢。

admintest166 · 发表于 2020-6-18 16:44:48

import requests
url='https://kcls.bibliocommons.com/events/events/search?'
headers={
'Accept':'application/json, text/javascript, */*; q=0.01'
}
data={
'client_scope': 'events',
'query': 'q=online&start=20',
'facet_fields': 'branch_location_id,types,program,audiences,languages,is_virtual',
'local_start': '2020-06-17 TO',
'include_near_location': 'false'
}
request=requests.get(url,headers=headers,params=data).text
print(request)

复制代码

你试下这个代码是不是你想要的的数据因为我英语不太好也不知道你具体需要哪个数据

账号		自动登录	找回密码
密码			立即注册