爬虫问题,Python交流,编程语言专区,鱼C论坛

jump_p 发表于 2020-6-18 14:34:12

爬虫问题

想要爬这个网站的二级页面，出不来东西

https://kcls.bibliocommons.com/events/search/q=online&local_start=2020-06-17%20TO

import requests
from lxml import etree
from fake_useragent import UserAgent

url = "https://kcls.bibliocommons.com/events/event_series?client_scope=events&ids=5eab1dbe9f683f2f002ef1b8%2C5ec71a24d75f424500deeb8f%2C5ebb06c0318ab13a002084eb%2C5ebf2c39171b7a2400152407%2C5ebb07163a6fc12f007e1df8"
headers = {"User-Agent": UserAgent().random}

res = requests.get(url, headers=headers)
html = res.content.decode("utf-8")
parse_html = etree.HTML(html)
parse_html
events_list = parse_html.xpath('//div/h2/a/@href')
for event in events_list:
print(event)

admintest166 发表于 2020-6-18 16:27:15

我点开你给的URL数据是通过JSON传到前端的直接抓包拿到JSON地址就行了根本不需要lxml

admintest166 发表于 2020-6-18 16:28:41

而且这个网站有请求头反爬爬的时候记得加

jump_p 发表于 2020-6-18 16:29:24

admintest166 发表于 2020-6-18 16:27
我点开你给的URL数据是通过JSON传到前端的直接抓包拿到JSON地址就行了根本不需要lxml

不是很懂诶，能加个QQ指导一下吗，感谢。

admintest166 发表于 2020-6-18 16:44:48

import requests

url='https://kcls.bibliocommons.com/events/events/search?'
headers={

'Accept':'application/json, text/javascript, */*; q=0.01'
}
data={
'client_scope': 'events',
'query': 'q=online&start=20',
'facet_fields': 'branch_location_id,types,program,audiences,languages,is_virtual',
'local_start': '2020-06-17 TO',
'include_near_location': 'false'
}
request=requests.get(url,headers=headers,params=data).text
print(request)

你试下这个代码是不是你想要的的数据因为我英语不太好也不知道你具体需要哪个数据{:10_245:}{:10_245:}

页: [1]

鱼C论坛's Archiver

爬虫问题