爬虫问题
想要爬这个网站的二级页面,出不来东西https://kcls.bibliocommons.com/events/search/q=online&local_start=2020-06-17%20TO
import requests
from lxml import etree
from fake_useragent import UserAgent
url = "https://kcls.bibliocommons.com/events/event_series?client_scope=events&ids=5eab1dbe9f683f2f002ef1b8%2C5ec71a24d75f424500deeb8f%2C5ebb06c0318ab13a002084eb%2C5ebf2c39171b7a2400152407%2C5ebb07163a6fc12f007e1df8"
headers = {"User-Agent": UserAgent().random}
res = requests.get(url, headers=headers)
html = res.content.decode("utf-8")
parse_html = etree.HTML(html)
parse_html
events_list = parse_html.xpath('//div/h2/a/@href')
for event in events_list:
print(event) 我点开你给的URL数据是通过JSON传到前端的直接抓包拿到JSON地址 就行了 根本不需要lxml 而且这个网站有请求头反爬 爬的时候记得加 admintest166 发表于 2020-6-18 16:27
我点开你给的URL数据是通过JSON传到前端的直接抓包拿到JSON地址 就行了 根本不需要lxml
不是很懂诶,能加个QQ指导一下吗,感谢。 import requests
url='https://kcls.bibliocommons.com/events/events/search?'
headers={
'Accept':'application/json, text/javascript, */*; q=0.01'
}
data={
'client_scope': 'events',
'query': 'q=online&start=20',
'facet_fields': 'branch_location_id,types,program,audiences,languages,is_virtual',
'local_start': '2020-06-17 TO',
'include_near_location': 'false'
}
request=requests.get(url,headers=headers,params=data).text
print(request)
你试下这个代码 是不是你想要的的数据 因为我英语不太好 也不知道你具体需要哪个数据{:10_245:}{:10_245:}
页:
[1]