爬虫问题求助
本帖最后由 三一王 于 2021-1-14 12:47 编辑想要实现一个根据搜索内容爬取对应分类的代码,如下图:
网页地址: www.vandream.com
代码如下:
import urllib.parse
import requests
import json
def url_open(url):
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'}
# response = requests.post(url,headers = headers,data = data)
response = requests.get(url, headers=headers)
html = response.text
print(html)
return html
# url = 'https://www.vandream.com/api/search/product/searchByCategory'
# 下面这个url地址是将关键字转换之后的结果,可以直接访问搜索结果对应的页面
url = 'https://www.vandream.com/search/tNORMAL-c-b1?keyword=%E7%8E%BB%E7%92%83'
url_open(url)
结果与鼠标右键 - 查看网页源代码内容一致,但与右键 - 审查元素结果不一致。
求问,这种情况应该怎么处理 不看浏览器的,看实际get后得到的内容。 源代码才是网页的内容,你想获得的数据是由后端返回 json 格式的数据渲染而来的,并不属于该 url 地址指向的资源。 并不是所有网站数据都是在网页源代码中,现在很多网站都是ajax异步请求的数据,浏览器执行js把数据渲染到网页中,网页源代码是看不到数据,你要爬数据得抓包分析json数据接口。
爬虫要会抓包分析,找到正确数据接口,很基础的东西,如果不会,建议再学学这方面的知识。
页:
[1]