爬虫问题求助

三一王 · 发表于 2021-1-14 12:44:51

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由三一王于 2021-1-14 12:47 编辑

想要实现一个根据搜索内容爬取对应分类的代码，如下图：

网页地址： www.vandream.com
代码如下：

import urllib.parse
import requests
import json
def url_open(url):
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.122 Safari/537.36'}
# response = requests.post(url,headers = headers,data = data)
response = requests.get(url, headers=headers)
html = response.text
print(html)
return html
# url = 'https://www.vandream.com/api/search/product/searchByCategory'
# 下面这个url地址是将关键字转换之后的结果，可以直接访问搜索结果对应的页面
url = 'https://www.vandream.com/search/tNORMAL-c-b1?keyword=%E7%8E%BB%E7%92%83'
url_open(url)

复制代码

结果与鼠标右键 - 查看网页源代码内容一致，但与右键 - 审查元素结果不一致。
求问，这种情况应该怎么处理

suchocolate · 发表于 2021-1-14 12:59:35

不看浏览器的，看实际get后得到的内容。

°蓝鲤歌蓝 · 发表于 2021-1-14 15:03:58

源代码才是网页的内容，你想获得的数据是由后端返回 json 格式的数据渲染而来的，并不属于该 url 地址指向的资源。

YunGuo · 发表于 2021-1-14 20:03:03

并不是所有网站数据都是在网页源代码中，现在很多网站都是ajax异步请求的数据，浏览器执行js把数据渲染到网页中，网页源代码是看不到数据，你要爬数据得抓包分析json数据接口。
爬虫要会抓包分析，找到正确数据接口，很基础的东西，如果不会，建议再学学这方面的知识。

账号		自动登录	找回密码
密码			立即注册