[已解决]小白求助关于python爬取亚马逊商品

渔夫c · 发表于 2020-3-27 00:26:38

本帖最后由渔夫c 于 2020-3-27 00:28 编辑

跪求各位大佬解答

如上图黄颜色的部分，爬取html_doc网页获得的(soup)源代码与实际的亚马逊页面不同（网址是通过Request URL找到），爬取到的只有20个商品，而原来网址有50个商品，求助该怎么修改？？注(注网址:https://www.amazon.com/-/zh/%E9% ... oding=UTF8&pg=1)

此为亚马逊网页

此为我爬取的源代码打开页面

最佳答案

月排行榜 / 总排行榜

flamezyy

2020-3-27 00:26:39

你用的是移动端的User-Agent，所以显示的是移动端的页面，换成PC的就行了

跳转到最佳答案楼层

flamezyy · 发表于 2020-3-27 00:26:39

这个最佳答案由 flamezyy 给出，感谢 flamezyy 的回答。

单击隐藏图章

你用的是移动端的User-Agent，所以显示的是移动端的页面，换成PC的就行了

wp231957 · 发表于 2020-3-27 06:42:42

为啥不发代码

渔夫c · 发表于 2020-3-27 10:35:09

本帖最后由渔夫c 于 2020-3-27 10:47 编辑

wp231957 发表于 2020-3-27 06:42
为啥不发代码

第一张图片就是呀

import requests
from bs4 import BeautifulSoup
import re
from urllib.request import urlopen
def download_page(url):
headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Mobile Safari/537.36"}
r = requests.get(url,headers=headers)
r.encoding = r.apparent_encoding
return r.text
html_doc=download_page(r"https://www.amazon.com/-/zh/%E9%94%80%E5%94%AE%E6%8E%92%E8%A1%8C%E6%A6%9C-Health-Personal-Care-%E7%9D%A1%E7%9C%A0%E7%9C%BC%E7%BD%A9/zgbs/hpc/3764231/ref=zg_bs_pg_1?_encoding=UTF8&pg=1")
soup = BeautifulSoup(html_doc, 'lxml')
print(soup)

复制代码

渔夫c · 发表于 2020-3-27 11:58:33

flamezyy 发表于 2020-3-27 11:33
你用的是移动端的User-Agent，所以显示的是移动端的页面，换成PC的就行了

感谢

账号		自动登录	找回密码
密码			立即注册

[已解决]小白求助关于python爬取亚马逊商品

最佳答案

浏览过的版块