渔夫c 发表于 2020-3-27 00:26:38

小白求助关于python爬取亚马逊商品

本帖最后由 渔夫c 于 2020-3-27 00:28 编辑

跪求各位大佬解答{:10_254:}

如上图黄颜色的部分,爬取html_doc网页获得的(soup)源代码与实际的亚马逊页面不同(网址是通过Request URL找到),爬取到的只有20个商品,而原来网址有50个商品,求助该怎么修改??注(注网址:https://www.amazon.com/-/zh/%E9%94%80%E5%94%AE%E6%8E%92%E8%A1%8C%E6%A6%9C-Health-Personal-Care-%E7%9D%A1%E7%9C%A0%E7%9C%BC%E7%BD%A9/zgbs/hpc/3764231/ref=zg_bs_pg_1?_encoding=UTF8&pg=1)此为亚马逊网页此为我爬取的源代码打开页面

flamezyy 发表于 2020-3-27 00:26:39

你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了

wp231957 发表于 2020-3-27 06:42:42

为啥不发代码

渔夫c 发表于 2020-3-27 10:35:09

本帖最后由 渔夫c 于 2020-3-27 10:47 编辑

wp231957 发表于 2020-3-27 06:42
为啥不发代码

第一张图片就是呀
import requests
from bs4 import BeautifulSoup
import re
from urllib.request import urlopen

def download_page(url):
   headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Mobile Safari/537.36"}
   r = requests.get(url,headers=headers)
   r.encoding = r.apparent_encoding
   return r.text

html_doc=download_page(r"https://www.amazon.com/-/zh/%E9%94%80%E5%94%AE%E6%8E%92%E8%A1%8C%E6%A6%9C-Health-Personal-Care-%E7%9D%A1%E7%9C%A0%E7%9C%BC%E7%BD%A9/zgbs/hpc/3764231/ref=zg_bs_pg_1?_encoding=UTF8&pg=1")
soup = BeautifulSoup(html_doc, 'lxml')
print(soup)

渔夫c 发表于 2020-3-27 11:58:33

flamezyy 发表于 2020-3-27 11:33
你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了

感谢
页: [1]
查看完整版本: 小白求助关于python爬取亚马逊商品