小白求助关于python爬取亚马逊商品
本帖最后由 渔夫c 于 2020-3-27 00:28 编辑跪求各位大佬解答{:10_254:}
如上图黄颜色的部分,爬取html_doc网页获得的(soup)源代码与实际的亚马逊页面不同(网址是通过Request URL找到),爬取到的只有20个商品,而原来网址有50个商品,求助该怎么修改??注(注网址:https://www.amazon.com/-/zh/%E9%94%80%E5%94%AE%E6%8E%92%E8%A1%8C%E6%A6%9C-Health-Personal-Care-%E7%9D%A1%E7%9C%A0%E7%9C%BC%E7%BD%A9/zgbs/hpc/3764231/ref=zg_bs_pg_1?_encoding=UTF8&pg=1)此为亚马逊网页此为我爬取的源代码打开页面 你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了 为啥不发代码 本帖最后由 渔夫c 于 2020-3-27 10:47 编辑
wp231957 发表于 2020-3-27 06:42
为啥不发代码
第一张图片就是呀
import requests
from bs4 import BeautifulSoup
import re
from urllib.request import urlopen
def download_page(url):
headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Mobile Safari/537.36"}
r = requests.get(url,headers=headers)
r.encoding = r.apparent_encoding
return r.text
html_doc=download_page(r"https://www.amazon.com/-/zh/%E9%94%80%E5%94%AE%E6%8E%92%E8%A1%8C%E6%A6%9C-Health-Personal-Care-%E7%9D%A1%E7%9C%A0%E7%9C%BC%E7%BD%A9/zgbs/hpc/3764231/ref=zg_bs_pg_1?_encoding=UTF8&pg=1")
soup = BeautifulSoup(html_doc, 'lxml')
print(soup)
flamezyy 发表于 2020-3-27 11:33
你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了
感谢
页:
[1]