鱼C论坛

 找回密码
 立即注册
查看: 736|回复: 4

[已解决]小白求助关于python爬取亚马逊商品

[复制链接]
发表于 2020-3-27 00:26:38 | 显示全部楼层 |阅读模式
5鱼币
本帖最后由 渔夫c 于 2020-3-27 00:28 编辑

跪求各位大佬解答
1.PNG
如上图黄颜色的部分,爬取html_doc网页获得的(soup)源代码与实际的亚马逊页面不同(网址是通过Request URL找到),爬取到的只有20个商品,而原来网址有50个商品,求助该怎么修改??注(注网址:https://www.amazon.com/-/zh/%E9% ... oding=UTF8&pg=1) 2.PNG 此为亚马逊网页 3.PNG 此为我爬取的源代码打开页面
最佳答案
2020-3-27 00:26:39
你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了

最佳答案

查看完整内容

你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-27 00:26:39 | 显示全部楼层    本楼为最佳答案   
你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-3-27 06:42:42 From FishC Mobile | 显示全部楼层
为啥不发代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-27 10:35:09 | 显示全部楼层
本帖最后由 渔夫c 于 2020-3-27 10:47 编辑


第一张图片就是呀
  1. import requests
  2. from bs4 import BeautifulSoup
  3. import re
  4. from urllib.request import urlopen

  5. def download_page(url):
  6.    headers = {"User-Agent":"Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Mobile Safari/537.36"}
  7.    r = requests.get(url,headers=headers)
  8.    r.encoding = r.apparent_encoding
  9.    return r.text

  10. html_doc=download_page(r"https://www.amazon.com/-/zh/%E9%94%80%E5%94%AE%E6%8E%92%E8%A1%8C%E6%A6%9C-Health-Personal-Care-%E7%9D%A1%E7%9C%A0%E7%9C%BC%E7%BD%A9/zgbs/hpc/3764231/ref=zg_bs_pg_1?_encoding=UTF8&pg=1")
  11. soup = BeautifulSoup(html_doc, 'lxml')
  12. print(soup)
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2020-3-27 11:58:33 | 显示全部楼层
flamezyy 发表于 2020-3-27 11:33
你用的是移动端的User-Agent,所以显示的是移动端的页面,换成PC的就行了

感谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-26 14:22

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表