|

楼主 |
发表于 2021-11-21 18:56:01
|
显示全部楼层
本帖最后由 sayangrtg 于 2021-11-21 18:58 编辑
你好,我想编辑我的主题然后发现它消失了, 只能 这样回复你。
求教各位大神,小弟在尝试飞利浦照明的网站https://www.philips-hue.com/zh-cn/products/all-products
read html后似乎只是返回这个网站上半部分的内容。 而下面各个产品的名字似乎完全不在返回的内容里。这是怎么回事呢?
代码也就是普通的提取网页HTML如下。
import requests
from bs4 import BeautifulSoup as soup
url = 'https://www.philips-hue.com/zh-cn/products/all-products'
header = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64)\
AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.54 Safari/537.36',
'referer':'https://www.philips-hue.com/zh-cn/'}
r = requests.get(url,headers = header)
page_html = r.content
page_soup = soup(page_html,'html.parser')
然后用beautifulsoup尝试各种attribute都找不到图中各产品信息,用html viewer 才发现返回的似乎只是网站上各个目录的链接,并没有底下的产品名字及其链接。
我的目的就是类似于爬妹子图一样,先爬取所有产品的URL,然后再依次进入该URL来爬取对应的产品详细信息。但所有产品的URL在返回的HTML内容里找不到。
求解。。。? |
-
想要找的产品信息
-
HTML VIEWER 发现返回的只是各种目录的链接
|