安室透 发表于 2020-4-29 13:27:17

python爬虫网站图片求助

求助各位大佬
在编写爬虫的时候 希望实现爬取网页上的验证码图片地址,在分析的时候可以看到src地址,但在获取的时候显示为空 这是什么原因呢?

网站分析图:
<img id="imagecode" style="position:absolute; top:142px; left:300px;" src="http://51moni-sh.oss-cn-shanghai.aliyuncs.com/yzm1707/o1128.png">

附上代码:
import re
import requests
import os
import bs4

headers = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 "
                  "Safari/537.36 Core/1.70.3704.400 QQBrowser/10.4.3588.400"}


url = "http://www.yunpaiwang.net/paishanghaichepailianxi/"
html = requests.get(url,headers = headers).text
#print(html)

soup=BeautifulSoup(html,"html.parser")

target = soup.find("div", id="imagecodtest")

img_ = soup.find("div", id="imagecodtest").find("img")
print(img_)
img_.get("src")
print(img_.get("src"))
url_list = []
for url in img_:
    url_list.append(img_.get("src"))
print(url_list)


代码显示:
<img id="imagecode" style="position:absolute; top:142px; left:300px;"/>
None
[]

xiangjianshinan 发表于 2020-4-29 18:29:00

我不懂。充当大好佬一下,是否是cookie的问题呢?

Twilight6 发表于 2020-4-29 19:18:58

本帖最后由 Twilight6 于 2020-4-29 19:22 编辑

这应该是被网站的js动态渲染了页面,浏览器可以通过读取js来获取链接,但我们这样单纯抓取页面信息是不行的。我前几天爬迅雷链接就是,链接在js文件中,要提取js内容好像蛮麻烦的,然后我就放弃了

你可以去浏览器F12的Network里面看下js后缀的包,链接应该就在里面

Stubborn 发表于 2020-4-29 19:35:26

爬虫,最基本的就是,需要确定,需要的东西,是否存在网页源码中,右键,查看网页源码,有,静态,没有,则通过其他方式生成的
页: [1]
查看完整版本: python爬虫网站图片求助