为什么图片没下载下来，也没报错

923204485 · 发表于 2018-10-19 10:03:53

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import os
def get_url(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
req = urllib.request.Request(url,headers=headers)
response = urllib.request.urlopen(req)
html = response.read()
return html
def url_img(url):
img_addrs = []
html = get_url(url).decode('utf-8')
a = html.find('img src=')
while a != -1:
b = html.find('.jpg', a, a + 255)
if b != -1:
img_addrs.append(html[a:b] + '.jpg')
else:
print('找不到图片地址')
a = html.find('img src',b)
return img_addrs
#print(url_img(url)) #获取列表内页面第一页所有图片地址
#print(len(url_img(url))) #列表内有多少图片
def save_imgs(folder,url_img):
for each in url_img:
img_url = each.split('"')[1]
with open(img_url,'wb') as f:
img = get_url(each)
f.write(img)
def download_mm(folder='katong',pages=10):
os.mkdir(folder)
os.chdir(folder)
url = 'http://sc.chinaz.com/tupian/katongtupian_2.html'
for i in range(1,pages):
i += 1
get_img = 'http://sc.chinaz.com/tupian/katongtupian' + '_' + str(i) + '.html'
img_addrs = url_img(get_img)
save_imgs(folder,img_addrs)
if __name__ == '__main__':
download_mm()

复制代码

923204485 · 发表于 2018-10-19 10:04:40

第一次写爬虫，不知道为啥没爬到文件里，求大佬只招

塔利班 · 发表于 2018-10-19 10:12:51

你审查元素了么，里面不是img src=这种模式，不能直接用小甲鱼爬妹子图的代码

923204485 · 发表于 2018-10-19 10:15:23

塔利班发表于 2018-10-19 10:12
你审查元素了么，里面不是img src=这种模式，不能直接用小甲鱼爬妹子图的代码

是那种模式

923204485 · 发表于 2018-10-19 10:15:55

http://sc.chinaz.com/tupian/katongtupian_2.html
我趴的是这个网页

塔利班 · 发表于 2018-10-19 10:18:10

就是你这个网页

923204485 · 发表于 2018-10-19 10:19:38

塔利班发表于 2018-10-19 10:18
就是你这个网页

怎么你的跟我的不一样啊，我的是正常网址

923204485 · 发表于 2018-10-19 10:20:28

塔利班发表于 2018-10-19 10:18
就是你这个网页

923204485 · 发表于 2018-10-19 10:21:07

塔利班发表于 2018-10-19 10:18
就是你这个网页

呀，看错了，不好意思

923204485 · 发表于 2018-10-19 10:22:30

塔利班发表于 2018-10-19 10:18
就是你这个网页

都是一样的撒，什么问题大佬。是不是我没解析网页？

塔利班 · 发表于 2018-10-19 10:27:18

实际上用requests打印，代码和网页还不一样，是src2=
建议你换个网站，或者往后学学

923204485 · 发表于 2018-10-19 10:32:40

塔利班发表于 2018-10-19 10:27
实际上用requests打印，代码和网页还不一样，是src2=
建议你换个网站，或者往后学学

我用decode('utf-8')解码了，在pacharm上没搜不到img src=
不解码就能搜到了

塔利班 · 发表于 2018-10-19 10:51:09

import requests
import os
from bs4 import BeautifulSoup as bs
def get_url(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
}
res=requests.get(url,headers=headers)
return res
def url_img(url):
img_addrs = []
soup=bs(get_url(url).text,'html.parser')
for each in soup.find_all(name='img'):
img_addrs.append(each['src2'])
return img_addrs
def save_imgs(folder,url_img):
for each in url_img:
img=each.split('/')[-1]
try:
with open(img,'wb') as f:
im = get_url(each).content
f.write(im)
except:
print('一张假图')
def download_mm(folder='katong',pages=5):
os.mkdir(folder)
os.chdir(folder)
for i in range(1,pages):
i += 1
get_img = 'http://sc.chinaz.com/tupian/katongtupian' + '_' + str(i) + '.html'
img_addrs = url_img(get_img)
save_imgs(folder,img_addrs)
if __name__ == '__main__':
download_mm()

复制代码

923204485 · 发表于 2018-10-19 10:56:53

塔利班发表于 2018-10-19 10:51

可以的兄弟，但是看不懂这个from bs4 import BeautifulSoup as bs模块咋用的

塔利班 · 发表于 2018-10-19 10:58:09

你学到极客系列就知道了，
刚学request建议爬点百度贴吧什么的练练手

923204485 · 发表于 2018-10-19 11:02:01

塔利班发表于 2018-10-19 10:58
你学到极客系列就知道了，
刚学request建议爬点百度贴吧什么的练练手

百度贴吧？爬文字？

塔利班 · 发表于 2018-10-19 11:07:21

923204485 发表于 2018-10-19 11:02
百度贴吧？爬文字？

你爬图片文字都行，不过也不一定都是可以爬的，先试几个，能爬了，建议就可以直接跳过tkinter和pygame先去把小甲鱼极客的爬虫看了，回头再看tkinter和pygame

账号		自动登录	找回密码
密码			立即注册