关于小甲鱼老师python爬妹子图那节课

sammyyan · 发表于 2019-8-5 00:19:29

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

1.一开始对于url没加http：，报错ValueError: unknown url type: '//wx4.sinaimg.cn/mw600/006wX7B3gy1g5nzzt4mw1j30ku0hswg1.jpg' ，但后面这个网页明明可以打开
2.后面进行改动：img_addrs.append('http://'+html[a+9:b+4])，但还是报错

求教各位大神！！

ba21 · 发表于 2019-8-5 09:11:24

上代码吧。

chxchxkkk · 发表于 2019-8-5 11:14:16

html是什么内容，这涉及到字符串拼接

sammyyan · 发表于 2019-8-5 15:02:54

import urllib.request
import os
def uirl_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36')
respose = urllib.request.urlopen(req)
html=respose.read()
return html
def getpage(url):
html=uirl_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
return html[a:b]
def find_image(url):
html=uirl_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append('http://'+html[a+9:b+4])
else:
b=a+9
a=html.find('img src=',b)
print(img_addrs)
return img_addrs
def save_image(folder,img_addrs):
for each in img_addrs:
filename=each.split('/')[-1]
with open(filename,'wb') as f:
img=uirl_open(each)
f.write(img)
def download(folder='picture',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/pic'
page_num=int(getpage(url))
for i in range(pages):
page_num-=1
page_url=url+'/'+'page-'+str(page_num)+'#comments'
img_addrs=find_image(page_url)
save_image(folder,img_addrs)
if __name__=='__main__':
download()

复制代码

sammyyan · 发表于 2019-8-5 15:36:01

import urllib.request
import os
def uirl_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36')
respose = urllib.request.urlopen(req)
html=respose.read()
return html
def getpage(url):
html=uirl_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
return html[a:b]
def find_image(url):
html=uirl_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append('http://'+html[a+9:b+4])
else:
b=a+9
a=html.find('img src=',b)
print(img_addrs)
return img_addrs
def save_image(folder,img_addrs):
for each in img_addrs:
filename=each.split('/')[-1]
with open(filename,'wb') as f:
img=uirl_open(each)
f.write(img)
def download(folder='picture',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/pic'
page_num=int(getpage(url))
for i in range(pages):
page_num-=1
page_url=url+'/'+'page-'+str(page_num)+'#comments'
img_addrs=find_image(page_url)
save_image(folder,img_addrs)
if __name__=='__main__':
download()

复制代码

sammyyan · 发表于 2019-8-5 15:36:45

ba21 发表于 2019-8-5 09:11
上代码吧。

import urllib.request
import os
def uirl_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent',
'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36')
respose = urllib.request.urlopen(req)
html=respose.read()
return html
def getpage(url):
html=uirl_open(url).decode('utf-8')
a=html.find('current-comment-page')+23
b=html.find(']',a)
return html[a:b]
def find_image(url):
html=uirl_open(url).decode('utf-8')
img_addrs=[]
a=html.find('img src=')
while a!=-1:
b=html.find('.jpg',a,a+255)
if b!=-1:
img_addrs.append('http://'+html[a+9:b+4])
else:
b=a+9
a=html.find('img src=',b)
print(img_addrs)
return img_addrs
def save_image(folder,img_addrs):
for each in img_addrs:
filename=each.split('/')[-1]
with open(filename,'wb') as f:
img=uirl_open(each)
f.write(img)
def download(folder='picture',pages=10):
os.mkdir(folder)
os.chdir(folder)
url='http://jandan.net/pic'
page_num=int(getpage(url))
for i in range(pages):
page_num-=1
page_url=url+'/'+'page-'+str(page_num)+'#comments'
img_addrs=find_image(page_url)
save_image(folder,img_addrs)
if __name__=='__main__':
download()

复制代码

账号		自动登录	找回密码
密码			立即注册

关于小甲鱼老师python爬妹子图那节课

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块