新手写的妹纸爬虫,轻喷.

冷稀饭 · 发表于 2019-2-23 05:06:14

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

需要安装 EASYGUI .
安装方法:https://fishc.com.cn/forum.php?m ... peid%26typeid%3D403

成功展示:

冷稀饭 · 发表于 2019-2-23 05:17:02

import urllib.request
import urllib.error
import chardet
import re
import easygui as g
def get_response_r(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
try:
response = urllib.request.urlopen(req)
except HTTPError as e:
print('The serve couldn\'t fulfill the request.')
print('Error code: ',e.code)
except URLError as e:
print('We failed to reach a server')
print('Reason: ',e.reason)
response_r = response.read()
return response_r
def get_code(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36')
try:
response = urllib.request.urlopen(req)
except HTTPError as e:
print('The serve couldn\'t fulfill the request.')
print('Error code: ',e.code)
except URLError as e:
print('We failed to reach a server')
print('Reason: ',e.reason)
response_r = response.read()
encode = chardet.detect(response_r)['encoding']
return encode
def get_page(url):
html = get_response_r(url).decode(get_code(url),'ignore')
page = re.findall(r'page-numbers current\'>(.+)</span>',html)[0]
return page
def find_imgs(page):
url = 'https://www.mzitu.com/zipai/comment-page-%s/#comments'%page
imgs_list = []
html = get_response_r(url).decode(get_code(url),'ignore')
imgs_list = re.findall(r'data-original="([^"]+\.jpg)',html)
return imgs_list
def main():
url = 'https://www.mzitu.com/zipai/'
page = int(get_page(url))
#print('该网页获得的页码为%s\n'%page)
page = g.integerbox(msg='该网页有妹纸%s页，你想从第几页开始看！！！'%page, title=' ', default=None, lowerbound=0, upperbound=page, image=None, root=None)
page_num = g.integerbox(msg='你目前在%s页，你要看几页！！！'%page, title=' ', default=None, lowerbound=0, upperbound=page, image=None, root=None)
file_adress = g.diropenbox(msg='请选择存储路径', title=None, default=None)
for i in range(page_num):
if page > 0:
print('\n当前正在获取第%s页的图片\n'%page)
imgs_list = find_imgs(page)
for each_imgs in imgs_list:
imgs_name = '\\'.join([file_adress,each_imgs.split('/')[-1]])
print(imgs_name)
urllib.request.urlretrieve(each_imgs,imgs_name)
else:
print('没有更多的妹纸了!!!')
break
page -=1
if __name__=='__main__':
main()

复制代码

账号		自动登录	找回密码
密码			立即注册

[作品展示] 新手写的妹纸爬虫,轻喷.

马上注册，结交更多好友，享用更多功能^_^