[已解决]关于Python爬取妹子图问题

wongyusing · 发表于 2017-11-25 21:33:11

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 wongyusing 于 2017-11-26 17:36 编辑

初步代码如下:

import re
import urllib
import os
import requests
def url_open(url): # 网页打开函数，以防被禁
headers = {
'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"}
req = requests.get(url, headers=headers)
req.encoding = 'utf-8'
return req.text
def get_folder(url):#文件夹名称
ret = url_open(url)
reg = r'<a href="/.*?/">(.*?)</a>'
folder_name = re.findall(reg,ret)
return folder_name
def get_folder_url(url):#类型的url后缀
ret = url_open(url)
reg = r'<a href="/(.*?)/">.*?</a>'
folder_url = re.findall(reg, ret)
return folder_url
def mmp_down():#主函数
url = 'http://www.2meinv.com/'
folder_url = get_folder_url(url) #获取分类的url后缀
for i in folder_url:
folder_url_a = url + i #拼接分类的url
print(folder_url_a)
if __name__ == "__main__":
mmp_down()

复制代码

该爬虫目标是要爬取全站的妹子图,并且按照分类下载到4个文件夹中,再按妹子名再保存到一个文件夹中,但在分类上遇到了一些问题;
问题主要是当点开分类的第一页,url没有后缀,第二页开始有后缀.
当点开妹子图时,第一页也是没有后缀,第二页是会有后缀的.
如果强行把后缀改为1后,会出现错误的网站.
我是该先从获得分类第一页开始下载妹子图,还是遍历分类所有的后缀收集成一个列表后再加上第一页的url再进行下载妹子图呢?

现在问题变成了无法获取妹子图片集的页码了,浏览器能看到,但Python看不到

最佳答案

月排行榜 / 总排行榜

$DIM

2017-11-26 14:00:31

import requests
import os
import re

def request_url(url):
mock_header = {
      'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 \
      (KHTML, like Gecko) Ubuntu Chromium/62.0.3202.94 Chrome/62.0.3202.94 Safari/537.36'}
resp = requests.get(url, headers=mock_header)
resp.encoding = 'utf-8'
return resp.text

def get_dir(url):
# request
resp = request_url(url)
resp_reg = r'<a href="(/.*?/)">(.*?)</a>'
resp_result = re.findall(resp_reg, resp)
return resp_result

def get_dir_pic(base_url, path):
# request
resp = request_url(base_url + path)
# <img src="http://20170901.sina678.com/uploads/170930/1506739524-VNHZB.jpg" width="636" alt="极品诱惑丰乳肥臀美女邝凯欣性感撩人" />
resp_reg_node = r'<img src="(http://.*?)".*?alt="(.*?)" />'
# resp_reg = r'<img src="(http://.*?)" width="\d+" alt="(.*?)" />'
resp_result = re.findall(resp_reg_node, resp)

# <a href="/siwameitui/index_54.html" target="_self">54</a>
# <a href="/siwameitui/index_2.html" target="_self">2</a>
if str(path).endswith('/'):
      resp_reg_last_page = r'<a href="' + path + 'index_\d+\.html" target="_self">(\d+)</a>'
      resp_page = re.findall(resp_reg_last_page, resp)
      return resp_result, resp_page[len(resp_page) - 1]

return resp_result

def download_pic(save_dir, pic_tuple):
for pic in pic_tuple:
      try:
         resp = requests.get(pic[0])
      except BaseException:
         continue

      pic_path = os.path.join(save_dir, pic[1] + str(pic[0])[str(pic[0]).rindex('.'):])
      if not os.path.exists(pic_path):
         os.mknod(pic_path)
      with open(pic_path, 'wb') as f:
         f.write(resp.content)

def down_all_pic():
url = 'http://www.2meinv.com'
dirs = get_dir(url)
for path, dir_name in dirs:
      # create dir
      save_dir = os.path.join(os.getcwd(), '2mienv', dir_name)
      if not os.path.exists(save_dir):
         os.makedirs(save_dir)
      resp_first_totalPage = get_dir_pic(url, path)
      download_pic(save_dir, resp_first_totalPage[0])
      for page in range(int(resp_first_totalPage[1])):
         download_pic(save_dir, get_dir_pic(url, path + 'index_' + str(int(page) + 2) + '.html'))

if __name__ == '__main__':
down_all_pic()

跳转到最佳答案楼层

32269100 · 发表于 2017-11-26 10:23:56

我觉得你问的这个不是什么问题，只是你该如何取舍的事情，你完全可以自己想清楚之后去做

$DIM · 发表于 2017-11-26 14:00:31

import requests
import os
import re

def request_url(url):
mock_header = {
      'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 \
      (KHTML, like Gecko) Ubuntu Chromium/62.0.3202.94 Chrome/62.0.3202.94 Safari/537.36'}
resp = requests.get(url, headers=mock_header)
resp.encoding = 'utf-8'
return resp.text

def get_dir(url):
# request
resp = request_url(url)
resp_reg = r'<a href="(/.*?/)">(.*?)</a>'
resp_result = re.findall(resp_reg, resp)
return resp_result

def get_dir_pic(base_url, path):
# request
resp = request_url(base_url + path)
# <img src="http://20170901.sina678.com/uploads/170930/1506739524-VNHZB.jpg" width="636" alt="极品诱惑丰乳肥臀美女邝凯欣性感撩人" />
resp_reg_node = r'<img src="(http://.*?)".*?alt="(.*?)" />'
# resp_reg = r'<img src="(http://.*?)" width="\d+" alt="(.*?)" />'
resp_result = re.findall(resp_reg_node, resp)

# <a href="/siwameitui/index_54.html" target="_self">54</a>
# <a href="/siwameitui/index_2.html" target="_self">2</a>
if str(path).endswith('/'):
      resp_reg_last_page = r'<a href="' + path + 'index_\d+\.html" target="_self">(\d+)</a>'
      resp_page = re.findall(resp_reg_last_page, resp)
      return resp_result, resp_page[len(resp_page) - 1]

return resp_result

def download_pic(save_dir, pic_tuple):
for pic in pic_tuple:
      try:
         resp = requests.get(pic[0])
      except BaseException:
         continue

      pic_path = os.path.join(save_dir, pic[1] + str(pic[0])[str(pic[0]).rindex('.'):])
      if not os.path.exists(pic_path):
         os.mknod(pic_path)
      with open(pic_path, 'wb') as f:
         f.write(resp.content)

def down_all_pic():
url = 'http://www.2meinv.com'
dirs = get_dir(url)
for path, dir_name in dirs:
      # create dir
      save_dir = os.path.join(os.getcwd(), '2mienv', dir_name)
      if not os.path.exists(save_dir):
         os.makedirs(save_dir)
      resp_first_totalPage = get_dir_pic(url, path)
      download_pic(save_dir, resp_first_totalPage[0])
      for page in range(int(resp_first_totalPage[1])):
         download_pic(save_dir, get_dir_pic(url, path + 'index_' + str(int(page) + 2) + '.html'))

if __name__ == '__main__':
down_all_pic()

wongyusing · 发表于 2017-11-26 17:30:49

$DIM 发表于 2017-11-26 14:00
import requests
import os
import re

大哥,代码要放进代码哪里写的,就编辑的<>按钮里面,不然版主会提醒你的,还有代码要尽量加点注释像这个样子.
如下:

import requests
import os
import re
def request_url(url):#网页打开函数
mock_header = {
'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 \
(KHTML, like Gecko) Ubuntu Chromium/62.0.3202.94 Chrome/62.0.3202.94 Safari/537.36'}
resp = requests.get(url, headers=mock_header)
resp.encoding = 'utf-8'
return resp.text
def get_dir(url):#获取分类的名称和后缀
# request
resp = request_url(url)
resp_reg = r'<a href="(/.*?/)">(.*?)</a>'
resp_result = re.findall(resp_reg, resp)
return resp_result
def get_dir_pic(base_url, path):#获取图片的地址
# request
resp = request_url(base_url + path)#获取分类页码
# <img src="http://20170901.sina678.com/uploads/170930/1506739524-VNHZB.jpg" width="636" alt="极品诱惑丰乳肥臀美女邝凯欣性感撩人" />
resp_reg_node = r'<img src="(http://.*?)".*?alt="(.*?)" />'
# resp_reg = r'<img src="(http://.*?)" width="\d+" alt="(.*?)" />'
resp_result = re.findall(resp_reg_node, resp)
# <a href="/siwameitui/index_54.html" target="_self">54</a>
# <a href="/siwameitui/index_2.html" target="_self">2</a>
if str(path).endswith('/'):
resp_reg_last_page = r'<a href="' + path + 'index_\d+\.html" target="_self">(\d+)</a>'
resp_page = re.findall(resp_reg_last_page, resp)
return resp_result, resp_page[len(resp_page) - 1]
return resp_result
def download_pic(save_dir, pic_tuple):#保存图片函数
for pic in pic_tuple:
try:
resp = requests.get(pic[0])
except BaseException:
continue
pic_path = os.path.join(save_dir, pic[1] + str(pic[0])[str(pic[0]).rindex('.'):])
if not os.path.exists(pic_path):
os.mknod(pic_path)
with open(pic_path, 'wb') as f:
f.write(resp.content)
def down_all_pic():#主函数
url = 'http://www.2meinv.com'
dirs = get_dir(url)#获取分类后缀和名称
for path, dir_name in dirs:
# create dir
save_dir = os.path.join(os.getcwd(), '2mienv', dir_name)#在"2mienv"文件夹中创建分类文件夹
if not os.path.exists(save_dir):#如果文件夹存在则切换到该文件夹
os.makedirs(save_dir)
resp_first_totalPage = get_dir_pic(url, path)#拼接分类页码
download_pic(save_dir, resp_first_totalPage[0])
for page in range(int(resp_first_totalPage[1])):#根据分类页码遍历分类中所有图片
download_pic(save_dir, get_dir_pic(url, path + 'index_' + str(int(page) + 2) + '.html'))
if __name__ == '__main__':
down_all_pic()

复制代码

其实我的目标是要进入到图片集里面.
0.是先分四个类别创建各自的文件夹
1.然后按照标题各自创建一个文件夹
2.最后把该妹子图片都保存标题的文件夹中

最后麻烦你帮我看一下我的代码,就差获取'图片集'中的页码问题了,在浏览器中能看到需要正则的地方,但是在Python中需要正则的地方就找不到.
代码在楼下

wongyusing · 发表于 2017-11-26 17:31:57

本帖最后由 wongyusing 于 2017-11-26 17:34 编辑

问题都在代码里,
代码如下:

import re
import urllib
import os
import requests
#目标爬取全站的妹子图片,并按照分类分别创建4个文件夹,然后按照妹子'标题'创建文件夹,最后按照该标题下载图片,一个妹子大概有40页.
def url_open(url): # 网页打开函数，以防被禁
headers = {
'User-Agent': "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.75 Safari/537.36"}
req = requests.get(url, headers=headers)
req.encoding = 'utf-8'
return req.text
def get_folder(url):#文件夹名称
ret = url_open(url)
reg = r'<a href="/.*?/">(.*?)</a>'
folder_name = re.findall(reg,ret)
return folder_name
def get_folder_url(url):#类型的url后缀
ret = url_open(url)
reg = r'<a href="/(.*?)/">.*?</a>'
folder_url = re.findall(reg, ret)
return folder_url
def get_page_num(folder_url_a):#获取分类的页码数
ret = url_open(folder_url_a)
reg = r'<a href="/.*?/index_(.*?).html" target="_self">.*?</a>'
page_max = re.findall(reg,ret)
return page_max[-1]
def get_img_url(page_url):#获取图片首页url后缀列表
ret = url_open(page_url)
reg = r'<a href="/(.*?)" target="_blank"><img'
img_url = re.findall(reg,ret)
return img_url
def get_img_page(img_add_url):#获取图片集页码
ret = url_open(img_add_url) #问题出在这个函数里的正则
#reg = r'<a href="?url=.*?" class="all">...(.*?)</a>'#该正则表达式浏览器上能看到
#html = re.findall(reg,ret,re.S) #但在Python中看不到
print(ret)#通过打印发现没有需要正则的地方,但在浏览器却能看到
#return html
def save_tu(img_url_ok):#保存图片函数
pass
def mmp_down():#主函数
url = 'http://www.2meinv.com/'
folder_url = get_folder_url(url) #获取分类的url后缀
for i in folder_url:
folder_url_a = url + i #拼接分类的url
#print(folder_url_a)
page_num = get_page_num(folder_url_a)#获取各分类的页码
for a in range(2,int(page_num)+1):
page_url = folder_url_a + '/index_' + str(a) +'.html'
#print(page_url)
img_url = get_img_url(page_url) #获取图片首页url后缀列表
#print(img_url)
for b in img_url:
img_add_url = url + b#拼接图片url首页
print(img_add_url)
img_page = get_img_page(img_add_url)#获取'图片集'页码#问题出在这里,上面函数部分有问题讲解
print(img_page)
#for c in range(2,int(img_page)+1):
#img_url_ok = img_add_url + '?url=' + str(c)
#print(img_url_ok)
#save_img = save_tu(img_url_ok)
if __name__ == "__main__":
mmp_down()

复制代码

账号		自动登录	找回密码
密码			立即注册