[已解决]正则表达式爬煎蛋网妹子图

夜深听雨 · 发表于 2017-9-3 23:06:27

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由夜深听雨于 2017-9-7 10:15 编辑

学了正则表达式之后想自己试着把小甲鱼老师以前爬煎蛋网妹子图的程序换为使用正则表达式的，但是感觉自己写的正则表达式有问题匹配不到想要匹配到的图片网址和page number，另外page number出现了不能被int的情况，请问应该怎么修改？谢谢。

import urllib.request
import os
import re
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.115 Safari/537.36')
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_page(url):
html = url_open(url).decode('utf-8')
p = r'<spanclass ="current-comment-page">[(\d\d)]</span>' #这里应该有错
html = re.findall(p,html)
return html
def find_image(url):
html = url_open(url).decode('utf-8')
image_address = []
p = r'<img src="([^"]+\.jpg)" style="max-width: 480px; max-height: 750px;">'
address = re.findall(p,html)
image_address.append(address) #这里append不知道用的合不合适
return image_address
def save_image(folder,image_address):
for each in image_address:
if 'http:' not in each:
filename = each.split('/')[-1]
eachhttp = 'http:' + each
print(eachhttp)
with open(filename,'wb') as f:
img=url_open(eachhttp)
f.write(img)
else:
filename = each.split('/')[-1]
print(each)
urllib.request.urlretrieve(each,filename)
def download_mm(folder = 'pics',pages=10):
os.mkdir(folder)
os.chdir(folder)
url = "http://jandan.net/ooxx/"
page_number = get_page(url) #好像需要用到int
for i in range(pages):
page_number -= i
page_url = url + 'page-' + str(page_number) + '#comments'
image_address = find_image(page_url)
save_image(folder,image_address)
if __name__ == '__main__':
download_mm()

复制代码

最佳答案

月排行榜 / 总排行榜

夜深听雨

2017-9-3 23:29:24

find_image函数的问题我自己解决了，以下是代码

def find_image(url):
html = url_open(url).decode('utf-8')
p = r'<img src="([^"]+\.jpg)"'
image_address = re.findall(p,html)
return image_address

复制代码

现在剩下的问题是page number怎么用正则表达式匹配到，而且匹配到的能否使用int函数处理

跳转到最佳答案楼层

ba21 · 发表于 2017-9-3 23:08:47

import urllib.request
import sys
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent',
'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36')
resp = urllib.request.urlopen(url)
html = resp.read()
# print(html)
return html
def get_page(url): # 获取图片页码
html = url_open(url).decode('utf-8') # 解码，之后查找图片页码做准备
a = html.find('current-comment-page') + 23 # 返回页码数的首位置
b = html.find(']', a) # 返回页码数的末位置
# print(html[a:b])
return html[a:b] # 拼接返回页码
def find_imgs(url): # 在当前URL查找图片
html = url_open(url).decode('utf-8')
img_addrs = []
a = html.find('img src=') # 图片真实地址
while a != -1:
b = html.find('.jpg', a, a + 200)
if b != -1:
img_addrs.append(html[a + 9:b + 4])
else:
b = a + 9
a = html.find('img src=', b)
return img_addrs
def save_imgs(img_addrs):
for each in img_addrs:
filename = each.split('/')[-1]
with open(filename, 'wb') as f:
img = url_open("http:"+each)
f.write(img)
def download(folder='Girls', pages=20):
os.mkdir(folder) # 创建文件夹
os.chdir(folder) # 切换到文件夹目录
url = 'http://jandan.net/ooxx'
page_num = int(get_page(url)) # 获取当前该图片页码
for i in range(pages): # 依次下载指定页数的图片
page_num -= 1
page_url = url + '/page-' + str(page_num) + '#comments' # 图片的URL
# print(page_url)
img_addrs = find_imgs(page_url)
save_imgs(img_addrs)
if __name__ == '__main__':
download()

复制代码

夜深听雨 · 发表于 2017-9-3 23:26:52

ba21 发表于 2017-9-3 23:08

你的代码就是小甲鱼老师的代码，没有用到正则表达式去找page number和图片地址，小甲鱼老师的代码我是懂的，我只是想看看怎么使用正则表达式去匹配，还是谢谢了。

夜深听雨 · 发表于 2017-9-3 23:29:24

find_image函数的问题我自己解决了，以下是代码

def find_image(url):
html = url_open(url).decode('utf-8')
p = r'<img src="([^"]+\.jpg)"'
image_address = re.findall(p,html)
return image_address

复制代码

现在剩下的问题是page number怎么用正则表达式匹配到，而且匹配到的能否使用int函数处理

夜深听雨 · 发表于 2017-9-7 10:15:59

夜深听雨发表于 2017-9-3 23:29
find_image函数的问题我自己解决了，以下是代码

现在剩下的问题是page number怎么用正则表达式匹配到， ...

老铁们我的问题还没完全解决啊，page number我还是用正则表达式匹配不出来诶！

Will_M · 发表于 2018-9-2 14:54:26

get_page 的正则表达式可以这样写
p = r'<span class="current-comment-page">\[(.+?)\]</span>'
page_num = re.findall(p,html)

账号		自动登录	找回密码
密码			立即注册

[已解决]正则表达式爬煎蛋网妹子图

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块