[已解决]额！又要向大神们请教问题了T^T

haski1991 · 发表于 2017-4-27 15:55:34

您需要登录才可以下载或查看，没有账号？立即注册

x

这次关于正则表达式的，代码如下：

import urllib.request
import re
import os
def url_open(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
dakai = urllib.request.urlopen(req)
html = dakai.read().decode('utf-8')
return html
def get_page(html):
link = r'<a id="ha" href="/(.+?)"'
find_link = re.findall(link,html)
link_list = []
for each in find_link:
link_list.append('http://www.33mn.net/'+each)
return link_list
def get_imgs(html):
img = r'<img src="(.+\.jpg)"'
find_img = re.findall(img,html)
for i in find_img:
print(i)
'''def down_girls(box='girl'):
os.mkdir(box)
os.chdir(box)'''
if __name__ == '__main__':
#down_girls()
for i in range(1,31):
url = 'http://www.33mn.net/ns/' + str(i)
urllist = get_page(url_open(url))
for x in urllist:
get_imgs(url_open(x))

复制代码

问题是在打开内页图片的地址，我想PRINT下看图片地址，但却返回了这些- -
QQ图片20170427155124.png

正则表达式里我也尝试过好几种添加的，但都是返回以上图片内容，正常应该是返回括号里的地址的啊- -
搞不懂，希望大神们能指点下，谢谢~

最佳答案

gopythoner

2017-4-27 19:16:10

查找图片的改成这个就可以了

复制代码

你自己要好好看网页，你提取图片的那个标签里面都是空白图，而且是重复的链接，没用的

gopythoner · 发表于 2017-4-27 16:21:23

img = r'<img src="(.+\.jpg)"'改成这样试试

复制代码

haski1991 · 发表于 2017-4-27 16:24:49

gopythoner 发表于 2017-4-27 16:21
img = r'

也试过的，甚至它上层的DIV我也试过添加进去，但还是不行额- -

gopythoner · 发表于 2017-4-27 16:41:54

haski1991 发表于 2017-4-27 16:24
也试过的，甚至它上层的DIV我也试过添加进去，但还是不行额- -

link = r'<a id="ha" href="/(.+?)"'这里
改成

复制代码

haski1991 · 发表于 2017-4-27 17:24:18

gopythoner 发表于 2017-4-27 16:41
link = r'

试了下。F5之后返回了以下内容额
QQ图片20170427172255.png

怎么想也想不通为什么会这样- -

gopythoner · 发表于 2017-4-27 17:27:25

haski1991 发表于 2017-4-27 17:24
试了下。F5之后返回了以下内容额

怎么想也想不通为什么会这样- -

这个应该是你你图片的正则有问题，
你这个网站我在公司的网络打不开，无法看到网页源代码，下班回去我看看源代码就知道了

gopythoner · 发表于 2017-4-27 19:16:10

查找图片的改成这个就可以了

复制代码

你自己要好好看网页，你提取图片的那个标签里面都是空白图，而且是重复的链接，没用的

haski1991 · 发表于 2017-4-27 19:46:05

gopythoner 发表于 2017-4-27 19:16
查找图片的改成这个就可以了

你自己要好好看网页，你提取图片的那个标签里面都是空白图，而且是重复的链 ...

可以了。哎~什么时候才能像你一样厉害

账号		自动登录	找回密码
密码			立即注册