鱼C论坛

 找回密码
 立即注册
查看: 1535|回复: 7

[已解决]额!又要向大神们请教问题了T^T

[复制链接]
发表于 2017-4-27 15:55:34 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
这次关于正则表达式的,代码如下:
  1. import urllib.request
  2. import re
  3. import os


  4. def url_open(url):
  5.     req = urllib.request.Request(url)
  6.     req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36')
  7.     dakai = urllib.request.urlopen(req)
  8.     html = dakai.read().decode('utf-8')
  9.     return html


  10. def get_page(html):
  11.     link = r'<a id="ha" href="/(.+?)"'
  12.     find_link = re.findall(link,html)
  13.     link_list = []
  14.     for each in find_link:
  15.         link_list.append('http://www.33mn.net/'+each)
  16.     return link_list

  17. def get_imgs(html):
  18.     img = r'<img src="(.+\.jpg)"'
  19.     find_img = re.findall(img,html)
  20.     for i in find_img:
  21.         print(i)        
  22.         
  23. '''def down_girls(box='girl'):
  24.         os.mkdir(box)
  25.         os.chdir(box)'''

  26. if __name__ == '__main__':
  27.     #down_girls()
  28.     for i in range(1,31):
  29.         url = 'http://www.33mn.net/ns/' + str(i)
  30.         urllist = get_page(url_open(url))
  31.         for x in urllist:
  32.             get_imgs(url_open(x))
复制代码


问题是在打开内页图片的地址,我想PRINT下看图片地址,但却返回了这些- -
QQ图片20170427155124.png
正则表达式里我也尝试过好几种添加的,但都是返回以上图片内容,正常应该是返回括号里的地址的啊- -
搞不懂,希望大神们能指点下,谢谢~
最佳答案
2017-4-27 19:16:10
查找图片的改成这个就可以了
  1. img = r'name="(http:.+?\.jpg)"'
复制代码

你自己要好好看网页,你提取图片的那个标签里面都是空白图,而且是重复的链接,没用的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2017-4-27 16:21:23 | 显示全部楼层
img = r'<img src="(.+\.jpg)"'改成这样试试
  1. img = r'<img src="(.+?\.jpg)"'
复制代码

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-27 16:24:49 | 显示全部楼层

也试过的,甚至它上层的DIV我也试过添加进去,但还是不行额- -
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-27 16:41:54 | 显示全部楼层
haski1991 发表于 2017-4-27 16:24
也试过的,甚至它上层的DIV我也试过添加进去,但还是不行额- -

link = r'<a id="ha" href="/(.+?)"'这里
改成
  1. link = r'<a id="ha" href="(.+?)"'
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-27 17:24:18 | 显示全部楼层

试了下。F5之后返回了以下内容额
QQ图片20170427172255.png
怎么想也想不通为什么会这样- -
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-27 17:27:25 | 显示全部楼层
haski1991 发表于 2017-4-27 17:24
试了下。F5之后返回了以下内容额

怎么想也想不通为什么会这样- -

这个应该是你你图片的正则有问题,
你这个网站我在公司的网络打不开,无法看到网页源代码,下班回去我看看源代码就知道了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-4-27 19:16:10 | 显示全部楼层    本楼为最佳答案   
查找图片的改成这个就可以了
  1. img = r'name="(http:.+?\.jpg)"'
复制代码

你自己要好好看网页,你提取图片的那个标签里面都是空白图,而且是重复的链接,没用的
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2017-4-27 19:46:05 | 显示全部楼层
gopythoner 发表于 2017-4-27 19:16
查找图片的改成这个就可以了

你自己要好好看网页,你提取图片的那个标签里面都是空白图,而且是重复的链 ...

可以了。哎~什么时候才能像你一样厉害
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-18 10:02

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表