关于爬妹子图

holistic杀手 · 发表于 2017-10-24 19:23:14

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent',' Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img class=""> src="[^"]+\.jpg"'
imglist = re.findall(p,html)
for each in imglist:
print(each)
if __name__=='__main__':
url = "https://movie.douban.com/celebrity/1321993/photos/"
get_img(open_url(url))

复制代码

为什么我什么也没打印出来，求助大佬。。。

tich · 发表于 2017-10-24 20:08:25

或许你可以换一个库试试

BngThea · 发表于 2017-10-24 21:31:58

请在适当的位置插入print函数以检查是否获取正确的结果

holistic杀手 · 发表于 2017-12-31 11:42:24

本帖最后由 holistic杀手于 2017-12-31 11:46 编辑

时隔多月的一个尝试居然成功了

import urllib.request
import re
def open_url(url):
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64; Trident/7.0; rv:11.0) like Gecko')
page = urllib.request.urlopen(req)
html = page.read().decode('utf-8')
return html
def get_img(html):
p = r'<img src="([^"]+\.jpg)"'
imglist = re.findall(p,html)
for each in imglist:
print(each)
if __name__=='__main__':
url = "https://movie.douban.com/celebrity/1321993/photos/"
get_img(open_url(url))

复制代码

成功打出地址了的运行结果

point是我没抓对地方

账号		自动登录	找回密码
密码			立即注册