鱼C论坛

 找回密码
 立即注册
查看: 3599|回复: 8

[已解决]关于图片爬取问题 请大佬指点一下

[复制链接]
回帖奖励 8 鱼币 回复本帖可获得 1 鱼币奖励! 每人限 1 次(中奖概率 50%)
发表于 2019-4-17 16:29:08 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request
import os
import re
import random




def urlopen(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.26 Safari/537.36 Core/1.63.6823.400 QQBrowser/10.3.3117.400')

    proxies = ['124.152.32.140:53281', '163.125.157.53:8888', '163.125.157.49:8888']
    proxy = random.choice(proxies)

    proxy_support = urllib.request.ProxyHandler({'http':proxy})
    opener = urllib.request.build_opener(proxy_support)
    urllib.request.install_opener(opener)

    html = urllib.request.urlopen(req)
    html = html.read()
    return html

def zhuyao(html):
    p = r'<img class="lazy" src="(https://i.meizitu.net/thumbs/\d\d\d\d/\d\d/.+?.jpg)"'
    tupian = re.findall(p,html)
    for each in tupian:
        wjm = each.split('/')[-1]
        tp = urlopen(tupian)
        with open(wjm,'wb') as f:
            f.write(tp)
    
if __name__=='__main__':
    url = 'https://www.mzitu.com/xinggan/'
    os.mkdir('妹子图片')
    os.chdir('妹子图片')
    zhuyao(urlopen(url))


程序运行起来  没有报错  但是新建的文件夹什么也没有  就是说没有爬取到 图片  但是 我直接贴了一个图片链接 也爬取不了这是怎么回事啊   请各位指点一下  谢谢
最佳答案
2019-4-17 19:57:38
对了,妹子图有反爬,下载的图片,请求头需要加一点东西。好就没有扒了了。https://fishc.com.cn/forum.php?m ... =1467&fromop=my   最下面有妹子图爬虫,不过不是urllib+正则,用的requests +xapth
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2019-4-17 16:30:26 | 显示全部楼层
html = html.decode('utf-8')
这条  再加到 zhuya() 函数下面

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-17 17:10:40 | 显示全部楼层
没人吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-17 18:05:45 | 显示全部楼层

回帖奖励 +1 鱼币

urllib这个库怎么使用我都忘了,建议使用第三方requests库,简单好用,哪个urllib库太复杂
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2019-4-17 18:41:24 | 显示全部楼层
cwhsmile 发表于 2019-4-17 18:05
urllib这个库怎么使用我都忘了,建议使用第三方requests库,简单好用,哪个urllib库太复杂

那是啥  我现在还在学习正则表示不晓得啥是库。。。

点评

可以把它理解成模块,比如urllib和re都可以说是库,他们就是实现某个功能的工具  发表于 2019-4-17 20:03
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-4-17 19:57:38 | 显示全部楼层    本楼为最佳答案   

回帖奖励 +1 鱼币

对了,妹子图有反爬,下载的图片,请求头需要加一点东西。好就没有扒了了。https://fishc.com.cn/forum.php?m ... =1467&fromop=my   最下面有妹子图爬虫,不过不是urllib+正则,用的requests +xapth
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2019-5-8 19:57:09 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2021-10-28 09:38:13 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-12 23:31

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表