鱼C论坛

 找回密码
 立即注册
查看: 2036|回复: 2

爬虫问题

[复制链接]
发表于 2017-10-22 00:31:04 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import urllib.request
import re

def open_url(url):
    req = urllib.request.Request(url)
    req.add_header('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0')
    page = urllib.request.urlopen(req)
    html = page.read().decode('utf-8')

    return html

def get_img(html):
    p = r'<img class="BDE_Image" src="[^"]+\.jpg"'
    imglist = re.findall(p, html)
    '''
    for each in imglist:
        print(each)

    '''

    for each in imglist:
        filename = each.split("/")[-1]
        urllib.request.urlretrieve(each, filename, None)

  
if __name__ == '__main__':
    url = "http://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&word=meinv"
    get_img(open_url(url))
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

 楼主| 发表于 2017-10-22 00:31:43 | 显示全部楼层
代码如上

但是什么都没有得出来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2017-10-22 10:40:38 | 显示全部楼层
本帖最后由 $DIM 于 2017-10-22 10:45 编辑

首先是有图片的,可能返回的链接跟你想的不一样,后面获取图片正则也变一下,如下:
请求返回的代码:
{"thumbURL":"http://img5.imgtn.bdimg.com/it/u=3976670166,3864977643&fm=27&gp=0.jpg","replaceUrl": [{"ObjURL":"http:\/\/img1.imgtn.bdimg.com\/it\/u=3976670166,3864977643&fm=214&gp=0.jpg","FromURL":"http:\/\/hot.com-web.com.tw\/read.php\/1667.htm"}
baidu网页显示如下:
Selection_014.jpg
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-25 12:07

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表