鱼C论坛

 找回密码
 立即注册
查看: 1930|回复: 2

新手学习爬虫,啥也不懂,就是复制链接,但是不成功!希望高手帮忙解疑答惑!

[复制链接]
发表于 2022-7-14 09:44:02 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
python爬虫自动爬取百度图片
https://fishc.com.cn/thread-200086-1-1.html
(出处: 鱼C论坛)

为什么我用这个代码,他会创建“pics”文件夹,也会在“pics”文件夹里面创建我搜索的“小甲鱼”的文件夹,但是在“小甲鱼”文件夹里面只有一个图片,命名为0.jpg.而且我也打不开,请问这是为什么?

以上链接的代码在下面呈现 ↓  ↓  ↓

import requests
import re
def getHtml(url,object):
    hd = {'User-Agent':'Mozilla/5.0','Accept':r'text/html,application/xhtml+xml,*/*'}
    try:
        response = requests.get(url+object,timeout=10,headers=hd)
        response.raise_for_status()
        response.encoding = response.apparent_encoding
        return response.text
    except:
        return None

import os
object = input("请输入要查找的目标:")
while True:
    num = int(input("计划下载图片数:"))
    if num<=0:
        print("数量非法,必须重新输入")
    else:
        break
file_path = "D:/pics"
obj_url = "https://image.baidu.com/search/index?ct=201326592&cl=2&st=-1&lm=-1&nc=1&ie=utf-8&tn=baiduimage&ipn=r&rps=1&pv=&fm=rs5&word="
if not os.path.exists(file_path):
    os.mkdir(file_path)
if not os.path.exists(file_path+os.sep+object):
    os.mkdir(file_path+os.sep+object)
else:
    if len(os.listdir(file_path+os.sep+object)) != 0:
        print("文件已存在")
        exit()
format_str = r'thumbURL":"(https://[^"]+.jpg)'
text = getHtml(obj_url,object)
if text == None:
    print("网址访问异常")
    exit()
content = re.findall(format_str,text)
content = iter(content)
for i in range(num):
        try:
            with open(file_path+os.sep+object+os.sep+str(i)+".jpg",'wb') as f:
                respon = requests.get(next(content))
                f.write(respon.content)
        except:
            print("爬虫程序提前结束,已经达到最大搜索上限!")
            break
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-7-15 11:35:17 From FishC Mobile | 显示全部楼层
爬虫代码几乎都有时效性,所谓的过期代码是不能直接用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-7-15 13:31:55 | 显示全部楼层
原文代码太乱,不适合学习。
建议选个好的教程学。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-17 14:22

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表