君子好逑 发表于 2020-8-25 13:01:02

爬虫爬图片

import requests
from lxml import etree
import os

headers = {
'Accept-Language': 'zh-CN',
'Cache-Control': 'no-cache',
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363'
}

url = 'https://cn.freeimages.com/'

html = requests.get(url=url,headers=headers).text

tree = etree.HTML(html)

li_list = tree.xpath('//div[@class="collage-body"]/ul/li')

if not os.path.exists('./photo'):
    os.mkdir('./photo')

for each in li_list:
    img_src = each.xpath('./a/img/@src')
    img_name = img_src.split('/')[-1]
    img_path = 'patu' + img_name

    image = requests.get(url=url,headers=headers).content

    img_path ='photo/' + img_name

    with open(img_path,'wb') as f:
      f.write(image)
      print(img_name,'爬取完成!!!')

写了个爬虫爬图片,但是爬出来的图片全是损坏的,根本打不开。有大佬能给瞅一眼吗

1q23w31 发表于 2020-8-25 14:04:23

本帖最后由 1q23w31 于 2020-8-25 14:05 编辑

import requests
from lxml import etree
import os

headers = {
'Accept-Language': 'zh-CN',
'Cache-Control': 'no-cache',
'Connection': 'Keep-Alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36 Edge/18.18363'
}

url = 'https://cn.freeimages.com/'

html = requests.get(url=url,headers=headers).text

tree = etree.HTML(html)

li_list = tree.xpath('//div[@class="collage-body"]/ul/li')

if not os.path.exists('./photo'):
    os.mkdir('./photo')

for each in li_list:
    img_src = each.xpath('./a/img/@src')
    img_name = img_src.split('/')[-1]
    img_path = 'patu' + img_name

    image = requests.get(img_src,headers=headers).content

    img_path ='photo/' + img_name

    with open(img_path,'wb') as f:
      f.write(image)
      print(img_name,'爬取完成!!!')


源代码错误在第28行

君子好逑 发表于 2020-8-25 14:47:02

1q23w31 发表于 2020-8-25 14:04
源代码错误在第28行

{:10_277:}

君子好逑 发表于 2020-8-25 14:47:58

1q23w31 发表于 2020-8-25 14:04
源代码错误在第28行

谢谢大佬

君子好逑 发表于 2020-8-25 14:51:13

1q23w31 发表于 2020-8-25 14:04
源代码错误在第28行

{:10_266:}{:10_266:}{:10_266:}
刚刚试了一下,爬的图片还是打不开

1q23w31 发表于 2020-8-25 15:01:08

君子好逑 发表于 2020-8-25 14:51
刚刚试了一下,爬的图片还是打不开

不会啊,代码我测试过了

君子好逑 发表于 2020-8-25 15:09:12

1q23w31 发表于 2020-8-25 15:01
不会啊,代码我测试过了

{:10_266:}{:10_266:}{:10_266:}
我刚粘玩还是不行

君子好逑 发表于 2020-8-25 15:10:06

1q23w31 发表于 2020-8-25 15:01
不会啊,代码我测试过了

我太难了

1q23w31 发表于 2020-8-25 15:10:47

君子好逑 发表于 2020-8-25 15:09
我刚粘玩还是不行

看私聊?

君子好逑 发表于 2020-8-25 15:11:22

1q23w31 发表于 2020-8-25 15:01
不会啊,代码我测试过了

这回可以了{:10_256:}

君子好逑 发表于 2020-8-25 15:12:08

1q23w31 发表于 2020-8-25 15:01
不会啊,代码我测试过了

之前就出一个conda activate base的字样就没了{:10_256:}

1q23w31 发表于 2020-8-25 15:13:46

君子好逑 发表于 2020-8-25 15:11
这回可以了

ok

君子好逑 发表于 2020-8-25 15:13:56

1q23w31 发表于 2020-8-25 15:10
看私聊?

不用了,谢谢大佬,大老牛逼。之前也有人跟我说visual studio code容易崩{:10_250:}{:10_250:}{:10_250:}
喜极而泣,喜极而泣,妹子图我来了

君子好逑 发表于 2020-8-25 15:15:18

1q23w31 发表于 2020-8-25 15:10
看私聊?

大佬,有没有什么妹子图免费下的网站给我推荐几个,二次元的更好{:10_256:}{:10_256:}{:10_266:}

加油~~~~ 发表于 2020-8-25 16:33:46

君子好逑 发表于 2020-8-25 15:15
大佬,有没有什么妹子图免费下的网站给我推荐几个,二次元的更好

https://yande.re/post这个你因该喜欢

君子好逑 发表于 2020-8-25 16:37:22

加油~~~~ 发表于 2020-8-25 16:33
https://yande.re/post这个你因该喜欢

老铁,你这网站有点东西啊{:10_256:}

加油~~~~ 发表于 2020-8-26 10:14:35

君子好逑 发表于 2020-8-25 16:37
老铁,你这网站有点东西啊

这边推荐您改完host 直接使用Google浏览器访问

KINGofCODING 发表于 2020-8-27 10:08:49

加油~~~~ 发表于 2020-8-26 10:14
这边推荐您改完host 直接使用Google浏览器访问

这网站需要翻墙啊,xd
页: [1]
查看完整版本: 爬虫爬图片