[已解决]怎么下载google图片搜索里第2行第1列的图片呢？

blackantt · 发表于 2022-8-27 22:04:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

想用 seliumn 自动抓一些跟单词对应的图片。但图片搜索网页源码里没看到有图片相关的东西。

最佳答案

月排行榜 / 总排行榜

鱼cpython学习者

2022-8-29 20:12:03

blackantt 发表于 2022-8-29 19:39
C:%users\dengz\Downloads\google-image1>python edge-image1.py
输入爬取的单词图片：cat

以下是改进后的代码

import requests

from selenium import webdriver

from pyquery import PyQuery

import re

import base64



word = input('输入爬取的单词图片：')



driver = webdriver.Edge()

url = f'https://www.google.com/search?q={word}&source=lnms&tbm=isch'

driver.get(url)

# input(":")

img = driver.page_source

length = 0

for i in PyQuery(img)('#islrg div div a div img').items():

    img_name = '%s.jpg' % word

    if not i.attr('src'):

        code = requests.get(i.attr('data-src')).content

    else:

        if str(i.attr('src')).startswith('http'):

            code = requests.get(i.attr('src')).content

        else:

            code = base64.b64decode(re.sub(r'data:image/.+?;base64,', '', str(i.attr('src'))))

    with open(img_name, 'wb') as f:

        f.write(code)

    break

非常感谢，大大提升了搜索效率

跳转到最佳答案楼层

wp231957 · 发表于 2022-8-28 06:36:08

这个一般都不会出现在源码中，一般都是ajax传过来的

blackantt · 发表于 2022-8-28 07:19:17

wp231957 发表于 2022-8-28 06:36
这个一般都不会出现在源码中，一般都是ajax传过来的

那这种 ajax 能通过喂单词，然后下载它的某个位置的图片吗？因为想批量，所以拷屏不行，（拷屏下来还得一个一个切，反倒麻烦了）

wp231957 · 发表于 2022-8-28 07:22:01

blackantt 发表于 2022-8-28 07:19
那这种 ajax 能通过喂单词，然后下载它的某个位置的图片吗？因为想批量，所以拷屏不行，（拷屏下来还得 ...

这个需要分析，因为谷歌我们也打不开，所以也没办法帮你

wp231957 · 发表于 2022-8-28 07:24:46

blackantt 发表于 2022-8-28 07:19
那这种 ajax 能通过喂单词，然后下载它的某个位置的图片吗？因为想批量，所以拷屏不行，（拷屏下来还得 ...

你这东西好像是靠肉眼识别，能自动化吗？

python0729 · 发表于 2022-8-28 10:23:01

鱼cpython学习者 · 发表于 2022-8-28 11:14:54

我差不多成功了，唯一的问题就是没法指定抓哪张图片，全抓你觉得行不行？

鱼cpython学习者 · 发表于 2022-8-28 11:46:52

现在能只抓第一张图片了，你是要能够指定抓哪张还是只抓第一张就行？

blackantt · 发表于 2022-8-28 15:32:14

只抓第1行或第2行的第1个图片，能行吗？

嘉岳呀 · 发表于 2022-8-28 15:36:59

你是怎么上的谷歌呢？

我非常想知道

blackantt · 发表于 2022-8-28 15:39:25

鱼cpython学习者发表于 2022-8-28 11:46
现在能只抓第一张图片了，你是要能够指定抓哪张还是只抓第一张就行？

只抓第1行或第2行的第1个图片，能行吗？

编程追风梦 · 发表于 2022-8-29 07:59:47

嘉岳呀发表于 2022-8-28 15:36
你是怎么上的谷歌呢？

我非常想知道

小甲鱼是怎么上谷歌的呢？我想知道（你就说你这问题废话不）

wp231957 · 发表于 2022-8-29 08:01:46

编程追风梦发表于 2022-8-29 07:59
小甲鱼是怎么上谷歌的呢？我想知道（你就说你这问题废话不）

说的好像你能上去？？

编程追风梦 · 发表于 2022-8-29 08:24:08

wp231957 发表于 2022-8-29 08:01
说的好像你能上去？？

哈哈哈哈哈哈哈哈哈哈，我现在在菲律宾怎么上不去？要视频吗？

编程追风梦 · 发表于 2022-8-29 08:28:20

不相信是吧？

还好像我能上去是的，诶，对，我就是能上去

鱼cpython学习者 · 发表于 2022-8-29 11:45:44

blackantt 发表于 2022-8-28 15:39
只抓第1行或第2行的第1个图片，能行吗？

有点难，我看看

鱼cpython学习者 · 发表于 2022-8-29 13:18:32

blackantt 发表于 2022-8-28 15:39
只抓第1行或第2行的第1个图片，能行吗？

你说的第二行的第一个图片，是你的图片里面圈出来的那个吗？

blackantt · 发表于 2022-8-29 13:54:39

鱼cpython学习者发表于 2022-8-29 13:18
你说的第二行的第一个图片，是你的图片里面圈出来的那个吗？

是的，因为我发现，这个位置的图片跟关键词的相关性最高。

鱼cpython学习者 · 发表于 2022-8-29 15:51:01

blackantt 发表于 2022-8-29 13:54
是的，因为我发现，这个位置的图片跟关键词的相关性最高。

我还以为你的第一列不是从最上面那些卡牌开始的

鱼cpython学习者 · 发表于 2022-8-29 16:06:43

import requests
from selenium import webdriver
from pyquery import PyQuery
import re
import base64

word = input('输入爬取的单词图片：')

driver = webdriver.Edge()
url = 'https://www.google.com.hk/search?q=%s' % word
driver.get(url)
# input(":")
html = PyQuery(driver.page_source)
for item in html('.hdtb-mitem').items():
    if item.text() in ['Image', '图片']:
        image_page = 'https://www.google.com.hk/' + item('a').attr('href')
        driver.get(image_page)
        # input(":")
        img = driver.page_source
        length = 0
        for i in PyQuery(img)('#islrg div div a div img').items():
            img_name = '%s.jpg' % word
            if not i.attr('src'):
                code = requests.get(i.attr('data-src')).content
            else:
                if str(i.attr('src')).startswith('http'):
                    code = requests.get(i.attr('src')).content
                else:
                    code = base64.b64decode(re.sub(r'data:image/.+?;base64,', '', str(i.attr('src'))))
            with open(img_name, 'wb') as f:
                f.write(code)
            break

记得安装pyquery库，还有第九行的webdriver.Edge()记得传入驱动路径，我是因为驱动在环境变量里设置了才不用传入路径
你也可以用webdriver.Chrome，都行

账号		自动登录	找回密码
密码			立即注册