爬百度图片,萌新交流区,萌新训练营,鱼C论坛

君子好逑 发表于 2021-1-23 16:13:06

爬百度图片

import requests
from urllib.parse import urlencode

name = input("请输入您需要爬取的图片信息：")

bef_url = 'https://image.baidu.com/search/index?'

data = {
'tn': 'resultjson_com',
'logid': '7786358177497367672',
'ipn': 'rj',
'ct': '201326592',
'is': '',
'fp': 'result',
'queryWord': '二次元图片',
'cl': '2',
'lm': '-1',
'ie': 'utf-8',
'oe': 'utf-8',
'adpicid': '',
'st': '-1',
'z': '',
'ic': '',
'hd': '',
'latest': '',
'copyright': '',
'word': '二次元图片',
's': '',
'se': '',
'tab': '',
'width': '',
'height': '',
'face': '0',
'istype': '2',
'qc': '',
'nc': '1',
'fr': '',
'expermode': '',
'force': '',
'pn': '0',
'rn': '30',
'gsm': '1b',
'1611388614816': ''
}

data['word'] = name
data['queryWord'] = name

url = bef_url + urlencode(data)

print(url)

这个程序是用生成包含百度图片连接的网页的连接的程序，使用的时候输入的内容后一定要加上图片二字，例如输入‘二次元图片’什么的。求小伙伴们试试有哪些内容输入之后得到的网页是错误的。本人现已试过二次元图片、一人之下图片、御姐图片，小萝莉图片、汽车图片等内容{:10_256:}

Daniel_Zhang 发表于 2021-1-23 17:28:48

本帖最后由 Daniel_Zhang 于 2021-1-23 17:33 编辑

不错

君子好逑 发表于 2021-1-23 18:10:27

Daniel_Zhang 发表于 2021-1-23 17:28
不错

大佬，你有试出什么不能搜的图片吗

Daniel_Zhang 发表于 2021-1-23 18:46:43

其实吧，这东西很简单的道理，百度那么多不同搜索结果，如果每一个都随机生成一个值，势必会浪费资源。如果使用同一个，只是更改搜索关键词的话，会方便很多。例如百度在某个地方要做引用，如果生成的是随机值，就需要从某个地方调取这个值，然后才能导向正确的url。

一般来讲你只要尝试了几个，发现了规律，那么就没有问题了。

我也就试了几个，没发现什么问题。{:10_248:}

页: [1]

鱼C论坛's Archiver

爬百度图片