君子好逑 发表于 2021-1-23 16:13:06

爬百度图片

import requests
from urllib.parse import urlencode

name = input("请输入您需要爬取的图片信息:")

bef_url = 'https://image.baidu.com/search/index?'

data = {
    'tn': 'resultjson_com',
    'logid': '7786358177497367672',
    'ipn': 'rj',
    'ct': '201326592',
    'is': '',
    'fp': 'result',
    'queryWord': '二次元图片',
    'cl': '2',
    'lm': '-1',
    'ie': 'utf-8',
    'oe': 'utf-8',
    'adpicid': '',
    'st': '-1',
    'z': '',
    'ic': '',
    'hd': '',
    'latest': '',
    'copyright': '',
    'word': '二次元图片',
    's': '',
    'se': '',
    'tab': '',
    'width': '',
    'height': '',
    'face': '0',
    'istype': '2',
    'qc': '',
    'nc': '1',
    'fr': '',
    'expermode': '',
    'force': '',
    'pn': '0',
    'rn': '30',
    'gsm': '1b',
    '1611388614816': ''
}

data['word'] = name
data['queryWord'] = name

url = bef_url + urlencode(data)

print(url)

这个程序是用生成包含百度图片连接的网页的连接的程序,使用的时候输入的内容后一定要加上图片二字,例如输入‘二次元图片’什么的。求小伙伴们试试有哪些内容输入之后得到的网页是错误的。本人现已试过二次元图片、一人之下图片、御姐图片,小萝莉图片、汽车图片等内容{:10_256:}

Daniel_Zhang 发表于 2021-1-23 17:28:48

本帖最后由 Daniel_Zhang 于 2021-1-23 17:33 编辑

不错

君子好逑 发表于 2021-1-23 18:10:27

Daniel_Zhang 发表于 2021-1-23 17:28
不错

大佬,你有试出什么不能搜的图片吗

Daniel_Zhang 发表于 2021-1-23 18:46:43

其实吧,这东西很简单的道理,百度那么多不同搜索结果,如果每一个都随机生成一个值,势必会浪费资源。如果使用同一个,只是更改搜索关键词的话,会方便很多。例如百度在某个地方要做引用,如果生成的是随机值,就需要从某个地方调取这个值,然后才能导向正确的url。

一般来讲你只要尝试了几个,发现了规律,那么就没有问题了。

我也就试了几个,没发现什么问题。{:10_248:}
页: [1]
查看完整版本: 爬百度图片