鱼C论坛

 找回密码
 立即注册
查看: 1902|回复: 14

[已解决]关于爬虫

[复制链接]
发表于 2020-9-5 23:25:10 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
url='https://image.baidu.com/search/index?ct=201326592&cl=2&st=-1&lm=-1&nc=1&ie=utf-8&tn=baiduimage&ipn=r&rps=1&pv=&fm=rs7&word=%E9%9E%A0%E5%A9%A7%E7%A5%8E%E5%A3%81%E7%BA%B8%E9%AB%98%E6%B8%85&oriquery=%E9%9E%A0%E5%A9%A7%E7%A5%8E&ofr=%E9%9E%A0%E5%A9%A7%E7%A5%8E&sensitive=0'
大佬们帮忙写个爬虫爬取这个网址的图片,不要用selenium,
最佳答案
2020-9-6 22:03:31
帮你获取了四千年美女图,给个最佳吧,少年
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-9-6 13:38:26 | 显示全部楼层
本帖最后由 suchocolate 于 2020-9-6 13:55 编辑

百度图片搜索下载一般是通用的。
  1. # _*_ coding: utf-8 _*_
  2. # Developer: suchcoolate
  3. # Date: 6/28/2020 09:25
  4. # File name: baidu_pic_search_downloader.py
  5. # Development tool: PyCharm

  6. import requests
  7. import os


  8. def main():
  9.     # name = input('请输入百度图片搜索关键词:')
  10.     name = '鞠婧祎壁纸高清'
  11.     # num = int(input('请输入想下载的页数:'))
  12.     num = 2
  13.     # dir_name = input('请输入图片存放文件夹名称:')
  14.     dir_name = 'pics'
  15.     result_list = []    # 存储图片url
  16.     headers = {'user-agent': 'firefox', 'X-Requested-With': 'XMLHttpRequest'}
  17.     ajax_url = 'https://image.baidu.com/search/acjson?'
  18.     data = {
  19.         'tn': 'resultjson_com',
  20.         'ipn': 'rj',
  21.         'ct': '201326592',
  22.         'is': '',
  23.         'fp': 'result',
  24.         'queryWord': name,
  25.         'cl': '2',
  26.         'lm': '-1',
  27.         'ie': 'utf-8',
  28.         'oe': 'utf-8',
  29.         'adpicid': '',
  30.         'st': '-1',
  31.         'z': '',
  32.         'ic': '0',
  33.         'hd': '',
  34.         'latest': '',
  35.         'copyright': '',
  36.         'word': name,
  37.         's': '',
  38.         'se': '',
  39.         'tab': '',
  40.         'width': '',
  41.         'height': '',
  42.         'face': '0',
  43.         'istype': '2',
  44.         'qc': '',
  45.         'nc': '1',
  46.         'fr': '',
  47.         'expermode': '',
  48.         'force': '',
  49.         'pn': '30',
  50.         'rn': '30',
  51.         'gsm': ''
  52.     }
  53.     # 解析获取到的json数据,把图片url收集起来
  54.     for item in range(1, num + 1):
  55.         r = requests.get(ajax_url, headers=headers, params=data)
  56.         j_data = r.json()
  57.         for j in j_data['data'][:-1]:
  58.             # 有的url可能是空的,跳过
  59.             if not j['hoverURL']:
  60.                continue
  61.             result_list.append(j['hoverURL'])
  62.         data['gsm'] = j_data['gsm']
  63.         data['pn'] = str(30 * (item + 1))
  64.     # print(result_list)    # 打印所有图片url
  65.     # 检查文件夹是否存在
  66.     if not os.path.exists(dir_name):
  67.         os.mkdir(dir_name)
  68.     os.chdir(dir_name)
  69.     # 下载图片
  70.     counter = 1   # 计数器
  71.     for item in result_list:
  72.         # print(counter, item)
  73.         r = requests.get(item, headers=headers)
  74.         # 图片名称
  75.         pic_name = item.split('/')[-1]
  76.         with open(pic_name, 'wb') as f:
  77.             f.write(r.content)
  78.         print(f'已下载{pic_name},共下载{counter}张。')
  79.         counter += 1


  80. if __name__ == '__main__':
  81.     main()

复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-6 14:03:44 | 显示全部楼层
四千年的美女
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-6 15:38:53 | 显示全部楼层
本帖最后由 疾风怪盗 于 2020-9-6 15:44 编辑

试试看这个
  1. import requests
  2. import json
  3. headers = {
  4.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}

  5. img_list = []
  6. for i in range(0,10):
  7.     url = 'https://image.baidu.com/search/acjson?tn=resultjson_com&ipn=rj&ct=201326592&is=&fp=result&queryWord=鞠婧祎&cl=2&lm=-1&ie=utf-8&oe=utf-8&adpicid=&st=&z=&ic=&hd=&latest=&copyright=&word=鞠婧祎&s=&se=&tab=&width=&height=&face=&istype=&qc=&nc=1&fr=&expermode=&force=&pn='
  8.     url=url+str(i*30)
  9.     print(url)
  10.     reponse = requests.get(url=url, headers=headers)
  11.     json_data = json.loads(reponse.content.decode())
  12.     json_data = json_data['data']
  13.     # print(json_data)
  14.     for i in range(0, len(json_data) - 1):
  15.         img_url = json_data[i]['hoverURL']
  16.         #print(img_url)
  17.         img_list.append(img_url)

  18. print(img_list)

复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-6 21:37:13 | 显示全部楼层

最前面的图片不是ajax请求获取的,数据在图中的app.setData里面,不用正则怎么弄出需要的数据尼,主要是没见过这种,想了解下
oh.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-6 21:44:18 | 显示全部楼层
suchocolate 发表于 2020-9-6 13:38
百度图片搜索下载一般是通用的。

兄嘚少了前30张图片,前30张图不是ajax请求获得的,我想知道的重点是这30张图片怎么弄下来
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-6 21:50:25 | 显示全部楼层
tiger吴 发表于 2020-9-6 21:37
最前面的图片不是ajax请求获取的,数据在图中的app.setData里面,不用正则怎么弄出需要的数据尼,主要是 ...

再刷个几页,就会出现acjson开头的json数据了,然后找地址规律,发现有个数字是变化的,0,30,60,90,就可以构造网址了,获取json数据比xpath要方便很多,数据也比较全
批注 2020-09-06 214849.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-6 21:55:13 | 显示全部楼层
tiger吴 发表于 2020-9-6 21:44
兄嘚少了前30张图片,前30张图不是ajax请求获得的,我想知道的重点是这30张图片怎么弄下来

现在一看,好像是少了前30张。。。。。。。。。那就用正则呗
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-6 22:02:33 | 显示全部楼层
tiger吴 发表于 2020-9-6 21:44
兄嘚少了前30张图片,前30张图不是ajax请求获得的,我想知道的重点是这30张图片怎么弄下来

这样就可以了
  1. import requests
  2. import json
  3. import re

  4. headers = {
  5.         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}


  6. url = 'https://image.baidu.com/search/index?tn=baiduimage&ps=1&ct=201326592&lm=-1&cl=2&nc=1&ie=utf-8&word=%E9%9E%A0%E5%A9%A7%E7%A5%8E'

  7. reponse = requests.get(url=url, headers=headers)
  8. data = reponse.content.decode()
  9. print(data)

  10. partten='"hoverURL":"(.*?)"'
  11. img_url_list=re.findall(partten,data)

  12. print(img_url_list)
  13. print(len(img_url_list))
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-6 22:03:31 | 显示全部楼层    本楼为最佳答案   
帮你获取了四千年美女图,给个最佳吧,少年
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-7 09:10:27 | 显示全部楼层
tiger吴 发表于 2020-9-6 21:44
兄嘚少了前30张图片,前30张图不是ajax请求获得的,我想知道的重点是这30张图片怎么弄下来

已更新
  1. # _*_ coding: utf-8 _*_
  2. # Developer: suchcoolate
  3. # Date: 6/28/2020 09:25
  4. # File name: baidu_pic_search_downloader.py
  5. # Development tool: PyCharm

  6. import requests
  7. import os
  8. import re


  9. def main():
  10.     # name = input('请输入百度图片搜索关键词:')
  11.     name = '鞠婧祎高清壁纸'
  12.     # num = int(input('请输入想下载的页数:'))
  13.     num = 2
  14.     # dir_name = input('请输入图片存放文件夹名称:')
  15.     dir_name = 'pics'
  16.     result_list = []    # 存储图片url
  17.     index_headers = {'user-agent': 'firefox'}
  18.     ajax_headers = {'user-agent': 'firefox', 'X-Requested-With': 'XMLHttpRequest'}
  19.     index_url = 'https://image.baidu.com/search/index?'
  20.     index_params = {
  21.         'tn': 'baiduimage',
  22.         'ipn': 'r',
  23.         'ct': '201326592',
  24.         'cl': '2',
  25.         'lm': '-1',
  26.         'st': '-1',
  27.         'fm': 'index',
  28.         'fr': '',
  29.         'hs': '0',
  30.         'xthttps': '111111',
  31.         'sf': '1',
  32.         'fmq': '',
  33.         'pv': '',
  34.         'ic': '0',
  35.         'nc': '1',
  36.         'z': '',
  37.         'se': '1',
  38.         'showtab': '0',
  39.         'fb': '0',
  40.         'width': '',
  41.         'height': '',
  42.         'face': '0',
  43.         'istype': '2',
  44.         'ie': 'utf-8',
  45.         'word': name,
  46.         'oq': name,
  47.         'rsp': '-1'
  48.     }
  49.     ajax_url = 'https://image.baidu.com/search/acjson?'
  50.     ajax_params = {
  51.         'tn': 'resultjson_com',
  52.         'ipn': 'rj',
  53.         'ct': '201326592',
  54.         'is': '',
  55.         'fp': 'result',
  56.         'queryWord': name,
  57.         'cl': '2',
  58.         'lm': '-1',
  59.         'ie': 'utf-8',
  60.         'oe': 'utf-8',
  61.         'adpicid': '',
  62.         'st': '-1',
  63.         'z': '',
  64.         'ic': '0',
  65.         'hd': '',
  66.         'latest': '',
  67.         'copyright': '',
  68.         'word': name,
  69.         's': '',
  70.         'se': '',
  71.         'tab': '',
  72.         'width': '',
  73.         'height': '',
  74.         'face': '0',
  75.         'istype': '2',
  76.         'qc': '',
  77.         'nc': '1',
  78.         'fr': '',
  79.         'expermode': '',
  80.         'force': '',
  81.         'pn': '30',
  82.         'rn': '30',
  83.         'gsm': ''
  84.     }
  85.     # 获取首页图片
  86.     r = requests.get(index_url, headers=index_headers, params=index_params)
  87.     result = re.findall('"hoverURL":"(.*?)"', r.text)
  88.     result_list.extend(result)
  89.     # 解析获取到的json数据,把图片url收集起来
  90.     for item in range(1, num + 1):
  91.         r = requests.get(ajax_url, headers=ajax_headers, params=ajax_params)
  92.         j_data = r.json()
  93.         for j in j_data['data'][:-1]:
  94.             if not j['hoverURL']:
  95.                 continue
  96.             result_list.append(j['hoverURL'])
  97.         ajax_params['gsm'] = j_data['gsm']
  98.         ajax_params['pn'] = str(30 * (item + 1))
  99.     # print(result_list)    # 打印所有图片url
  100.     # 检查文件是否存在
  101.     if not os.path.exists(dir_name):
  102.         os.mkdir(dir_name)
  103.     os.chdir(dir_name)
  104.     # 下载图片
  105.     counter = 1   # 计数器
  106.     for item in result_list:
  107.         # print(counter, item)
  108.         r = requests.get(item, headers=index_headers)
  109.         # pic_name是图片名称
  110.         pic_name = item.split('/')[-1]
  111.         with open(pic_name, 'wb') as f:
  112.             f.write(r.content)
  113.         print(f'已下载{pic_name},共下载{counter}张。')
  114.         counter += 1


  115. if __name__ == '__main__':
  116.     main()

复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-7 10:49:18 From FishC Mobile | 显示全部楼层
有一个库helium,基于Selenium基础上的更加高级的web自动化工具
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-7 12:16:11 | 显示全部楼层
首先把链接贴在这里,可以去看看,非常好的一个库,用法也简单
链接:https://mp.weixin.qq.com/s/XvC-R0WUSqF7DokTJe2cpw
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-9-7 22:21:46 From FishC Mobile | 显示全部楼层
bonst 发表于 2020-9-7 12:16
首先把链接贴在这里,可以去看看,非常好的一个库,用法也简单
链接:https://mp.weixin.qq.com/s/XvC-R0W ...

额,这种不太适合学习者用吧
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-9-8 00:09:41 From FishC Mobile | 显示全部楼层
看你做啥子,反正我觉得可以,节省工作,之前用哪个requests库做这种工作感觉不如这个简单
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-6-26 23:32

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表