鱼C论坛

 找回密码
 立即注册
查看: 9704|回复: 19

[已解决]python 爬取豆瓣 被封ip怎么办

[复制链接]
发表于 2022-1-15 22:42:41 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 是阿佳! 于 2022-1-18 14:08 编辑

已经用代理、写headers,但是还是出现这样的问题

  1. import pickle, random, requests, bs4

  2. def loadips():

  3.     with open('ips2.pkl', 'rb') as f:
  4.         ips = pickle.load(f)

  5.     return ips



  6. def getSoup(ips):
  7.    
  8.     headers = {"User-Agent":"ozilla/5.0 (Windows NT 10.0; " \
  9.                + "Win64; x64) AppleWebKit/537.36 (KHTML, like " \
  10.                + "Gecko) Chrome/97.0.4692.71 Safari/537.36"}
  11.    
  12.     hosts, nums, soups = [], [i*25 for i in range(10)], []


  13.     for i in nums:
  14.         hosts.append("https://movie.douban.com/top250?start=" + str(i) +"&filter=")


  15.     for i in hosts:
  16.         
  17.         proxy = {'http': random.choice(ips)}
  18.         res = requests.get(i, \
  19.                        headers=headers, proxies=proxy)

  20.         html = bs4.BeautifulSoup(res.text, "html.parser")
  21.         soups.append(html)
  22.         print(proxy)
  23.         print(html)
  24.         print('='*100)

  25.     return soups



  26. getSoup(loadips())

复制代码


打印结果:


  1. {'http': '219.246.65.55:80'}
  2. <html>
  3. <head>
  4. <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  5. <meta content="width=device-width, initial-scale=1" name="viewport"/>
  6. <title>豆瓣 - 登录跳转页</title>
  7. <style type="text/css">
  8.         body{font-family:Arial,Helvetica,sans-serif;font-size:14px;}
  9.         h1{font-size:25px;margin:25px 0 10px 0;}
  10.     </style>
  11. </head>
  12. <body>
  13. <div>
  14. <div style="margin:20px auto;">
  15. <div style="font-size:25px;color:#1b9336;border-bottom:5px solid #eef9eb">
  16. <span style="font-size:20px;font-weight:bold">豆瓣</span> d<span style="color:#0092c8">o</span><span style="color:#ffad68">u</span><span>b</span><span style="color:#0092c8">a</span><span style="color:#ffad68">n</span>
  17. </div>
  18. <h1>登录跳转</h1>
  19. <div><p>有异常请求从你的 IP 发出,请 <a href="https://accounts.douban.com/passport/login?redir=https%3A%2F%2Fmovie.douban.com%2Ftop250%3Fstart%3D0%26filter%3D">登录</a> 使用豆瓣</p></div>
  20. </div>
  21. </div>
  22. </body>
  23. </html>

  24. ====================================================================================================
  25. {'http': '222.74.73.202:42055'}
  26. <html>
  27. <head>
  28. <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  29. <meta content="width=device-width, initial-scale=1" name="viewport"/>
  30. <title>豆瓣 - 登录跳转页</title>
  31. <style type="text/css">
  32.         body{font-family:Arial,Helvetica,sans-serif;font-size:14px;}
  33.         h1{font-size:25px;margin:25px 0 10px 0;}
  34.     </style>
  35. </head>
  36. <body>
  37. <div>
  38. <div style="margin:20px auto;">
  39. <div style="font-size:25px;color:#1b9336;border-bottom:5px solid #eef9eb">
  40. <span style="font-size:20px;font-weight:bold">豆瓣</span> d<span style="color:#0092c8">o</span><span style="color:#ffad68">u</span><span>b</span><span style="color:#0092c8">a</span><span style="color:#ffad68">n</span>
  41. </div>
  42. <h1>登录跳转</h1>
  43. <div><p>有异常请求从你的 IP 发出,请 <a href="https://accounts.douban.com/passport/login?redir=https%3A%2F%2Fmovie.douban.com%2Ftop250%3Fstart%3D25%26filter%3D">登录</a> 使用豆瓣</p></div>
  44. </div>
  45. </div>
  46. </body>
  47. </html>

  48. ====================================================================================================
  49. {'http': '59.63.74.63:8118'}
  50. <html>
  51. <head>
  52. <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  53. <meta content="width=device-width, initial-scale=1" name="viewport"/>
  54. <title>豆瓣 - 登录跳转页</title>
  55. <style type="text/css">
  56.         body{font-family:Arial,Helvetica,sans-serif;font-size:14px;}
  57.         h1{font-size:25px;margin:25px 0 10px 0;}
  58.     </style>
  59. </head>
  60. <body>
  61. <div>
  62. <div style="margin:20px auto;">
  63. <div style="font-size:25px;color:#1b9336;border-bottom:5px solid #eef9eb">
  64. <span style="font-size:20px;font-weight:bold">豆瓣</span> d<span style="color:#0092c8">o</span><span style="color:#ffad68">u</span><span>b</span><span style="color:#0092c8">a</span><span style="color:#ffad68">n</span>
  65. </div>
  66. <h1>登录跳转</h1>
  67. <div><p>有异常请求从你的 IP 发出,请 <a href="https://accounts.douban.com/passport/login?redir=https%3A%2F%2Fmovie.douban.com%2Ftop250%3Fstart%3D50%26filter%3D">登录</a> 使用豆瓣</p></div>
  68. </div>
  69. </div>
  70. </body>
  71. </html>
复制代码


我不用代理也是这个样子
  1. import requests, bs4

  2. def getSoup():
  3.    
  4.     headers = {"User-Agent":"ozilla/5.0 (Windows NT 10.0; " \
  5.                + "Win64; x64) AppleWebKit/537.36 (KHTML, like " \
  6.                + "Gecko) Chrome/97.0.4692.71 Safari/537.36"}
  7.    
  8.     hosts, nums, soups = [], [i*25 for i in range(10)], []


  9.     for i in nums:
  10.         hosts.append("https://movie.douban.com/top250?start=" + str(i) +"&filter=")


  11.     for i in hosts:

  12.         res = requests.get(i, \
  13.                        headers=headers)

  14.         html = bs4.BeautifulSoup(res.text, "html.parser")
  15.         soups.append(html)
  16.         print(html)
  17.         print('='*100)

  18.     return soups



  19. getSoup()
复制代码
  1. <html>
  2. <head>
  3. <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  4. <meta content="width=device-width, initial-scale=1" name="viewport"/>
  5. <title>豆瓣 - 登录跳转页</title>
  6. <style type="text/css">
  7.         body{font-family:Arial,Helvetica,sans-serif;font-size:14px;}
  8.         h1{font-size:25px;margin:25px 0 10px 0;}
  9.     </style>
  10. </head>
  11. <body>
  12. <div>
  13. <div style="margin:20px auto;">
  14. <div style="font-size:25px;color:#1b9336;border-bottom:5px solid #eef9eb">
  15. <span style="font-size:20px;font-weight:bold">豆瓣</span> d<span style="color:#0092c8">o</span><span style="color:#ffad68">u</span><span>b</span><span style="color:#0092c8">a</span><span style="color:#ffad68">n</span>
  16. </div>
  17. <h1>登录跳转</h1>
  18. <div><p>有异常请求从你的 IP 发出,请 <a href="https://accounts.douban.com/passport/login?redir=https%3A%2F%2Fmovie.douban.com%2Ftop250%3Fstart%3D0%26filter%3D">登录</a> 使用豆瓣</p></div>
  19. </div>
  20. </div>
  21. </body>
  22. </html>

  23. ====================================================================================================
  24. <html>
  25. <head>
  26. <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  27. <meta content="width=device-width, initial-scale=1" name="viewport"/>
  28. <title>豆瓣 - 登录跳转页</title>
  29. <style type="text/css">
  30.         body{font-family:Arial,Helvetica,sans-serif;font-size:14px;}
  31.         h1{font-size:25px;margin:25px 0 10px 0;}
  32.     </style>
  33. </head>
  34. <body>
  35. <div>
  36. <div style="margin:20px auto;">
  37. <div style="font-size:25px;color:#1b9336;border-bottom:5px solid #eef9eb">
  38. <span style="font-size:20px;font-weight:bold">豆瓣</span> d<span style="color:#0092c8">o</span><span style="color:#ffad68">u</span><span>b</span><span style="color:#0092c8">a</span><span style="color:#ffad68">n</span>
  39. </div>
  40. <h1>登录跳转</h1>
  41. <div><p>有异常请求从你的 IP 发出...
复制代码


是用浏览器却能正常访问,是不是cookie的问题????

这里改UA,加上cookie和time.sleep(1)即可
最佳答案
2022-1-16 07:16:38
是你的UA的问题吧,“Mozilla”少了个“M”
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-15 22:45:22 | 显示全部楼层

回帖奖励 +10 鱼币

都被人封了, 就算了吧 ,哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2022-1-15 22:48:35 | 显示全部楼层
王尧 发表于 2022-1-15 22:45
都被人封了, 就算了吧 ,哥

是我找的ip不靠谱吗
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-15 23:11:43 | 显示全部楼层
是阿佳! 发表于 2022-1-15 22:48
是我找的ip不靠谱吗

不好意思,我不懂python,我只会web
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-16 07:16:38 | 显示全部楼层    本楼为最佳答案   

回帖奖励 +10 鱼币

是你的UA的问题吧,“Mozilla”少了个“M”
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-16 10:55:06 | 显示全部楼层

回帖奖励 +10 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-16 11:07:12 | 显示全部楼层

回帖奖励 +10 鱼币

无解
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-16 12:56:31 | 显示全部楼层

回帖奖励 +10 鱼币

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-16 13:11:02 | 显示全部楼层

回帖奖励 +10 鱼币

谢谢
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-16 13:18:56 | 显示全部楼层

回帖奖励 +10 鱼币

没事,貌似豆瓣的解封时间是 48 小时,如果你能用浏览器正常访问豆瓣的话,那就没什么问题了,之前我也被封过,后来过了 48 小时就解封了,耐心等待吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2022-1-16 13:36:10 | 显示全部楼层

回帖奖励 +10 鱼币

你连一个sleep都不肯加,怎么能不封你的ip,你这种访问行为和ddos有什么两样呢?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2022-1-16 13:44:20 | 显示全部楼层

回帖奖励 +10 鱼币

还能访问应该没被封ip吧
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-16 14:51:48 | 显示全部楼层

回帖奖励 +10 鱼币

封了就算了吧,哥
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-17 09:18:52 | 显示全部楼层
.
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-17 11:41:57 | 显示全部楼层
不懂
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-17 20:39:01 | 显示全部楼层
厉害啊,都玩爬虫了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2022-1-24 10:46:18 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-24 13:04:47 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-1-24 14:17:47 | 显示全部楼层
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-2-7 10:54:20 | 显示全部楼层
代理ip从哪里搞的呀,老大,我也想采集一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-4-29 01:55

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表