设为首页收藏本站

切换到窄版

鱼C论坛»论坛 › 编程语言专区 › Python交流 › 反扒

发新帖

查看: 2194|回复: 3

[已解决]反扒

发表于 2020-4-3 13:52:30 | 显示全部楼层 |阅读模式

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
try:
      headers = {'User-Agent':'Mozilla/5.0',\
               'Accept':'*/*',\
               'Accept-Encoding':'gzip',\
               'Accept-Language':'zh-Hans-CN',\
               'Cha-Control':'no-cacha',\
               'Host':'img3.doubanio.com',\
               }
      r = requests.get(url,headers=headers)
      r.encoding = r.apparent_encoding
      r.raise_for_status
      print(r.status_code)
      return r,text
except:
      return '爬取失败'

def fillTop(html,ulist):
soup = BeautifulSoup(html,"html.parser")
movie = soup.find_all('li')
for i in movie:
      ulist.append(i.div.div.em.text)

def printMovie(ulist):
print(ulist)

def main():
url = "https://movie.douban.com/top250"
html = getHTMLText(url)
unifo = []
fillTop(html,unifo)
printMovie(unifo)

main()
  404了，

最佳答案

月排行榜 / 总排行榜

zltzlt

2020-4-3 18:12:32

只用加 User-Agent 就可以了

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
headers = {'User-Agent': 'Mozilla/5.0'}
r = requests.get(url, headers=headers)
r.encoding = r.apparent_encoding
print(r.status_code)
return r.text
except Exception:
return '爬取失败'
def fillTop(html, ulist):
soup = BeautifulSoup(html, "html.parser")
movie = soup.find_all('li')
for i in movie:
ulist.append(i.div.div.em.text)
def printMovie(ulist):
print(ulist)
def main():
url = "https://movie.douban.com/top250"
html = getHTMLText(url)
unifo = []
fillTop(html, unifo)
printMovie(unifo)
main()

复制代码

跳转到最佳答案楼层

小甲鱼最新课程 -> https://ilovefishc.com

回复

使用道具举报

发表于 2020-4-3 14:41:50 | 显示全部楼层

404是请求错误就像你请求google一样永远都是404
可能是网络原因请求超时了你调整一下请求超时的时间而且这个TOP250就没有反爬

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

楼主| 发表于 2020-4-3 15:31:46 | 显示全部楼层

admintest166 发表于 2020-4-3 14:41
404是请求错误就像你请求google一样永远都是404
可能是网络原因请求超时了你调整一下请求超时的时间 ...

它这个直接爬返回的是418，然后我设置了表头返回的是404

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发表于 2020-4-3 18:12:32 | 显示全部楼层本楼为最佳答案

这个最佳答案由 zltzlt 给出，感谢 zltzlt 的回答。

单击隐藏图章

只用加 User-Agent 就可以了

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
headers = {'User-Agent': 'Mozilla/5.0'}
r = requests.get(url, headers=headers)
r.encoding = r.apparent_encoding
print(r.status_code)
return r.text
except Exception:
return '爬取失败'
def fillTop(html, ulist):
soup = BeautifulSoup(html, "html.parser")
movie = soup.find_all('li')
for i in movie:
ulist.append(i.div.div.em.text)
def printMovie(ulist):
print(ulist)
def main():
url = "https://movie.douban.com/top250"
html = getHTMLText(url)
unifo = []
fillTop(html, unifo)
printMovie(unifo)
main()

复制代码

小甲鱼最新课程 -> https://ilovefishc.com

回复支持反对

使用道具举报

发新帖

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-7-17 15:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表