| 
 | 
 
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册  
 
x
 
 本帖最后由 1119625819 于 2023-1-31 21:50 编辑  
 
import requests 
import bs4 
 
res = requests.get("https:top250") 
soup = bs4.BeautifulSoup(res.text,"html.parser") 
targets = soup.find_all("div",class_="hd") 
print(res.text) 
print(res.status_code) 
for each in targets: 
    print(each.a.span.text) 
 
 
D:\Anaconda\envs\python\python.exe D:\python\kk.py  
 
418 
 
进程已结束,退出代码0 
 
上面的代码是截取豆瓣前250名的电影,但是我用pycharm运行后只出现上述结果,与一般情况不符合(应该会出现名字),而且没有显示print(res.text)的内容,但是print(res.status_code)却有显示,是遇到什么问题,那个网址没有完全打出(收到来自URL权限) 
因为有反爬机制,要加请求头模拟浏览器- import requests
 
 - import bs4
 
  
- headers = {'user-agent': 'Mozilla/5.0'}                        #  加了这行
 
 - res = requests.get("https://movie.douban.com/top250", headers=headers)      # 改了这行
 
 - soup = bs4.BeautifulSoup(res.text,"html.parser")
 
 - targets = soup.find_all("div",class_="hd")
 
 - print(res.text)
 
 - print(res.status_code)
 
 - for each in targets:
 
 -     print(each.a.span.text)
 
  复制代码 
 
 
 |   
 
 
 
 |