鱼C论坛

 找回密码
 立即注册
查看: 1051|回复: 4

[已解决]跟着小甲鱼的视频操作却爬取不到top250电影的名字

[复制链接]
发表于 2023-10-25 21:31:33 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests
import bs4
res = requests.get('https://movie.douban.com/top250')
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets = soup.find_all('div',class_='hd')
for each in targets:
    print(each.a.span.text)

   
for each in targets:
        print(each.a.span.text)

        
到最后打印不出结果,请问哪出问题了?
最佳答案
2023-10-26 08:38:20
被反爬虫了(这个网站只会给浏览器发送数据)
需要加一个 headers 来假装自己是浏览器
import requests
import bs4
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250', headers=headers)
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets = soup.find_all('div',class_='hd')
print(targets)
for each in targets:
    print(each.a.span.text)

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-10-25 21:31:40 | 显示全部楼层
问题出在代码的循环部分。在你的代码中,你使用了两个相同的循环来打印电影的名字。这就导致了重复打印的问题。

解决这个问题的方法是将两个循环合并为一个循环,这样就可以正确地打印出电影的名字。以下是修改后的代码:
import requests
import bs4

res = requests.get('https://movie.douban.com/top250')
soup = bs4.BeautifulSoup(res.text, 'html.parser')
targets = soup.find_all('div', class_='hd')

for each in targets:
    print(each.a.span.text)

这样就可以正确地打印出top250电影的名字了。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-10-25 21:43:44 | 显示全部楼层
不是这个问题诶,两次打印是因为我第一次打印在IDLE中没有结果,所以再试了一次,结果还是没用
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-10-26 08:38:20 | 显示全部楼层    本楼为最佳答案   
被反爬虫了(这个网站只会给浏览器发送数据)
需要加一个 headers 来假装自己是浏览器
import requests
import bs4
headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36'}
res = requests.get('https://movie.douban.com/top250', headers=headers)
soup = bs4.BeautifulSoup(res.text,'html.parser')
targets = soup.find_all('div',class_='hd')
print(targets)
for each in targets:
    print(each.a.span.text)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-10-26 09:59:15 | 显示全部楼层
liuzhengyuan 发表于 2023-10-26 08:38
被反爬虫了(这个网站只会给浏览器发送数据)
需要加一个 headers 来假装自己是浏览器

感谢大大,折腾好久了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-6-28 23:50

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表