鱼C论坛

 找回密码
 立即注册
查看: 2533|回复: 17

[已解决]效率革命爬虫篇的第一个简单例子运行不了

[复制链接]
发表于 2020-2-8 21:40:15 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 一个账号 于 2020-2-8 21:44 编辑


就是运行之后什么都没有,刚刚调试了一下,好像执行到第 7 行就不执行了,这是为什么?

代码如下:

  1. import requests
  2. import bs4

  3. res = requests.get("https://movie.douban.com/top250")
  4. soup = bs4.BeautifulSoup(res.text, "html.parser")
  5. targets = soup.find_all("div", _class="hd")
  6. for each in targets:
  7.     print(each.a.span.text)
复制代码


图片:

1.png
最佳答案
2020-2-8 21:57:12

这样呢?

  1. import requests
  2. import bs4

  3. res = requests.get("https://movie.douban.com/top250", headers={
  4.     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
  5.                   "(KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"})

  6. soup = bs4.BeautifulSoup(res.text, "html.parser")
  7. targets = soup.find_all("div", class_="hd")
  8. for each in targets:
  9.     print(each.a.span.text)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2020-2-8 21:50:24 | 显示全部楼层
原来的例子已经不适用了。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 21:50:38 | 显示全部楼层
zltzlt 发表于 2020-2-8 21:50
原来的例子已经不适用了。


为什么?
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 21:51:59 | 显示全部楼层
网站增加了反爬虫机制。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 21:52:08 From FishC Mobile | 显示全部楼层
一个账号 发表于 2020-2-8 21:50
为什么?

headers???哪去了
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 21:52:30 | 显示全部楼层
zltzlt 发表于 2020-2-8 21:51
网站增加了反爬虫机制。


怎么又是这句话
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 21:52:42 | 显示全部楼层
这样就可以了:

  1. import requests
  2. import bs4

  3. res = requests.get("https://movie.douban.com/top250", headers={"User-Agent": "Mozilla/5.0"})

  4. soup = bs4.BeautifulSoup(res.text, "html.parser")
  5. targets = soup.find_all("div", class_="hd")
  6. for each in targets:
  7.     print(each.a.span.text)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 21:54:15 | 显示全部楼层
zltzlt 发表于 2020-2-8 21:52
这样就可以了:

那个 user-agent 在我这里找不到
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 21:54:48 | 显示全部楼层
一个账号 发表于 2020-2-8 21:54
那个 user-agent 在我这里找不到

在我这里用那段代码是可以的。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 21:55:48 | 显示全部楼层
zltzlt 发表于 2020-2-8 21:54
在我这里用那段代码是可以的。

在我这里不行
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 21:57:12 | 显示全部楼层    本楼为最佳答案   

这样呢?

  1. import requests
  2. import bs4

  3. res = requests.get("https://movie.douban.com/top250", headers={
  4.     "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 "
  5.                   "(KHTML, like Gecko) Chrome/76.0.3809.87 Safari/537.36"})

  6. soup = bs4.BeautifulSoup(res.text, "html.parser")
  7. targets = soup.find_all("div", class_="hd")
  8. for each in targets:
  9.     print(each.a.span.text)
复制代码
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 21:59:08 | 显示全部楼层

这样就可以了,谢谢。

你那个 User-Agent 到底实在哪的,我找到的运行不了,截个图,谢谢。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 22:00:13 | 显示全部楼层
一个账号 发表于 2020-2-8 21:59
这样就可以了,谢谢。

你那个 User-Agent 到底实在哪的,我找到的运行不了,截个图,谢谢。

1.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 22:01:47 | 显示全部楼层
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 22:02:01 | 显示全部楼层

审查元素
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 22:03:31 | 显示全部楼层

我是说这个:

1.png
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-2-8 22:04:41 | 显示全部楼层

随便点击一个文件,找到 Requests Header

评分

参与人数 1鱼币 +1 收起 理由
一个账号 + 1 OK,知道了,写了

查看全部评分

小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-2-8 22:07:31 | 显示全部楼层
zltzlt 发表于 2020-2-8 22:04
随便点击一个文件,找到 Requests Header

评分理由不小心打错字了,是"谢了"
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2026-3-3 20:21

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表