17623095765 发表于 2021-3-12 18:30:57

爬虫text里面没有东西

import requests
import bs4
import re

b=requests.get('https://movie.douban.com/top250')

c=bs4.BeautifulSoup(b.text,'html.parser')

>>> b
<Response >
>>> b.text
''
>>>

我要爬豆瓣电影,也试了模式浏览器但是这个b.text每次都没有东西

YunGuo 发表于 2021-3-13 17:05:01

import requests

header = {'user-agent': 'Mozilla/5.0'}
res = requests.get('https://movie.douban.com/top250', headers=header)
print(res.text)

17623095765 发表于 2021-3-13 19:19:37

YunGuo 发表于 2021-3-13 17:05


请问一下是模拟浏览器的问题吗

YunGuo 发表于 2021-3-13 19:48:16

17623095765 发表于 2021-3-13 19:19
请问一下是模拟浏览器的问题吗

是,以后写代码养成好习惯,请求网页时添加user-agent伪装一下,大部分网站都会通过请求头判断是不是脚本,不伪装请求头就获取不到正确数据。

私はり 发表于 2021-3-13 20:09:42

不加headers可能会被反爬
页: [1]
查看完整版本: 爬虫text里面没有东西