为什么http://www.fishc.com爬下是这样子的,Python交流,编程语言专区,鱼C论坛

qin_yin 发表于 2020-11-17 21:11:56

为什么http://www.fishc.com爬下是这样子的

Why?

笨鸟学飞 发表于 2020-11-17 22:13:11

没代码不好告诉你为什么，我这爬取没问题
import requests

def geturl(url):
headers = {
   'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'
}
res = requests.get(url,headers=headers)
if res.status_code != 200:
   print('爬取异常，请检查网络后稍后重试！')
else:
   return res

def main():
url = 'https://movie.douban.com/top250'
res = geturl(url)
print(res.text)

if __name__ == '__main__':
main()

qin_yin 发表于 2020-11-17 22:27:38

笨鸟学飞发表于 2020-11-17 22:13
没代码不好告诉你为什么，我这爬取没问题

你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'

Lamotu 发表于 2020-11-18 09:05:15

qin_yin 发表于 2020-11-17 22:27
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'

pip install requests
你没装第三方库

笨鸟学飞 发表于 2020-11-18 11:01:02

qin_yin 发表于 2020-11-17 22:27
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'

装下模块吧，写爬虫必备的 requests模块，和BeautifulSoup模块

_荟桐_ 发表于 2020-11-18 12:39:22

本帖最后由 _荟桐_ 于 2020-11-18 12:40 编辑

是要爬鱼c论坛主页还是有视频的那个页面？
主页www.fishc.com.cn
打开有个视频的那个网页是www.fishc.com
这两个网址不一样，打开看看就知道了

而且爬下来的是网页的源代码，用html打开有些内容显示不了（应该把文件后缀改成txt）

页: [1]

鱼C论坛's Archiver

为什么http://www.fishc.com爬下是这样子的