为什么http://www.fishc.com爬下是这样子的
Why? 没代码不好告诉你为什么,我这爬取没问题import requests
def geturl(url):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'
}
res = requests.get(url,headers=headers)
if res.status_code != 200:
print('爬取异常,请检查网络后稍后重试!')
else:
return res
def main():
url = 'https://movie.douban.com/top250'
res = geturl(url)
print(res.text)
if __name__ == '__main__':
main()
笨鸟学飞 发表于 2020-11-17 22:13
没代码不好告诉你为什么,我这爬取没问题
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests' qin_yin 发表于 2020-11-17 22:27
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'
pip install requests
你没装第三方库 qin_yin 发表于 2020-11-17 22:27
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'
装下模块吧,写爬虫必备的 requests模块,和BeautifulSoup模块 本帖最后由 _荟桐_ 于 2020-11-18 12:40 编辑
是要爬鱼c论坛主页还是有视频的那个页面?
主页www.fishc.com.cn
打开有个视频的那个网页是www.fishc.com
这两个网址不一样,打开看看就知道了
而且爬下来的是网页的源代码,用html打开有些内容显示不了(应该把文件后缀改成txt)
页:
[1]