qin_yin 发表于 2020-11-17 21:11:56

为什么http://www.fishc.com爬下是这样子的

Why?

笨鸟学飞 发表于 2020-11-17 22:13:11

没代码不好告诉你为什么,我这爬取没问题
import requests


def geturl(url):
    headers = {
      'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36 Core/1.70.3776.400 QQBrowser/10.6.4212.400'
    }
    res = requests.get(url,headers=headers)
    if res.status_code != 200:
      print('爬取异常,请检查网络后稍后重试!')
    else:
      return res

def main():
    url = 'https://movie.douban.com/top250'
    res = geturl(url)
    print(res.text)

if __name__ == '__main__':
    main()

qin_yin 发表于 2020-11-17 22:27:38

笨鸟学飞 发表于 2020-11-17 22:13
没代码不好告诉你为什么,我这爬取没问题

你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'

Lamotu 发表于 2020-11-18 09:05:15

qin_yin 发表于 2020-11-17 22:27
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'

pip install requests
你没装第三方库

笨鸟学飞 发表于 2020-11-18 11:01:02

qin_yin 发表于 2020-11-17 22:27
你这个代码我第一行报错
ModuleNotFoundError: No module named 'requests'

装下模块吧,写爬虫必备的 requests模块,和BeautifulSoup模块

_荟桐_ 发表于 2020-11-18 12:39:22

本帖最后由 _荟桐_ 于 2020-11-18 12:40 编辑

是要爬鱼c论坛主页还是有视频的那个页面?
主页www.fishc.com.cn
打开有个视频的那个网页是www.fishc.com
这两个网址不一样,打开看看就知道了


而且爬下来的是网页的源代码,用html打开有些内容显示不了(应该把文件后缀改成txt)
页: [1]
查看完整版本: 为什么http://www.fishc.com爬下是这样子的