lengyue869 发表于 2020-11-4 14:06:28

爬取鱼C论坛按关键字搜索的帖子标题跟链接异常

本帖最后由 lengyue869 于 2020-11-10 07:53 编辑

在r=requests.get(url)这里直接报异常了,请问下是什么原因,tks!

def Get_Html(url):
    try:
      # header={'user-agent':'mozilla/5.0'}
      r=requests.get(url)
      r.raise_for_status()
      r.encoding=r.apparent_encoding
      return r.text
    except:
      return ''


import requests
import re

def Get_Html(url):
    try:
      # header={'user-agent':'mozilla/5.0'}
      r=requests.get(url)
      r.raise_for_status()
      r.encoding=r.apparent_encoding
      return r.text
    except:
      return ''


def Get_Info(info_list,html):
    try:
      str1=html.split('<h3 class="xs3">')(1)

    except:
      print('get_info error')


def Show_Info(info_list):
    pass


if __name__ == '__main__':
    keyword='tkinter'
    page=2
    original_url='https://fishc.com.cn/search.php?mod=forum&searchsubmit=yes&searchid=112&kw='+keyword
    info_list=[]
    for i in range(page):
      try:
            url=original_url+'&page='+str(i+1)
            html=Get_Html(url)
            Get_Info(info_list,html)
            Show_Info(info_list)
      except:
            print('異常')

kogawananari 发表于 2020-11-4 15:28:02

估计是403或者30几鱼C访问有IP频次限制 你得用IP池

lengyue869 发表于 2020-11-4 16:19:17

kogawananari 发表于 2020-11-4 15:28
估计是403或者30几鱼C访问有IP频次限制 你得用IP池

異常: HTTPSConnectionPool(host='fishc.com.cn', port=443): Max retries exceeded with url: /forum-173-1.html (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x000001CA81927E20>: Failed to establish a new connection: 連線嘗試失敗,因為連線對象有一段時間並未正確回應,或是連線建立失敗,因為連線的主機無法回應。'))

kogawananari 发表于 2020-11-4 16:23:29

lengyue869 发表于 2020-11-4 16:19
異常: HTTPSConnectionPool(host='fishc.com.cn', port=443): Max retries exceeded with url: /forum-17 ...

就是这个访问 频率太高了的 要换IP

suchocolate 发表于 2020-11-4 17:23:07

本帖最后由 suchocolate 于 2020-11-4 17:24 编辑

没cookie,或者说没有登陆。得先登陆,保持session才能使用论坛的搜索功能。

bonst 发表于 2020-11-4 20:02:45

楼上正解

lengyue869 发表于 2020-11-4 23:12:09

家里的网络就没问题,可能是因为公司用了代理导致的
页: [1]
查看完整版本: 爬取鱼C论坛按关键字搜索的帖子标题跟链接异常