爬取鱼C论坛按关键字搜索的帖子标题跟链接异常
本帖最后由 lengyue869 于 2020-11-10 07:53 编辑在r=requests.get(url)这里直接报异常了,请问下是什么原因,tks!
def Get_Html(url):
try:
# header={'user-agent':'mozilla/5.0'}
r=requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return ''
import requests
import re
def Get_Html(url):
try:
# header={'user-agent':'mozilla/5.0'}
r=requests.get(url)
r.raise_for_status()
r.encoding=r.apparent_encoding
return r.text
except:
return ''
def Get_Info(info_list,html):
try:
str1=html.split('<h3 class="xs3">')(1)
except:
print('get_info error')
def Show_Info(info_list):
pass
if __name__ == '__main__':
keyword='tkinter'
page=2
original_url='https://fishc.com.cn/search.php?mod=forum&searchsubmit=yes&searchid=112&kw='+keyword
info_list=[]
for i in range(page):
try:
url=original_url+'&page='+str(i+1)
html=Get_Html(url)
Get_Info(info_list,html)
Show_Info(info_list)
except:
print('異常')
估计是403或者30几鱼C访问有IP频次限制 你得用IP池 kogawananari 发表于 2020-11-4 15:28
估计是403或者30几鱼C访问有IP频次限制 你得用IP池
異常: HTTPSConnectionPool(host='fishc.com.cn', port=443): Max retries exceeded with url: /forum-173-1.html (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x000001CA81927E20>: Failed to establish a new connection: 連線嘗試失敗,因為連線對象有一段時間並未正確回應,或是連線建立失敗,因為連線的主機無法回應。')) lengyue869 发表于 2020-11-4 16:19
異常: HTTPSConnectionPool(host='fishc.com.cn', port=443): Max retries exceeded with url: /forum-17 ...
就是这个访问 频率太高了的 要换IP 本帖最后由 suchocolate 于 2020-11-4 17:24 编辑
没cookie,或者说没有登陆。得先登陆,保持session才能使用论坛的搜索功能。 楼上正解 家里的网络就没问题,可能是因为公司用了代理导致的
页:
[1]