[已解决]求助

大嗄鱼 · 发表于 2018-1-9 16:37:12

环境win64位py3.6.4代码如下，是MOOC大学里一个网络爬虫的代码：
import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
   try:
         r = requests.get(url,timeout = 30)
         r.raise_for_status()
         r.encoding = r.apparent_encoding
         return r.text
   except:
         return ""

def fillUnivList(ulist,html):
   soup = BeautifulSoup(html,"html.parser")
   for tr in soup.f('/td').children:
         if isinstance(tr,bs4.element.Tag):
               tds = tr('td')
               ulist.append([tds[0].string,tds[1].string,tds[3].string])

def printUnivList(ulist,num):
   print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
   for i in range(num):
         u = ulist[i]
         print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))

def main():
   uinfo = []
   url = 'http://www.zuihaodaxue.cn/shengyuanzhiliangpaiming2016.html'
   html = getHTMLText(url)
   fillUnivList(uinfo,html)
   printUnivList(uinfo)
main()

回溯（最后调用）:
  File "C:\Users\Administrator\Music\爬世界大学排行榜.py", line 34, in <module>
main()
  File "C:\Users\Administrator\Music\爬世界大学排行榜.py", line 32, in main
fillUnivList(uinfo,html)
  File "C:\Users\Administrator\Music\爬世界大学排行榜.py", line 17, in fillUnivList
for tr in soup.f('/td').children:
TypeError: 'NoneType' object is not callable

最佳答案

月排行榜 / 总排行榜

久疤K

2018-1-9 16:37:13

我调试了下，你这个代码很多地方不全，我做了些修改，你看下

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url,timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(ulist,html):
soup = BeautifulSoup(html,"html.parser")
for tr in soup.findAll('tr'):
if isinstance(tr,bs4.element.Tag):
tds = tr('td')
if tds == None or len(tds)==0:
continue
# print(tds)
ulist.append([tds[0].string,tds[1].string,tds[3].string])
def printUnivList(ulist,num):
print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
for i in range(num):
u = ulist[i]
print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))
def main():
uinfo = []
url = 'http://www.zuihaodaxue.cn/shengyuanzhiliangpaiming2016.html'
html = getHTMLText(url)
fillUnivList(uinfo,html)
printUnivList(uinfo, 20)
if __name__ == "__main__":
main()

复制代码

跳转到最佳答案楼层

久疤K · 发表于 2018-1-9 16:37:13

我调试了下，你这个代码很多地方不全，我做了些修改，你看下

import requests
from bs4 import BeautifulSoup
import bs4
def getHTMLText(url):
try:
r = requests.get(url,timeout = 30)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def fillUnivList(ulist,html):
soup = BeautifulSoup(html,"html.parser")
for tr in soup.findAll('tr'):
if isinstance(tr,bs4.element.Tag):
tds = tr('td')
if tds == None or len(tds)==0:
continue
# print(tds)
ulist.append([tds[0].string,tds[1].string,tds[3].string])
def printUnivList(ulist,num):
print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
for i in range(num):
u = ulist[i]
print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))
def main():
uinfo = []
url = 'http://www.zuihaodaxue.cn/shengyuanzhiliangpaiming2016.html'
html = getHTMLText(url)
fillUnivList(uinfo,html)
printUnivList(uinfo, 20)
if __name__ == "__main__":
main()

复制代码

大嗄鱼 · 发表于 2018-1-9 16:38:04

大嗄鱼 · 发表于 2018-1-9 16:38:34

大嗄鱼 · 发表于 2018-1-9 16:39:04

BngThea · 发表于 2018-1-9 16:59:26

根据提示来看
soup.f('/td').children 为空，说明爬取失败

大嗄鱼 · 发表于 2018-1-9 17:26:17

久疤K 发表于 2018-1-9 16:37
我调试了下，你这个代码很多地方不全，我做了些修改，你看下

谢谢

久疤K · 发表于 2018-1-9 17:27:52

大嗄鱼发表于 2018-1-9 17:26
谢谢

不谢，我也在锻炼，

最主要的是挣鱼币

大嗄鱼 · 发表于 2018-1-10 09:44:43

久疤K 发表于 2018-1-9 17:27
不谢，我也在锻炼，最主要的是挣鱼币

我自己又琢磨了一下，如下：

import requests
from bs4 import BeautifulSoup
import bs4

def getHTMLText(url):
   try:
         r = requests.get(url,timeout = 3000)
         r.raise_for_status()
         r.encoding = r.apparent_encoding
         return r.text
   except:
         return ""

def fillUnivList(ulist,html):
   soup = BeautifulSoup(html,"html.parser")
   for tr in soup.find('tbody').children:##error
         if isinstance(tr,bs4.element.Tag):
               tds = tr('td')
               ulist.append([tds[0].string,tds[1].string,tds[3].string])

def printUnivList(ulist,num):
   print("{:^10}\t{:^6}\t{:^10}".format("排名","学校名称","总分"))
   for i in range(num):
         u = ulist[i]##error
         print("{:^10}\t{:^6}\t{:^10}".format(u[0],u[1],u[2]))

def main():
   uinfo = []
   url = 'http://www.zuihaodaxue.cn/shengyuanzhiliangpaiming2016.html'
   html = getHTMLText(url)
   fillUnivList(uinfo,html)
   printUnivList(uinfo,500)
main()

久疤K · 发表于 2018-1-10 12:06:15

大嗄鱼发表于 2018-1-10 09:44
我自己又琢磨了一下，如下：

import requests

可以的，加油，大嘎鱼会变成小甲鱼的

账号		自动登录	找回密码
密码			立即注册