使用requests库

卍龘卐 · 发表于 2021-6-26 20:19:47

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

从豆瓣中选择一部自己喜欢的电影，爬取电影的100 条短评和评分，并将短评和评分保存为csv 格式
使用BeautifulSoup4 库分析HTML 数据
使用requests 库实现网络爬虫程序

编写一个程序
使用 requests库爬取 2021年全国大学排名，并按格式输出各大学数据，最后绘制前 10名大学分数柱状图
排名学校名称省市总分标签（一流大学A类，985，211）

南归 · 发表于 2021-6-26 21:18:37

suchocolate · 发表于 2021-6-26 22:41:58

先自己动手做，有代码问题再来问。

nahongyan1997 · 发表于 2021-6-27 09:29:32

这活二百鱼币我给你干了，不贵吧。

skyrimz · 发表于 2021-6-27 09:54:11

隔这小猿搜题呢？

nahongyan1997 · 发表于 2021-6-27 15:17:18

skyrimz 发表于 2021-6-27 09:54
隔这小猿搜题呢？

我怀疑你在打广告

kogawananari · 发表于 2021-6-27 18:31:40

skyrimz 发表于 2021-6-27 09:54
隔这小猿搜题呢？

搁这搁着呢

卍龘卐 · 发表于 2021-6-28 14:57:43

import json
import requests
def getHTMLText(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = r.apparent_encoding
return r.text
except:
return ""
def printUnivList(ulist, html, num):
data = json.loads(html)
content = data['data']['rankings']
for i in range(num):
global name
global score
index = content[i]['rankOverall']
name = content[i]['univNameCn']
score = content[i]['score']
category = content[i]['univTags']
ulist.append([index, name, score, str(category)])
tplt = "{0:^10}\t{1:{3}^10}\t{2:^10}\t{4:^10}"
print(tplt.format("排名", "学校名称", "总分", chr(12288), "标签"))
'''chr(12288）为中文空格编码'''
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], chr(12288), u[3]))
def main():
uinfo = []
url = 'https://www.shanghairanking.cn/api/pub/v1/bcur?bcur_type=11&year=2021'
html = getHTMLText(url)
printUnivList(uinfo, html, 10)
main()

复制代码

少写了省份，
输出的标签['一流大学A类', '985', '211']怎么去掉[]和"
ulist.append([index, name, score, str(category)])为什么没有str()会报错TypeError

卍龘卐 · 发表于 2021-6-28 15:30:03

import requests
import pandas
from bs4 import BeautifulSoup
r = requests.get('https://book.douban.com/subject/1084336/comments/').text
soup = BeautifulSoup(r, 'lxml')
pattern = soup.find_all('span', 'short')
for item in pattern:
print(item.string)
comments = []
for item in pattern:
comments.append(item.string)
f = pandas.DataFrame(comments)
f.to_csv('comments.csv', encoding='utf-8_sig')[color=DeepSkyBlue][/color]

复制代码

怎么用代理对付反爬虫呀

卍龘卐 · 发表于 2021-6-29 10:20:55

import json
import requests
def getHTMLText(url):
try:
r = requests.get(url)
r.raise_for_status()
r.encoding = "utf-8"
return r.text
except:
return ""
def printUnivList(ulist, html, num):
data = json.loads(html)
global content
content = data['data']['rankings']
for i in range(num):
index = content[i]['rankOverall']
name = content[i]['univNameCn']
province = content[i]['province']
score = content[i]['score']
category0 = content[i]['univTags']
category1 = str(category0)
category = category1.replace('[', '').replace(']', '').replace("'", '')
ulist.append([index, name, province, score, category])
tplt = "{0:^10}\t{1:^10}\t{2:^10}\t{3:^10}\t{5:^10}"
print(tplt.format("排名", "学校名称", "省市", "总分", chr(12288), "标签"))
# chr(12288）为中文空格编码
for i in range(num):
u = ulist[i]
print(tplt.format(u[0], u[1], u[2], u[3], chr(12288), u[4]))
def main():
uinfo = []
url = 'https://www.shanghairanking.cn/api/pub/v1/bcur?bcur_type=11&year=2021'
html = getHTMLText(url)
printUnivList(uinfo, html, 10)
if __name__ == '__main__':
main()

复制代码

剩画图了

账号		自动登录	找回密码
密码			立即注册

使用requests库

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块