[已解决]想爬取完整的250个电影，这个代码我得怎么完善

小龟龙 · 发表于 2023-6-2 16:39:32

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

如图所示，现在代码运行之后值爬到第一页面的25个电影内容，我知道他每页?start=0&filter=；“0”这个参数依次递增25，那就可以

num = 0
while num <= 250:
print(num)
num += 25

复制代码

不是太清楚这个数字得怎么代入到url网址里，跟怎么获取全部页面 250个电影的源代码？

最佳答案

月排行榜 / 总排行榜

歌者文明清理员

2023-6-3 13:12:45

小龟龙发表于 2023-6-3 08:44
老哥，那个f缩进在循环里面了，最后面的f.close,显示f未定义，怎么搞，没close我又怕一会封ip了

import requests

import re

import csv

f = open("date.csv", mode="w")

csvwriter = csv.writer(f)

num = 0

while num <= 250:

print(num)

# 获取网页的内容

url = f"https://movie.douban.com/top250?start={num}&filter="

headers = {

 "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

}

resp = requests.get(url,headers=headers)

page_content = resp.text

# 对网页的内容进行解析

obj = re.compile(r'<li>.*?(?P<name>.*?)'

 r'.*? (?P<year>.*?)&nbsp.*?'

 r'(?P<score>.*?).*?(?P<num>.*?)人评价', re.S)

result = obj.finditer(page_content)

for it in result:

 # print(it.group("name"))

 # print(it.group("score"))

 # print(it.group("num"))

 # print(it.group("year").strip())

 dic = it.groupdict()

 dic['year'] = dic['year'].strip()

 csvwriter.writerow(dic.values())

num += 25

f.close()

print("over!")

复制代码

没仔细看代码，失礼了

跳转到最佳答案楼层

歌者文明清理员 · 发表于 2023-6-2 17:01:35

代码放上来，手巧很累

小龟龙 · 发表于 2023-6-2 17:10:41

歌者文明清理员发表于 2023-6-2 17:01
代码放上来，手巧很累

import requests
import re
import csv
# 获取网页的内容
url = "https://movie.douban.com/top250?start=25&filter="
headers = {
"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
resp = requests.get(url,headers=headers)
page_content = resp.text
# 对网页的内容进行解析
obj = re.compile(r'<li>.*?(?P<name>.*?)'
r'.*? (?P<year>.*?)&nbsp.*?'
r'(?P<score>.*?).*?(?P<num>.*?)人评价', re.S)
result = obj.finditer(page_content)
f = open("date.csv", mode="w")
csvwriter = csv.writer(f)
for it in result:
# print(it.group("name"))
# print(it.group("score"))
# print(it.group("num"))
# print(it.group("year").strip())
dic = it.groupdict()
dic['year'] = dic['year'].strip()
csvwriter.writerow(dic.values())
f.close()
print("over!")

复制代码

歌者文明清理员 · 发表于 2023-6-2 17:13:04

小龟龙发表于 2023-6-2 17:10

import requests
import re
import csv
num = 0
while num <= 250:
print(num)
# 获取网页的内容
url = f"https://movie.douban.com/top250?start={num}&filter="
headers = {
"User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"
}
resp = requests.get(url,headers=headers)
page_content = resp.text
# 对网页的内容进行解析
obj = re.compile(r'<li>.*?(?P<name>.*?)'
r'.*? (?P<year>.*?)&nbsp.*?'
r'(?P<score>.*?).*?(?P<num>.*?)人评价', re.S)
result = obj.finditer(page_content)
f = open("date.csv", mode="w")
csvwriter = csv.writer(f)
for it in result:
# print(it.group("name"))
# print(it.group("score"))
# print(it.group("num"))
# print(it.group("year").strip())
dic = it.groupdict()
dic['year'] = dic['year'].strip()
csvwriter.writerow(dic.values())
num += 25
f.close()
print("over!")

复制代码

小龟龙 · 发表于 2023-6-2 18:01:15

歌者文明清理员发表于 2023-6-2 17:13

好我试试看

小龟龙 · 发表于 2023-6-3 08:44:01

歌者文明清理员发表于 2023-6-2 17:13

老哥，那个f缩进在循环里面了，最后面的f.close,显示f未定义，怎么搞，没close我又怕一会封ip了

歌者文明清理员 · 发表于 2023-6-3 13:12:45

小龟龙发表于 2023-6-3 08:44
老哥，那个f缩进在循环里面了，最后面的f.close,显示f未定义，怎么搞，没close我又怕一会封ip了

import requests

import re

import csv

f = open("date.csv", mode="w")

csvwriter = csv.writer(f)

num = 0

while num <= 250:

print(num)

# 获取网页的内容

url = f"https://movie.douban.com/top250?start={num}&filter="

headers = {

 "User-Agent":"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36"

}

resp = requests.get(url,headers=headers)

page_content = resp.text

# 对网页的内容进行解析

obj = re.compile(r'<li>.*?(?P<name>.*?)'

 r'.*? (?P<year>.*?)&nbsp.*?'

 r'(?P<score>.*?).*?(?P<num>.*?)人评价', re.S)

result = obj.finditer(page_content)

for it in result:

 # print(it.group("name"))

 # print(it.group("score"))

 # print(it.group("num"))

 # print(it.group("year").strip())

 dic = it.groupdict()

 dic['year'] = dic['year'].strip()

 csvwriter.writerow(dic.values())

num += 25

f.close()

print("over!")

复制代码

没仔细看代码，失礼了

账号		自动登录	找回密码
密码			立即注册

[已解决]想爬取完整的250个电影，这个代码我得怎么完善

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块