爬虫经典案例——豆瓣Top250电影

爱意随风起9306 · 发表于 2023-12-11 15:40:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

要求：写一个爬虫或者爬虫框架，在豆瓣电影（https://movie.douban.com/top250?）抓取250部电影的电影名称、导演与演员、电影评分、首次上演日期、评价人数、电影总结、海报封面地址以及每部电影的详情页地址，并进行保存（text或者csv格式）。

写的代码如下，但是上演日期，海报封面地址以及每部电影的详情页地址不会找路径，有没有大佬完善一下我的代码

from lxml import etree
import time
import random
import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
def processing(strs):
s = ''
for n in strs:
n = ''.join(n.split())
s = s + n
return s
def get_movie_info(url):
response = requests.get(url,headers=header)
html = etree.HTML(response.text)
div_all = html.xpath('//div[@class="info"]')
for div in div_all:
names = div.xpath('./div[@class="hd"]/a//span/text()')
name = processing(names)
infos = div.xpath('./div[@class="bd"]/p/text()')
info = processing(infos)
score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
url_movie = html.xpath('//div[@class="hd"]/a/@href')
summary = div.xpath('.//p[@class="quote"]/span/text()')
#summary = div.xpath('./div[@class="bd"]/p[@class="quote"]/span/text()')
print('电影名称：',name)
print('导演与演员：',info)
print('电影评分：',score)
print('评价人数：',evaluation)
print('电影总结：',summary)
print(url_movie)
print('--------分隔线--------')
if __name__ == '__main__':
for i in range(0,250,25):
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url)
time.sleep(random.randint(1,3))

复制代码

FishC · 发表于 2023-12-11 15:46:56

你好！关于电影上演日期、海报封面地址以及每部电影的详情页地址的获取，可以按照以下方法进行修改和完善：

1. 上演日期的获取：在你的代码中已经获取了每部电影的信息列表div_all，可以通过修改xpath表达式来获取上演日期。首先验证一下在div中是否有包含上演日期的元素，例如可以找到包含上演日期的div的xpath表达式为'./div/div[2]/p[1]/text()'（假设上演日期信息位于div下的第二个div中的第一个p元素）。然后在循环遍历div_all时，相应地修改获取上演日期的代码，例如：

dates = div.xpath('./div/div[2]/p[1]/text()')
date = processing(dates)
print('首次上演日期：', date)

复制代码

2. 海报封面地址的获取：在div中获取海报封面地址比较简单，可以直接使用img标签的src属性来获取。在循环遍历div_all时，添加以下代码来获取海报封面地址：

poster_urls = div.xpath('./div/a/img/@src')
if poster_urls:
poster_url = poster_urls[0]
print('海报封面地址：', poster_url)

复制代码

需要注意的是，有些电影可能没有海报封面地址，所以需要做一些逻辑判断。

3. 每部电影的详情页地址的获取：在你的代码中已经获取了整个页面的电影详情页地址列表url_movie，但是需要注意修改一下xpath表达式，使其只返回当前div中的电影详情页地址。例如：

url_movie = div.xpath('./div/a/@href')

复制代码

然后在循环遍历div_all时，相应地修改打印电影详情页地址的代码，例如：

print('电影详情页地址：', url_movie[0])

复制代码

以上是对你的代码进行修改和完善，可以尝试将这些修改后的代码添加到你原来的代码中，并再次运行看看结果是否符合预期。希望能帮到你！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 15:47:25

@FishC

FishC · 发表于 2023-12-11 15:47:34

爱意随风起9306 发表于 2023-12-11 15:47
@FishC

你好！有什么问题我能帮助你解答的吗？

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 16:01:39

FishC 发表于 2023-12-11 15:47
你好！有什么问题我能帮助你解答的吗？

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继 ...

如果首次上演日期在电影详情页地址里面，该如何获取

爱意随风起9306 · 发表于 2023-12-11 16:02:25

爱意随风起9306 发表于 2023-12-11 16:01
如果首次上演日期在电影详情页地址里面，该如何获取

@FishC

FishC · 发表于 2023-12-11 16:03:49

爱意随风起9306 发表于 2023-12-11 16:02
@FishC

你好！我是FishC的计算机教育专家，很高兴能够回答你的问题。请告诉我你遇到了什么困惑，我会尽力帮助你解决。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

FishC · 发表于 2023-12-11 16:07:07

爱意随风起9306 发表于 2023-12-11 16:01
如果首次上演日期在电影详情页地址里面，该如何获取

如果首次上演日期在电影详情页地址中，你可以在获取电影详情页地址后，进入每个详情页，并在详情页中通过相应的XPath表达式来获取首次上演日期。下面是一个示例代码：

import requests
from lxml import etree
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
}
def processing(strs):
s = ''
for n in strs:
n = ''.join(n.split())
s = s + n
return s
def get_movie_info(url):
response = requests.get(url, headers=header)
html = etree.HTML(response.text)
# 获取电影详情页地址列表
url_movie = html.xpath('//div[@class="hd"]/a/@href')
for movie_url in url_movie:
# 进入每个详情页
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
# 获取首次上演日期
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
date = processing(dates)
# 打印首次上演日期
print('首次上演日期：', date)
if __name__ == '__main__':
for i in range(0, 250, 25):
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url)

复制代码

这样，就可以进入每个详情页并获取首次上演日期了。希望能对你有所帮助！如有其他问题，请随时向我提问。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 16:10:04

写一个爬虫或者爬虫框架，在豆瓣电影（https://movie.douban.com/top250?）抓取250部电影的电影名称、导演与演员、电影评分、首次上演日期、评价人数、电影总结、海报封面地址以及每部电影的详情页地址，并进行保存（text或者csv格式）。@FishC

FishC · 发表于 2023-12-11 16:14:35

爱意随风起9306 发表于 2023-12-11 16:10
写一个爬虫或者爬虫框架，在豆瓣电影（https://movie. ...

好的，下面是一个使用Python编写的简单爬虫框架，用于抓取豆瓣电影Top250页面的电影信息并保存到CSV文件中：

import requests
from bs4 import BeautifulSoup
import csv
def get_movie_details(url):
details = []
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
movie_list = soup.find(class_='grid_view').find_all('li')
for movie in movie_list:
title = movie.find(class_='title').text
info = movie.find(class_='bd').find('p').text
rating = movie.find(class_='rating_num').text
date = movie.find(class_='inq').text.strip()
summary = movie.find(class_='quote').find('span').text.strip()
poster = movie.find(class_='pic').find('img')['src']
detail_url = movie.find(class_='hd').find('a')['href']
movie_details = [title, info, rating, date, summary, poster, detail_url]
details.append(movie_details)
return details
def save_to_csv(details):
with open('douban_movies.csv', 'w', newline='', encoding='utf-8') as file:
writer = csv.writer(file)
writer.writerow(['电影名称', '导演与演员', '电影评分', '首次上演日期', '电影总结', '海报封面地址', '详情页地址'])
writer.writerows(details)
def main():
url = 'https://movie.douban.com/top250'
all_details = []
for i in range(10):
page_url = url + f'?start={i * 25}'
details = get_movie_details(page_url)
all_details.extend(details)
save_to_csv(all_details)
print('电影信息已保存到douban_movies.csv文件中。')
if __name__ == '__main__':
main()

复制代码

这段代码使用了requests库和BeautifulSoup库来发送HTTP请求并解析HTML，然后通过循环访问豆瓣电影Top250的分页URL来获取每一页的电影信息，最终将所有电影信息保存到CSV文件中。

运行上述代码后，会生成一个名为`douban_movies.csv`的CSV文件，其中包含电影名称、导演与演员、电影评分、首次上演日期、电影总结、海报封面地址以及电影详情页地址的信息。

希望对你有帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 16:18:31

from lxml import etree # 导入etree子模块
import time # 导入时间模块
import random # 导入随机模块
import requests # 导入网络请求模块
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
# 处理字符串中的空白符，并拼接字符串
def processing(strs):
s = '' # 定义保存内容的字符串
for n in strs:
n = ''.join(n.split()) # 去除空字符
s = s + n # 拼接字符串
return s # 返回拼接后的字符串
# 获取电影信息
def get_movie_info(url):
response = requests.get(url,headers=header) # 发送网络请求
html = etree.HTML(response.text) # 解析html字符串
div_all = html.xpath('//div[@class="info"]')
for div in div_all:
names = div.xpath('./div[@class="hd"]/a//span/text()') # 获取电影名字相关信息
name = processing(names) # 处理电影名称信息
infos = div.xpath('./div[@class="bd"]/p/text()') # 获取导演、主演等信息
info = processing(infos) # 处理导演、主演等信息
score = div.xpath('./div[@class="bd"]/div/span[2]/text()') # 获取电影评分
evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()') # 获取评价人数
url_movie = div.xpath('./div/a/@href') #电影下载地址
# 获取电影总结文字
summary = div.xpath('.//p[@class="quote"]/span/text()')
#summary = div.xpath('./div[@class="bd"]/p[@class="quote"]/span/text()')
print('电影名称：',name)
print('导演与演员：',info)
print('电影评分：',score)
print('评价人数：',evaluation)
print('电影总结：',summary)
dates = div.xpath('./div/div[2]/p[1]/text()')
date = processing(dates)
print('首次上演日期：', date)
poster_urls = div.xpath('./div/a/img/@src')
if poster_urls:
poster_url = poster_urls[0]
print('海报封面地址：', poster_url)
print('电影详情页地址：', url_movie[0])
print('--------分隔线--------')
if __name__ == '__main__':
for i in range(0,250,25): # 每页25为间隔，实现循环，共10页
# 通过format替换切换页码的url地址
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url) # 调用爬虫方法,获取电影信息
time.sleep(random.randint(1,3)) # 等待1至3秒随机时间

复制代码

import requestsfrom lxml import etreeheader = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}def processing(strs): s = '' for n in strs: n = ''.join(n.split()) s = s + n return sdef get_movie_info(url): response = requests.get(url, headers=header) html = etree.HTML(response.text) # 获取电影详情页地址列表 url_movie = html.xpath('//div[@class="hd"]/a/@href') for movie_url in url_movie: # 进入每个详情页 response_movie = requests.get(movie_url, headers=header) html_movie = etree.HTML(response_movie.text) # 获取首次上演日期 dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()') date = processing(dates) # 打印首次上演日期 print('首次上演日期：', date)if __name__ == '__main__': for i in range(0, 250, 25): url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i) get_movie_info(url)

复制代码

能将这两段代码结合为一段代码吗，看起来简洁美观一点@ FishC

FishC · 发表于 2023-12-11 16:20:44

爱意随风起9306 发表于 2023-12-11 16:18
from lxml import etree # 导入etree子模块
impor ...

当然可以将这两段代码结合为一段更加简洁美观的代码。下面是结合的代码：import requestsfrom lxml import etreeheader = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}def processing(strs): s = '' for n in strs: n = ''.join(n.split()) s = s + n return sdef get_movie_info(url): response = requests.get(url, headers=header) html = etree.HTML(response.text) div_all = html.xpath('//div') for div in div_all: names = div.xpath('./div/a//span/text()') name = processing(names) infos = div.xpath('./div/p/text()') info = processing(infos) score = div.xpath('./div/div/span/text()') evaluation = div.xpath('./div/div/span/text()') url_movie = div.xpath('./div/a/@href') summary = div.xpath('.//p/span/text()') dates = div.xpath('./div/div/p/text()') date = processing(dates) poster_urls = div.xpath('./div/a/img/@src') if poster_urls: poster_url = poster_urls print('海报封面地址：', poster_url) print('电影详情页地址：', url_movie) print('--------分隔线--------') # 进入每个详情页 for movie_url in url_movie: response_movie = requests.get(movie_url, headers=header) html_movie = etree.HTML(response_movie.text) dates = html_movie.xpath('//span/text()') date = processing(dates) print('首次上演日期：', date)if __name__ == '__main__': for i in range(0, 250, 25): url = '[url=https://movie.douban.com/top250?start={page}&filter='.format(page=i)]https://movie.douban.com/top250?start={page}&filter='.format(page=i)[/url] get_movie_info(url)通过上述代码，你可以在豆瓣电影Top250页面抓取电影的相关信息，并打印出电影详情页地址、首次上演日期和海报封面地址。希望对你有所帮助！如有其他问题，请随时提问。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 16:53:47

@ FishC 帮我改良一下代码，代码中的首次上演日期，全部都是一样的日期，除此以外，还有其他地方需要修改的代码也进行修改，并标注出来

from lxml import etree
import time
import random
import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
def processing(strs):
s = ''
for n in strs:
n = ''.join(n.split())
s = s + n
return s
def get_movie_info(url):
response = requests.get(url,headers=header)
html = etree.HTML(response.text)
div_all = html.xpath('//div[@class="info"]')
url_movie = html.xpath('//div[@class="hd"]/a/@href')
for movie_url in url_movie:
# 进入每个详情页
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
for div in div_all:
names = div.xpath('./div[@class="hd"]/a//span/text()')
name = processing(names)
infos = div.xpath('./div[@class="bd"]/p/text()')
info = processing(infos)
score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
url_movie = div.xpath('./div/a/@href')
summary = div.xpath('.//p[@class="quote"]/span/text()')
poster_urls = div.xpath('./div/a/img/@src')
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
date = processing(dates)
print('电影名称：',name)
print('导演与演员：',info)
print('电影评分：',score)
print('评价人数：',evaluation)
print('电影总结：',summary)
print('电影详情页地址：', url_movie[0])
print('首次上演日期：', date)
if poster_urls:
poster_url = poster_urls[0]
print('海报封面地址：', poster_url)
print('--------分隔线--------')
if __name__ == '__main__':
for i in range(0,250,25):
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url)
time.sleep(random.randint(1,3))

复制代码

爱意随风起9306 · 发表于 2023-12-11 17:11:34

爱意随风起9306 发表于 2023-12-11 16:53
@ FishC 帮我改良一下代码，代码中的首次上演日期，全部都是一样的日期，除此以外，还有其他地方需要修改的 ...

@FishC

FishC · 发表于 2023-12-11 17:11:42

爱意随风起9306 发表于 2023-12-11 17:11
@FishC

哈喽，我是FishC的计算机教育专家！欢迎来到编程的世界，有什么问题我可以帮助你解答呢？

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 17:12:49

FishC 发表于 2023-12-11 17:11
哈喽，我是FishC的计算机教育专家！欢迎来到编程的世界，有什么问题我可以帮助你解答呢？

以上回复来 ...

帮我改良一下代码，代码中的首次上演日期，全部都是一样的日期，除此以外，还有其他地方需要修改的代码也进行修改，并标注出来

from lxml import etree
import time
import random
import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
def processing(strs):
s = ''
for n in strs:
n = ''.join(n.split())
s = s + n
return s
def get_movie_info(url):
response = requests.get(url,headers=header)
html = etree.HTML(response.text)
div_all = html.xpath('//div[@class="info"]')
url_movie = html.xpath('//div[@class="hd"]/a/@href')
for movie_url in url_movie:
# 进入每个详情页
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
for div in div_all:
names = div.xpath('./div[@class="hd"]/a//span/text()')
name = processing(names)
infos = div.xpath('./div[@class="bd"]/p/text()')
info = processing(infos)
score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
url_movie = div.xpath('./div/a/@href')
summary = div.xpath('.//p[@class="quote"]/span/text()')
poster_urls = div.xpath('./div/a/img/@src')
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
date = processing(dates)
print('电影名称：',name)
print('导演与演员：',info)
print('电影评分：',score)
print('评价人数：',evaluation)
print('电影总结：',summary)
print('电影详情页地址：', url_movie[0])
print('首次上演日期：', date)
if poster_urls:
poster_url = poster_urls[0]
print('海报封面地址：', poster_url)
print('--------分隔线--------')
if __name__ == '__main__':
for i in range(0,250,25):
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url)
time.sleep(random.randint(1,3))

复制代码

爱意随风起9306 · 发表于 2023-12-11 17:17:02

@FishC 帮我改良一下代码，需要修改的代码进行修改，并标注出来

from lxml import etree
import time
import random
import requests
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
def processing(strs):
s = ''
for n in strs:
n = ''.join(n.split())
s = s + n
return s
def get_movie_info(url):
response = requests.get(url,headers=header)
html = etree.HTML(response.text)
div_all = html.xpath('//div[@class="info"]')
url_movie = html.xpath('//div[@class="hd"]/a/@href')
for div in div_all:
names = div.xpath('./div[@class="hd"]/a//span/text()')
name = processing(names)
infos = div.xpath('./div[@class="bd"]/p/text()')
info = processing(infos)
score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
url_movie = div.xpath('./div/a/@href')
summary = div.xpath('.//p[@class="quote"]/span/text()')
poster_urls = div.xpath('./div/a/img/@src')
for movie_url in url_movie:
# 进入每个详情页
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
date = processing(dates)
print('电影名称：',name)
print('导演与演员：',info)
print('电影评分：',score)
print('评价人数：',evaluation)
print('电影总结：',summary)
print('电影详情页地址：', url_movie[0])
print('首次上演日期：', date)
if poster_urls:
poster_url = poster_urls[0]
print('海报封面地址：', poster_url)
print('--------分隔线--------')
if __name__ == '__main__':
for i in range(0,250,25):
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url)
time.sleep(random.randint(1,3))

复制代码

FishC · 发表于 2023-12-11 17:17:44

爱意随风起9306 发表于 2023-12-11 17:17
@FishC 帮我改良一下代码，需要修改的代码进行修改， ...

首先，你的代码已经相当不错了。不过，我有几个小小的改进建议：

1. 将导入语句放在代码的开头。这是一种良好的习惯，可以帮助其他程序员更快地了解程序的依赖关系。

import random
import requests
from lxml import etree
import time

复制代码

2. 将请求头 header 定义为函数内的局部变量，而不是全局变量。这样做可以防止在其他地方意外修改它。

def get_movie_info(url):
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
response = requests.get(url, headers=header)

复制代码

3. 使用列表推导式简化 `processing` 函数中的循环和字符串拼接。

def processing(strs):
return ''.join([n.strip() for n in strs])

复制代码

4. 将分析电影详情页的代码移到外层的循环中，以避免重复请求同一个网页。

for div in div_all:
# ...
urls_movie = div.xpath('./div/a/@href')
for movie_url in urls_movie:
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
# ...

复制代码

这些小改进会提升代码的可读性和可维护性。希望对你有所帮助！

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

爱意随风起9306 · 发表于 2023-12-11 19:11:00

@Fishc 代码中有一些问题，你可以帮我解决吗。问题如下：
1.无法完全爬取250部电影
2.有些电影的首次上映日期无法爬取
3.每部电影都有海报封面地址，在电影详情页当中，但是我找不到
你可以帮我解决这些问题吗

import random
import requests
from lxml import etree
import time
def processing(strs):
return ''.join([n.strip() for n in strs])
def get_movie_info(url):
header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
response = requests.get(url,headers=header)
html = etree.HTML(response.text)
div_all = html.xpath('//div[@class="info"]')
url_movie = html.xpath('//div[@class="hd"]/a/@href')
for div in div_all:
names = div.xpath('./div[@class="hd"]/a//span/text()')
name = processing(names)
infos = div.xpath('./div[@class="bd"]/p/text()')
info = processing(infos)
score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
summary = div.xpath('.//p[@class="quote"]/span/text()')
poster_urls = div.xpath('./div/a/img/@src')
url_movie = div.xpath('./div/a/@href')
for movie_url in url_movie:
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
date = processing(dates)
print('电影名称：',name)
print('导演与演员：',info)
print('电影评分：',score)
print('评价人数：',evaluation)
print('电影总结：',summary)
print('首次上映日期：', date)
print('电影详情页地址：', url_movie[0])
print('海报封面地址：',)
print('--------分隔线--------')
if __name__ == '__main__':
for i in range(0,250,25):
url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
get_movie_info(url)
time.sleep(random.randint(1,3))

复制代码

FishC · 发表于 2023-12-11 19:11:56

爱意随风起9306 发表于 2023-12-11 19:11
@Fishc 代码中有一些问题，你可以帮我解决吗。问题如 ...

问题1：无法完全爬取250部电影
这是因为你的代码中只爬取了每页的前10部电影。在`get_movie_info`函数中，你需要添加一个循环来遍历每个电影详情页的链接，并在循环内部进行爬取。

解决方法：

for movie_url in url_movie:
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
# 在这里继续提取电影信息

复制代码

问题2：有些电影的首次上映日期无法爬取
这是因为你的代码将`html_movie`定义在了循环外部，导致每个电影详情页的HTML都被覆盖。你需要将`html_movie`的定义放在循环内部。

解决方法：

for movie_url in url_movie:
response_movie = requests.get(movie_url, headers=header)
html_movie = etree.HTML(response_movie.text)
dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
date = processing(dates)
print('首次上映日期：', date)

复制代码

问题3：每部电影都有海报封面地址，在电影详情页当中，但是我找不到
在电影详情页中，海报封面地址通常位于`<img>`标签的`src`属性中。你可以通过XPath选择器或正则表达式来提取。

解决方法（使用XPath选择器）：

poster_urls = html_movie.xpath('//img[@class="nbgnbg"]/@src')
print('海报封面地址：', poster_urls[0])

复制代码

经过以上修改，你的代码应该可以正常爬取250部电影的信息了。

以上回复来自 FishC AI 小助理，如未能正确解答您的问题，请继续追问。

账号		自动登录	找回密码
密码			立即注册

爬虫经典案例——豆瓣Top250电影

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

浏览过的版块