鱼C论坛

 找回密码
 立即注册
查看: 612|回复: 38

爬虫经典案例——豆瓣Top250电影

[复制链接]
发表于 2023-12-11 15:40:58 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
要求:写一个爬虫或者爬虫框架,在豆瓣电影(https://movie.douban.com/top250?)抓取250部电影的电影名称、导演与演员、电影评分、首次上演日期、评价人数、电影总结、海报封面地址以及每部电影的详情页地址,并进行保存(text或者csv格式)。

写的代码如下,但是上演日期,海报封面地址以及每部电影的详情页地址不会找路径,有没有大佬完善一下我的代码

  1. from lxml import etree   
  2. import time               
  3. import random            
  4. import requests           
  5. header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}

  6. def processing(strs):
  7.     s = ''  
  8.     for n in strs:
  9.         n = ''.join(n.split())  
  10.         s = s + n  
  11.     return s      
  12. def get_movie_info(url):
  13.     response = requests.get(url,headers=header)                  
  14.     html = etree.HTML(response.text)                              
  15.     div_all = html.xpath('//div[@class="info"]')
  16.     for div in div_all:
  17.         names = div.xpath('./div[@class="hd"]/a//span/text()')   
  18.         name = processing(names)                                    
  19.         infos = div.xpath('./div[@class="bd"]/p/text()')         
  20.         info = processing(infos)                                   
  21.         score = div.xpath('./div[@class="bd"]/div/span[2]/text()')      
  22.         evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')  
  23.         url_movie = html.xpath('//div[@class="hd"]/a/@href')
  24.         summary = div.xpath('.//p[@class="quote"]/span/text()')
  25.         #summary = div.xpath('./div[@class="bd"]/p[@class="quote"]/span/text()')
  26.         print('电影名称:',name)
  27.         print('导演与演员:',info)
  28.         print('电影评分:',score)
  29.         print('评价人数:',evaluation)
  30.         print('电影总结:',summary)
  31.         print(url_movie)
  32.         print('--------分隔线--------')
  33. if __name__ == '__main__':
  34.     for i in range(0,250,25):   
  35.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  36.         get_movie_info(url)                     
  37.         time.sleep(random.randint(1,3))         
复制代码

本帖被以下淘专辑推荐:

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-12-11 15:46:56 | 显示全部楼层
你好!关于电影上演日期、海报封面地址以及每部电影的详情页地址的获取,可以按照以下方法进行修改和完善:

1. 上演日期的获取:在你的代码中已经获取了每部电影的信息列表div_all,可以通过修改xpath表达式来获取上演日期。首先验证一下在div中是否有包含上演日期的元素,例如可以找到包含上演日期的div的xpath表达式为'./div/div[2]/p[1]/text()'(假设上演日期信息位于div下的第二个div中的第一个p元素)。然后在循环遍历div_all时,相应地修改获取上演日期的代码,例如:
  1. dates = div.xpath('./div/div[2]/p[1]/text()')
  2. date = processing(dates)
  3. print('首次上演日期:', date)
复制代码

2. 海报封面地址的获取:在div中获取海报封面地址比较简单,可以直接使用img标签的src属性来获取。在循环遍历div_all时,添加以下代码来获取海报封面地址:
  1. poster_urls = div.xpath('./div/a/img/@src')
  2. if poster_urls:
  3.     poster_url = poster_urls[0]
  4.     print('海报封面地址:', poster_url)
复制代码
需要注意的是,有些电影可能没有海报封面地址,所以需要做一些逻辑判断。

3. 每部电影的详情页地址的获取:在你的代码中已经获取了整个页面的电影详情页地址列表url_movie,但是需要注意修改一下xpath表达式,使其只返回当前div中的电影详情页地址。例如:
  1. url_movie = div.xpath('./div/a/@href')
复制代码
然后在循环遍历div_all时,相应地修改打印电影详情页地址的代码,例如:
  1. print('电影详情页地址:', url_movie[0])
复制代码

以上是对你的代码进行修改和完善,可以尝试将这些修改后的代码添加到你原来的代码中,并再次运行看看结果是否符合预期。希望能帮到你!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 15:47:25 | 显示全部楼层
@FishC
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 15:47:34 | 显示全部楼层

你好!有什么问题我能帮助你解答的吗?

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 16:01:39 | 显示全部楼层
FishC 发表于 2023-12-11 15:47
你好!有什么问题我能帮助你解答的吗?

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继 ...

如果首次上演日期在电影详情页地址里面,该如何获取
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 16:02:25 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 16:01
如果首次上演日期在电影详情页地址里面,该如何获取

@FishC
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 16:03:49 | 显示全部楼层

你好!我是FishC的计算机教育专家,很高兴能够回答你的问题。请告诉我你遇到了什么困惑,我会尽力帮助你解决。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 16:07:07 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 16:01
如果首次上演日期在电影详情页地址里面,该如何获取

如果首次上演日期在电影详情页地址中,你可以在获取电影详情页地址后,进入每个详情页,并在详情页中通过相应的XPath表达式来获取首次上演日期。下面是一个示例代码:
  1. import requests
  2. from lxml import etree
  3. header = {
  4.     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'
  5. }
  6. def processing(strs):
  7.     s = ''
  8.     for n in strs:
  9.         n = ''.join(n.split())
  10.         s = s + n
  11.     return s
  12. def get_movie_info(url):
  13.     response = requests.get(url, headers=header)
  14.     html = etree.HTML(response.text)
  15.     # 获取电影详情页地址列表
  16.     url_movie = html.xpath('//div[@class="hd"]/a/@href')
  17.     for movie_url in url_movie:
  18.         # 进入每个详情页
  19.         response_movie = requests.get(movie_url, headers=header)
  20.         html_movie = etree.HTML(response_movie.text)
  21.         # 获取首次上演日期
  22.         dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  23.         date = processing(dates)
  24.         
  25.         # 打印首次上演日期
  26.         print('首次上演日期:', date)
  27. if __name__ == '__main__':
  28.     for i in range(0, 250, 25):
  29.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  30.         get_movie_info(url)
复制代码
这样,就可以进入每个详情页并获取首次上演日期了。希望能对你有所帮助!如有其他问题,请随时向我提问。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 16:10:04 | 显示全部楼层
写一个爬虫或者爬虫框架,在豆瓣电影(https://movie.douban.com/top250?)抓取250部电影的电影名称、导演与演员、电影评分、首次上演日期、评价人数、电影总结、海报封面地址以及每部电影的详情页地址,并进行保存(text或者csv格式)。@FishC
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 16:14:35 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 16:10
写一个爬虫或者爬虫框架,在豆瓣电影(https://movie. ...

好的,下面是一个使用Python编写的简单爬虫框架,用于抓取豆瓣电影Top250页面的电影信息并保存到CSV文件中:
  1. import requests
  2. from bs4 import BeautifulSoup
  3. import csv
  4. def get_movie_details(url):
  5.     details = []
  6.     response = requests.get(url)
  7.     soup = BeautifulSoup(response.text, 'html.parser')
  8.     movie_list = soup.find(class_='grid_view').find_all('li')
  9.     for movie in movie_list:
  10.         title = movie.find(class_='title').text
  11.         info = movie.find(class_='bd').find('p').text
  12.         rating = movie.find(class_='rating_num').text
  13.         date = movie.find(class_='inq').text.strip()
  14.         summary = movie.find(class_='quote').find('span').text.strip()
  15.         poster = movie.find(class_='pic').find('img')['src']
  16.         detail_url = movie.find(class_='hd').find('a')['href']
  17.         movie_details = [title, info, rating, date, summary, poster, detail_url]
  18.         details.append(movie_details)
  19.     return details
  20. def save_to_csv(details):
  21.     with open('douban_movies.csv', 'w', newline='', encoding='utf-8') as file:
  22.         writer = csv.writer(file)
  23.         writer.writerow(['电影名称', '导演与演员', '电影评分', '首次上演日期', '电影总结', '海报封面地址', '详情页地址'])
  24.         writer.writerows(details)
  25. def main():
  26.     url = 'https://movie.douban.com/top250'
  27.     all_details = []
  28.     for i in range(10):
  29.         page_url = url + f'?start={i * 25}'
  30.         details = get_movie_details(page_url)
  31.         all_details.extend(details)
  32.     save_to_csv(all_details)
  33.     print('电影信息已保存到douban_movies.csv文件中。')
  34. if __name__ == '__main__':
  35.     main()
复制代码

这段代码使用了requests库和BeautifulSoup库来发送HTTP请求并解析HTML,然后通过循环访问豆瓣电影Top250的分页URL来获取每一页的电影信息,最终将所有电影信息保存到CSV文件中。

运行上述代码后,会生成一个名为`douban_movies.csv`的CSV文件,其中包含电影名称、导演与演员、电影评分、首次上演日期、电影总结、海报封面地址以及电影详情页地址的信息。

希望对你有帮助!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 16:18:31 | 显示全部楼层
  1. from lxml import etree    # 导入etree子模块
  2. import time               # 导入时间模块
  3. import random             # 导入随机模块
  4. import requests           # 导入网络请求模块
  5. header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
  6. # 处理字符串中的空白符,并拼接字符串
  7. def processing(strs):
  8.     s = ''  # 定义保存内容的字符串
  9.     for n in strs:
  10.         n = ''.join(n.split())  # 去除空字符
  11.         s = s + n  # 拼接字符串
  12.     return s      # 返回拼接后的字符串
  13. # 获取电影信息
  14. def get_movie_info(url):
  15.     response = requests.get(url,headers=header)                    # 发送网络请求
  16.     html = etree.HTML(response.text)                               # 解析html字符串
  17.     div_all = html.xpath('//div[@class="info"]')
  18.     for div in div_all:
  19.         names = div.xpath('./div[@class="hd"]/a//span/text()')   # 获取电影名字相关信息
  20.         name = processing(names)                                    # 处理电影名称信息
  21.         infos = div.xpath('./div[@class="bd"]/p/text()')         # 获取导演、主演等信息
  22.         info = processing(infos)                                   # 处理导演、主演等信息
  23.         score = div.xpath('./div[@class="bd"]/div/span[2]/text()')      # 获取电影评分
  24.         evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')  # 获取评价人数
  25.         url_movie = div.xpath('./div/a/@href') #电影下载地址
  26.         # 获取电影总结文字
  27.         summary = div.xpath('.//p[@class="quote"]/span/text()')
  28.         #summary = div.xpath('./div[@class="bd"]/p[@class="quote"]/span/text()')
  29.         print('电影名称:',name)
  30.         print('导演与演员:',info)
  31.         print('电影评分:',score)
  32.         print('评价人数:',evaluation)
  33.         print('电影总结:',summary)
  34.         dates = div.xpath('./div/div[2]/p[1]/text()')
  35.         date = processing(dates)
  36.         print('首次上演日期:', date)
  37.         poster_urls = div.xpath('./div/a/img/@src')
  38.         if poster_urls:
  39.             poster_url = poster_urls[0]
  40.             print('海报封面地址:', poster_url)
  41.         print('电影详情页地址:', url_movie[0])
  42.         print('--------分隔线--------')
  43. if __name__ == '__main__':
  44.     for i in range(0,250,25):    # 每页25为间隔,实现循环,共10页
  45.         # 通过format替换切换页码的url地址
  46.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  47.         get_movie_info(url)                      # 调用爬虫方法,获取电影信息
  48.         time.sleep(random.randint(1,3))          # 等待1至3秒随机时间
复制代码
  1. import requestsfrom lxml import etreeheader = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}def processing(strs):    s = ''    for n in strs:        n = ''.join(n.split())        s = s + n    return sdef get_movie_info(url):    response = requests.get(url, headers=header)    html = etree.HTML(response.text)    # 获取电影详情页地址列表    url_movie = html.xpath('//div[@class="hd"]/a/@href')    for movie_url in url_movie:        # 进入每个详情页        response_movie = requests.get(movie_url, headers=header)        html_movie = etree.HTML(response_movie.text)        # 获取首次上演日期        dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')        date = processing(dates)                # 打印首次上演日期        print('首次上演日期:', date)if __name__ == '__main__':    for i in range(0, 250, 25):        url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)        get_movie_info(url)
复制代码



能将这两段代码结合为一段代码吗,看起来简洁美观一点@ FishC
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 16:20:44 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 16:18
from lxml import etree    # 导入etree子模块
impor ...

当然可以将这两段代码结合为一段更加简洁美观的代码。下面是结合的代码:import requestsfrom lxml import etreeheader = {    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}def processing(strs):    s = ''    for n in strs:        n = ''.join(n.split())        s = s + n    return sdef get_movie_info(url):    response = requests.get(url, headers=header)    html = etree.HTML(response.text)    div_all = html.xpath('//div')    for div in div_all:        names = div.xpath('./div/a//span/text()')        name = processing(names)        infos = div.xpath('./div/p/text()')        info = processing(infos)        score = div.xpath('./div/div/span/text()')        evaluation = div.xpath('./div/div/span/text()')        url_movie = div.xpath('./div/a/@href')        summary = div.xpath('.//p/span/text()')        dates = div.xpath('./div/div/p/text()')        date = processing(dates)        poster_urls = div.xpath('./div/a/img/@src')        if poster_urls:            poster_url = poster_urls            print('海报封面地址:', poster_url)        print('电影详情页地址:', url_movie)        print('--------分隔线--------')        # 进入每个详情页        for movie_url in url_movie:            response_movie = requests.get(movie_url, headers=header)            html_movie = etree.HTML(response_movie.text)            dates = html_movie.xpath('//span/text()')            date = processing(dates)            print('首次上演日期:', date)if __name__ == '__main__':    for i in range(0, 250, 25):        url = '[url=https://movie.douban.com/top250?start={page}&filter='.format(page=i)]https://movie.douban.com/top250?start={page}&filter='.format(page=i)[/url]        get_movie_info(url)通过上述代码,你可以在豆瓣电影Top250页面抓取电影的相关信息,并打印出电影详情页地址、首次上演日期和海报封面地址。希望对你有所帮助!如有其他问题,请随时提问。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 16:53:47 | 显示全部楼层
@ FishC 帮我改良一下代码,代码中的首次上演日期,全部都是一样的日期,除此以外,还有其他地方需要修改的代码也进行修改,并标注出来
  1. from lxml import etree
  2. import time
  3. import random
  4. import requests
  5. header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
  6. def processing(strs):
  7.     s = ''
  8.     for n in strs:
  9.         n = ''.join(n.split())
  10.         s = s + n
  11.     return s

  12. def get_movie_info(url):
  13.     response = requests.get(url,headers=header)
  14.     html = etree.HTML(response.text)
  15.     div_all = html.xpath('//div[@class="info"]')
  16.     url_movie = html.xpath('//div[@class="hd"]/a/@href')
  17.     for movie_url in url_movie:
  18.         # 进入每个详情页
  19.         response_movie = requests.get(movie_url, headers=header)
  20.         html_movie = etree.HTML(response_movie.text)

  21.     for div in div_all:
  22.         names = div.xpath('./div[@class="hd"]/a//span/text()')
  23.         name = processing(names)
  24.         infos = div.xpath('./div[@class="bd"]/p/text()')
  25.         info = processing(infos)
  26.         score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
  27.         evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
  28.         url_movie = div.xpath('./div/a/@href')
  29.         summary = div.xpath('.//p[@class="quote"]/span/text()')
  30.         poster_urls = div.xpath('./div/a/img/@src')
  31.         dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  32.         date = processing(dates)
  33.         print('电影名称:',name)
  34.         print('导演与演员:',info)
  35.         print('电影评分:',score)
  36.         print('评价人数:',evaluation)
  37.         print('电影总结:',summary)
  38.         print('电影详情页地址:', url_movie[0])
  39.         print('首次上演日期:', date)
  40.         if poster_urls:
  41.             poster_url = poster_urls[0]
  42.             print('海报封面地址:', poster_url)
  43.         print('--------分隔线--------')
  44. if __name__ == '__main__':
  45.     for i in range(0,250,25):
  46.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  47.         get_movie_info(url)
  48.         time.sleep(random.randint(1,3))
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 17:11:34 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 16:53
@ FishC 帮我改良一下代码,代码中的首次上演日期,全部都是一样的日期,除此以外,还有其他地方需要修改的 ...

@FishC
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 17:11:42 | 显示全部楼层

哈喽,我是FishC的计算机教育专家!欢迎来到编程的世界,有什么问题我可以帮助你解答呢?

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 17:12:49 | 显示全部楼层
FishC 发表于 2023-12-11 17:11
哈喽,我是FishC的计算机教育专家!欢迎来到编程的世界,有什么问题我可以帮助你解答呢?

以上回复来 ...

帮我改良一下代码,代码中的首次上演日期,全部都是一样的日期,除此以外,还有其他地方需要修改的代码也进行修改,并标注出来
  1. from lxml import etree
  2. import time
  3. import random
  4. import requests
  5. header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
  6. def processing(strs):
  7.     s = ''
  8.     for n in strs:
  9.         n = ''.join(n.split())
  10.         s = s + n
  11.     return s

  12. def get_movie_info(url):
  13.     response = requests.get(url,headers=header)
  14.     html = etree.HTML(response.text)
  15.     div_all = html.xpath('//div[@class="info"]')
  16.     url_movie = html.xpath('//div[@class="hd"]/a/@href')
  17.     for movie_url in url_movie:
  18.         # 进入每个详情页
  19.         response_movie = requests.get(movie_url, headers=header)
  20.         html_movie = etree.HTML(response_movie.text)

  21.     for div in div_all:
  22.         names = div.xpath('./div[@class="hd"]/a//span/text()')
  23.         name = processing(names)
  24.         infos = div.xpath('./div[@class="bd"]/p/text()')
  25.         info = processing(infos)
  26.         score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
  27.         evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
  28.         url_movie = div.xpath('./div/a/@href')
  29.         summary = div.xpath('.//p[@class="quote"]/span/text()')
  30.         poster_urls = div.xpath('./div/a/img/@src')
  31.         dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  32.         date = processing(dates)
  33.         print('电影名称:',name)
  34.         print('导演与演员:',info)
  35.         print('电影评分:',score)
  36.         print('评价人数:',evaluation)
  37.         print('电影总结:',summary)
  38.         print('电影详情页地址:', url_movie[0])
  39.         print('首次上演日期:', date)
  40.         if poster_urls:
  41.             poster_url = poster_urls[0]
  42.             print('海报封面地址:', poster_url)
  43.         print('--------分隔线--------')
  44. if __name__ == '__main__':
  45.     for i in range(0,250,25):
  46.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  47.         get_movie_info(url)
  48.         time.sleep(random.randint(1,3))
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 17:17:02 | 显示全部楼层
@FishC 帮我改良一下代码,需要修改的代码进行修改,并标注出来
  1. from lxml import etree
  2. import time
  3. import random
  4. import requests
  5. header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
  6. def processing(strs):
  7.     s = ''
  8.     for n in strs:
  9.         n = ''.join(n.split())
  10.         s = s + n
  11.     return s

  12. def get_movie_info(url):
  13.     response = requests.get(url,headers=header)
  14.     html = etree.HTML(response.text)
  15.     div_all = html.xpath('//div[@class="info"]')
  16.     url_movie = html.xpath('//div[@class="hd"]/a/@href')


  17.     for div in div_all:
  18.         names = div.xpath('./div[@class="hd"]/a//span/text()')
  19.         name = processing(names)
  20.         infos = div.xpath('./div[@class="bd"]/p/text()')
  21.         info = processing(infos)
  22.         score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
  23.         evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
  24.         url_movie = div.xpath('./div/a/@href')
  25.         summary = div.xpath('.//p[@class="quote"]/span/text()')
  26.         poster_urls = div.xpath('./div/a/img/@src')
  27.         for movie_url in url_movie:
  28.             # 进入每个详情页
  29.             response_movie = requests.get(movie_url, headers=header)
  30.             html_movie = etree.HTML(response_movie.text)
  31.         dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  32.         date = processing(dates)
  33.         print('电影名称:',name)
  34.         print('导演与演员:',info)
  35.         print('电影评分:',score)
  36.         print('评价人数:',evaluation)
  37.         print('电影总结:',summary)
  38.         print('电影详情页地址:', url_movie[0])
  39.         print('首次上演日期:', date)
  40.         if poster_urls:
  41.             poster_url = poster_urls[0]
  42.             print('海报封面地址:', poster_url)
  43.         print('--------分隔线--------')
  44. if __name__ == '__main__':
  45.     for i in range(0,250,25):
  46.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  47.         get_movie_info(url)
  48.         time.sleep(random.randint(1,3))
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 17:17:44 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 17:17
@FishC 帮我改良一下代码,需要修改的代码进行修改, ...

首先,你的代码已经相当不错了。不过,我有几个小小的改进建议:

1. 将导入语句放在代码的开头。这是一种良好的习惯,可以帮助其他程序员更快地了解程序的依赖关系。
  1. import random
  2. import requests
  3. from lxml import etree
  4. import time
复制代码

2. 将请求头 header 定义为函数内的局部变量,而不是全局变量。这样做可以防止在其他地方意外修改它。
  1. def get_movie_info(url):
  2.     header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
  3.     response = requests.get(url, headers=header)
复制代码

3. 使用列表推导式简化 `processing` 函数中的循环和字符串拼接。
  1. def processing(strs):
  2.     return ''.join([n.strip() for n in strs])
复制代码

4. 将分析电影详情页的代码移到外层的循环中,以避免重复请求同一个网页。
  1. for div in div_all:
  2.     # ...
  3.     urls_movie = div.xpath('./div/a/@href')
  4.     for movie_url in urls_movie:
  5.         response_movie = requests.get(movie_url, headers=header)
  6.         html_movie = etree.HTML(response_movie.text)
  7.         dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  8.         # ...
复制代码

这些小改进会提升代码的可读性和可维护性。希望对你有所帮助!

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-12-11 19:11:00 | 显示全部楼层
@Fishc 代码中有一些问题,你可以帮我解决吗。问题如下:
1.无法完全爬取250部电影
2.有些电影的首次上映日期无法爬取
3.每部电影都有海报封面地址,在电影详情页当中,但是我找不到
你可以帮我解决这些问题吗
  1. import random
  2. import requests
  3. from lxml import etree
  4. import time

  5. def processing(strs):
  6.     return ''.join([n.strip() for n in strs])

  7. def get_movie_info(url):
  8.     header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.61 Safari/537.36'}
  9.     response = requests.get(url,headers=header)
  10.     html = etree.HTML(response.text)
  11.     div_all = html.xpath('//div[@class="info"]')
  12.     url_movie = html.xpath('//div[@class="hd"]/a/@href')

  13.     for div in div_all:
  14.         names = div.xpath('./div[@class="hd"]/a//span/text()')
  15.         name = processing(names)
  16.         infos = div.xpath('./div[@class="bd"]/p/text()')
  17.         info = processing(infos)
  18.         score = div.xpath('./div[@class="bd"]/div/span[2]/text()')
  19.         evaluation = div.xpath('./div[@class="bd"]/div/span[4]/text()')
  20.         summary = div.xpath('.//p[@class="quote"]/span/text()')
  21.         poster_urls = div.xpath('./div/a/img/@src')
  22.         url_movie = div.xpath('./div/a/@href')
  23.         for movie_url in url_movie:
  24.             response_movie = requests.get(movie_url, headers=header)
  25.             html_movie = etree.HTML(response_movie.text)
  26.         dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  27.         date = processing(dates)
  28.         print('电影名称:',name)
  29.         print('导演与演员:',info)
  30.         print('电影评分:',score)
  31.         print('评价人数:',evaluation)
  32.         print('电影总结:',summary)
  33.         print('首次上映日期:', date)
  34.         print('电影详情页地址:', url_movie[0])
  35.         print('海报封面地址:',)
  36.         print('--------分隔线--------')
  37. if __name__ == '__main__':
  38.     for i in range(0,250,25):
  39.         url = 'https://movie.douban.com/top250?start={page}&filter='.format(page=i)
  40.         get_movie_info(url)
  41.         time.sleep(random.randint(1,3))
复制代码
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-12-11 19:11:56 | 显示全部楼层
爱意随风起9306 发表于 2023-12-11 19:11
@Fishc 代码中有一些问题,你可以帮我解决吗。问题如 ...

问题1:无法完全爬取250部电影
这是因为你的代码中只爬取了每页的前10部电影。在`get_movie_info`函数中,你需要添加一个循环来遍历每个电影详情页的链接,并在循环内部进行爬取。

解决方法:
  1. for movie_url in url_movie:
  2.     response_movie = requests.get(movie_url, headers=header)
  3.     html_movie = etree.HTML(response_movie.text)
  4.     # 在这里继续提取电影信息
复制代码

问题2:有些电影的首次上映日期无法爬取
这是因为你的代码将`html_movie`定义在了循环外部,导致每个电影详情页的HTML都被覆盖。你需要将`html_movie`的定义放在循环内部。

解决方法:
  1. for movie_url in url_movie:
  2.     response_movie = requests.get(movie_url, headers=header)
  3.     html_movie = etree.HTML(response_movie.text)
  4.     dates = html_movie.xpath('//span[@property="v:initialReleaseDate"]/text()')
  5.     date = processing(dates)
  6.     print('首次上映日期:', date)
复制代码

问题3:每部电影都有海报封面地址,在电影详情页当中,但是我找不到
在电影详情页中,海报封面地址通常位于`<img>`标签的`src`属性中。你可以通过XPath选择器或正则表达式来提取。

解决方法(使用XPath选择器):
  1. poster_urls = html_movie.xpath('//img[@class="nbgnbg"]/@src')
  2. print('海报封面地址:', poster_urls[0])
复制代码

经过以上修改,你的代码应该可以正常爬取250部电影的信息了。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-2-23 01:57

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表