鱼C论坛

 找回密码
 立即注册
查看: 1909|回复: 1

[已解决]爬虫爬取电影问题

[复制链接]
发表于 2022-7-12 19:41:44 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
from urllib import request
class VipMovie(object):
    def __init__(self):
        self.url = 'https://www.iqiyi.com/v_ivv44g381w.html'
    def Geturl(self, url):
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0'}
        req = request.Request(url=url, headers=headers)
        res = request.urlopen(req)
        html = res.read().decode()
        print(html)
    def main(self):
        url = self.url
        self.Geturl(url)
if __name__ == '__main__':
    try:
        spider = VipMovie()
        spider.main()
    except Exception as e:
        print(e)
程序写到这里,分析HTML懵了。电影的数据是哪些啊?这个网站的电影数据都是分多段加载的,没有完整的数据。那么怎么样才能获取完整的数据,请求的页面中哪些是电影数据的地址?
爬虫新手求大佬指导。
最佳答案
2022-7-13 16:04:16
本帖最后由 suchocolate 于 2022-7-13 16:12 编辑

初学者选个简单的网页爬吧。先了解html,ajax。
网页没细看,可能要用逆向相关库,这个后期在研究吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2022-7-13 16:04:16 | 显示全部楼层    本楼为最佳答案   
本帖最后由 suchocolate 于 2022-7-13 16:12 编辑

初学者选个简单的网页爬吧。先了解html,ajax。
网页没细看,可能要用逆向相关库,这个后期在研究吧。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-5-20 08:00

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表