| 
 | 
 
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册  
 
x
 
from urllib import request 
class VipMovie(object): 
    def __init__(self): 
        self.url = 'https://www.iqiyi.com/v_ivv44g381w.html' 
    def Geturl(self, url): 
        headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:102.0) Gecko/20100101 Firefox/102.0'} 
        req = request.Request(url=url, headers=headers) 
        res = request.urlopen(req) 
        html = res.read().decode() 
        print(html) 
    def main(self): 
        url = self.url 
        self.Geturl(url) 
if __name__ == '__main__': 
    try: 
        spider = VipMovie() 
        spider.main() 
    except Exception as e: 
        print(e) 
程序写到这里,分析HTML懵了。电影的数据是哪些啊?这个网站的电影数据都是分多段加载的,没有完整的数据。那么怎么样才能获取完整的数据,请求的页面中哪些是电影数据的地址? 
爬虫新手求大佬指导。 
 本帖最后由 suchocolate 于 2022-7-13 16:12 编辑  
 
初学者选个简单的网页爬吧。先了解html,ajax。 
网页没细看,可能要用逆向相关库,这个后期在研究吧。 
 
 
 |   
 
 
 
 |