|
楼主 |
发表于 2019-6-18 16:49:02
|
显示全部楼层
下面是我的源代码,大佬可以跑一下看看下具体报错情况!!!困惑了半个小时,希望早日节约,膜拜~~~~
- from lxml import etree
- def get_one_page(n):
- #字符串的格式化
- url = "https://maoyan.com/board/4?offset={}".format(n)
- header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"}
- r = requests.get(url,headers=header)
- #告诉服务器,我们是浏览器.
- #输出 200 http 状态码
- print(r)
- #打印文本
- print(r.text)
- return r.text
- date = get_one_page(20)
- def parse(text):
- #初始化 标准化
- html = etree.HTML(text)
- #提取我们想要的信息 需要些xpath语法
- #names是列表,xpath反悔的一定是列表
- names = html.xpath("//div[@class = "movie-item-info"]/p[@class = "name"]/a/@title")
- print(names)
-
- text = get_one_page(20)
- parse(text)
复制代码 |
|