[已解决]麻烦帮忙看下我这re模块抓取的东西为什么没有显示

slhlde · 发表于 2018-8-14 23:34:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import time
import re
import pymongo
from lxml import etree
import requests

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/55.0.2883.87 Safari/537.36"}

def get_url_muisc(url):
html=requests.get(url,headers=headers)
selector=etree.HTML(html.text)
muisc_hrefs=selector.xpath('//div[@class="p12"]/@href')
for muisc_href in muisc_hrefs:
 get_muisc_info(muisc_href)

def get_muisc_info(url):
html=requests.get(url,headers=headers)
selector=etree.HTML(html.text)
name=selector.xpath('//*[@id="wrapper"]/h1/span/text()')[0]
author = re.findall('"表演者":.*?>(.*?)</a>', html.text, re.S)
styles = re.findall('流派:" (.*?)" ', html.text, re.S)
if len(styles) == 0:
 style = '未知'
else:
 style = styles[0].strip()
time = re.findall('发行时间:" (.*?)" ', html.text, re.S)
publishers = re.findall('出版者:" (.*?)" ', html.text, re.S)

if len(publishers) == 0:
 publishers = '未知'
else:
 publishers = publishers[0].strip()
score=selector.xpath('//*[@id="interest_sectl"]/div/div[2]/strong/text()')[0]
#print(name,author,time,publishers,score)
info={
 'name':name,
 'author':author,
 'styles':styles,
 'time':time,
 'publishers':publishers,
 'score':score
}
print(info)
if __name__=='__main__':
urls=['https://music.douban.com/top250?start={}'.format(str(i)) for i in range(0,250,25)]
for url in urls:
 get_url_muisc(url)
 time.sleep(2)

麻烦同学看下 我这中间抓取的匹配方法有什么问题？？谢谢了

最佳答案

月排行榜 / 总排行榜

凌九霄

2018-8-15 11:40:46

slhlde 发表于 2018-8-15 09:29
我打开 MongoDB 里面什么都么有这个就是因为正则表达式的原因？？？

你得到页面数据后，print出来，然后复制到正则工具，用你的表达式去匹配，看是否能匹配出来，能则表示你的表达式没有问题，不能则要修正表达式

跳转到最佳答案楼层

凌九霄 · 发表于 2018-8-15 01:48:09

没有显示证明你的正则表达式有问题。建议获取页面数据后，用正则工具检验你的表达式

slhlde · 发表于 2018-8-15 09:29:27

凌九霄发表于 2018-8-15 01:48
没有显示证明你的正则表达式有问题。建议获取页面数据后，用正则工具检验你的表达式

我打开 MongoDB 里面什么都么有这个就是因为正则表达式的原因？？？

凌九霄 · 发表于 2018-8-15 11:40:46

slhlde 发表于 2018-8-15 09:29
我打开 MongoDB 里面什么都么有这个就是因为正则表达式的原因？？？

你得到页面数据后，print出来，然后复制到正则工具，用你的表达式去匹配，看是否能匹配出来，能则表示你的表达式没有问题，不能则要修正表达式

账号		自动登录	找回密码
密码			立即注册

[已解决]麻烦帮忙看下我这re模块抓取的东西 为什么没有显示

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块

[已解决]麻烦帮忙看下我这re模块抓取的东西为什么没有显示