有关网络爬虫，正则表达式没有出错，控制台没有报错，但没有输出结果

donkeylord · 发表于 2018-2-4 11:07:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

源程序:
import requests
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
import re

def get_one_page(url):                #抓取网页
try:
      response = requests.get(url)
      if response.status_code == 200:
         return response.text
      return None
except RequestException:
      return None

def parse_one_page(html):
      pattern = re.compile('<dd>.*?board-index.*?>(\d+)</i>.*?data-src="(.*?)".*?name"><a'
                           '.*?>(.*?)</a>.*?star">(.*?)</p>.*?releasetime">(.*?)</p>'
                           '.*?integar">(.*?)</i>.*?fraction">(.*?)</i>.*?</dd>', re.S)
      items = re.findall(pattern, html)
      print(items)

def main():
url = 'http://maoyan.com/board/4'
html = get_one_page(url)
parse_one_page(html)

if __name__ == '__main__':
main()

附上网站url以及需要爬取的网站php代码:（需要获取dd中的图片url，名字，主演，放映时间，评分等信息）
<dd>
                     <i class="board-index board-index-10">10</i>
<a href="/films/2760" title="魂断蓝桥" class="image-link" data-act="boarditem-click" data-val="{movieId:2760}">
   <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
   <img data-src="http://p0.meituan.net/movie/12/8506449.jpg@160w_220h_1e_1c" alt="魂断蓝桥" class="board-img" />
</a>
<div class="board-item-main">
   <div class="board-item-content">
            <div class="movie-item-info">
      <p class="name"><a href="/films/2760" title="魂断蓝桥" data-act="boarditem-click" data-val="{movieId:2760}">魂断蓝桥</a></p>
      <p class="star">
            主演：费雯·丽,罗伯特·泰勒,露塞尔·沃特森
      </p>
<p class="releasetime">上映时间：1940-05-17(美国)</p> </div>
<div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">2</i></p>
</div>

   </div>
</div>

            </dd>
希望大神可以指导一下，哪里报错以及以后遇到这种情况可以用debug之类的方法解决吗

mintaka · 发表于 2018-2-4 16:18:23

BeautifulSoup这么好用干嘛不用，我感觉正则表达式可读太差

def parse_one_page(html):
soup = BeautifulSoup(html,'html.parser')
body=soup.find('dl',{'class':'board-wrapper'})
p = r'http://.*\.jpg.*'
for k in body.find_all('dd'):
movies =k.find('img', {'data-src': re.compile(p)})
star = k.find('p',{'class':'star'})
time = k.find('p',{'class':'releasetime'})
core = k.find('p',{'class':'score'})
print(movies['alt'])
print(movies['data-src'],end='')
for n in star.get_text().split(' '):
if n !='':
print(n,end='')
print(time.get_text())
print('评分:'+core.get_text())
print("'''''''''''''''''''''''''''''''''''''")

复制代码

donkeylord · 发表于 2018-2-7 20:38:06

mintaka 发表于 2018-2-4 16:18
BeautifulSoup这么好用干嘛不用，我感觉正则表达式可读太差

大哥能稍微加一点注释吗。。。。我刚学看不太懂

donkeylord · 发表于 2018-2-7 20:38:35

donkeylord 发表于 2018-2-7 20:38
大哥能稍微加一点注释吗。。。。我刚学看不太懂

万分感谢！！！

donkeylord · 发表于 2018-2-7 20:39:24

donkeylord 发表于 2018-2-7 20:38
大哥能稍微加一点注释吗。。。。我刚学看不太懂

拜托了！

mintaka · 发表于 2018-2-8 12:55:30

donkeylord 发表于 2018-2-7 20:38
大哥能稍微加一点注释吗。。。。我刚学看不太懂

就是找到特定的tag，你去看看BeautifulSoup的用法吧

账号		自动登录	找回密码
密码			立即注册

有关网络爬虫，正则表达式没有出错，控制台没有报错，但没有输出结果

马上注册，结交更多好友，享用更多功能^_^

回帖奖励 +4 鱼币

浏览过的版块