鱼C论坛

 找回密码
 立即注册
查看: 908|回复: 8

[已解决]正则问题请高手帮忙

[复制链接]
发表于 2020-4-14 16:45:26 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
import requests
import re

if __name__ == "__main__":
    url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
    # 使用通过爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    img_src_list = re.findall(r'(?<=\<img src\=").+(?=" width)',page_text,re.S)
    print(img_src_list)


打印的列表不是我想要的,我想要的是以上我想把所有的<img src=  和 width 之间的jpg地址提取出来

我把正则写成 '<div id="list" class="proLis">.*?<img src="(.*?)" width.*?<div class="clear">' 只能提取出第一个,按上面的写提取出来的又多了好多不是我要的
最佳答案
2020-4-14 17:21:23
本帖最后由 悠悠2264 于 2020-4-14 17:29 编辑

这下可以了,去掉re.S,这变成.+?(匹配最近一个)。不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。如果不去掉,就有可能从这一行前面的<img src\="进行匹配
import requests
import re

if __name__ == "__main__":
    url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
    # 使用通过爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    img_src_list = re.findall(r'(?<=\<img src\=").+?(?=" width\="165" height\="117")',page_text)
    print(img_src_list)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2020-4-14 16:56:23 | 显示全部楼层
本帖最后由 悠悠2264 于 2020-4-14 17:01 编辑

把爬取到的东西和不需要的东西发出来
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-14 17:05:32 | 显示全部楼层
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
    <meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
    <meta name="description" content='
北京京客隆商业集团股份有限公司' />
    <meta name="keywords" content='
北京京客隆商业集团股份有限公司' />
    <title>
        
北京京客隆商业集团股份有限公司
    </title>
   
<link type="text/css" rel="stylesheet" href="css/style.css" />
<script type="text/javascript" src="js/manu.js" ></script>

<!--[if IE 6]>
<script type="text/javascript" src="js/DD_belatedPNG.js" ></script>
<script type="text/javascript">
DD_belatedPNG.fix('#player .Nubbt span.on,#player2 .Nubbt span.on,#player3 .Nubbt span.on,#player4 .Nubbt span.on,#player .dian',.map span.shop01 a,.map span.shop02 a,.map span.shop03 a,.map span.shop04 a,.map span.shop02 a:hover,.map span.shop02 a:hover,.map span.shop03 a:hover,.map span.shop04 a:hover);
</script>
<![endif]-->
</head>
<body>
    <form name="form1" method="post" action="phoLis.aspx?id=697" id="form1">
<div>
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEzNjQ3NTM4ODUPZBYCAgQPZBYIZg9kFgoCAQ8WAh4LXyFJdGVtQ291bnQCBhYMZg9kFgJmDxUCAzY4Mgzpm4blm6LnroDku4tkAgEPZBYCZg8VAgM3MDUP6JGj5LqL6ZW/6Ie06L6eZAICD2QWAmYPFQIDNzMwDOaIkOmVv+WOhueoi2QCAw9kFgJmDxUCAzczMQzkvIHkuJrmlofljJZkAgQPZBYCZg8VAgM3NTAP6ZuG5Zui5a2Q5YWs5Y+4ZAIFD2QWAmYPFQIDNzUxDOmbhuWbouaWsOmXu2QCAw8WAh8AAgkWEmYPZBYCZg8VAhJpbnZlc3QuYXNweD9pZD04OTAP5YWs5ZGK5Y+K6YCa5ZGKZAIBD2QWAmYPFQISaW52ZXN0LmFzcHg/aWQ9ODg4DOi0ouWKoei1hOaWmWQCAg9kFgJmDxUCEmludmVzdC5hc3B4P2lkPTg4ORLkvIHkuJrmjqjku4vmnZDmlplkAgMPZBYCZg8VAhJpbnZlc3QuYXNweD9pZD04OTEG6YCa5Ye9ZAIED2QWAmYPFQISaW52ZXN0LmFzcHg/aWQ9ODkyDOS8geS4mueuoeayu2QCBQ9kFgJmDxUCEmludmVzdC5hc3B4P2lkPTg5Mxbmi5vogqHkuaYv5LiK5biC5paH5Lu2ZAIGD2QWAmYPFQISaW52ZXN0LmFzcHg/aWQ9ODk0IeS4iuW4guinhOWImeS4i+aPkOS6pOS5i+aKq+mcsi4uLmQCBw9kFgJmDxUCEmludmVzdC5hc3B4P2lkPTkyMxLlhazlj7jogZTnu5zotYTmlplkAggPZBYCZg8VAhJpbnZlc3QuYXNweD9pZD05MzQS6YeN6KaB5oub56ef5YWs5ZGKZAIFDxYCHwACAxYGZg9kFgJmDxUCAzY5NwznlLXlrZDmtbfmiqVkAgEPZBYCZg8VAgM3NTcM5Li75o6o5ZWG5ZOBZAICD2QWAmYPFQIDNzU5DOS8muWRmOS/g+mUgGQCBw8WAh8AAgUWCmYPZBYCZg8VAgM3MDYM5ZWG5ZOB55+l6K+GZAIBD2QWAmYPFQIDNzYxDOWBpeW6t+WFu+eUn2QCAg9kFgJmDxUCAzg4MhLlpJrnlKjpgJTpooTku5jljaFkAgMPZBYCZg8VAgM3NjIS5L6/5rCR5pyN5Yqh6aG555uuZAIED2QWAmYPFQIDOTMyIeWFrOWPuOWAuuWIuOWPkeihjOS6uuinhOiMg+i/kC4uLmQCCQ8WAh8AAgQWCGYPZBYCZg8VAgM3MzcV5bqX6ZO65bm/5ZGK5L2N5oub56efZAIBD2QWAmYPFQIDOTMxG+S6rOWuoumahumbhuWbouaLm+WVhuS/oeaBr2QCAg9kFgJmDxUCAzczOBjor5rmi5vnn6XlkI3lk4HniYzllYbmiLdkAgMPZBYCZg8VAgM4ODMY5a+756ef5a+76LSt5ZWG5Lia55So5oi/ZAIBD2QWAgIBDxYCHwACAxYGZg9kFgJmDxUDAzY5NwM2OTcM55S15a2Q5rW35oqlZAIBD2QWAmYPFQMDNzU3Azc1NwzkuLvmjqjllYblk4FkAgIPZBYCZg8VAwM3NTkDNzU5DOS8muWRmOS/g+mUgGQCBA8WAh4HVmlzaWJsZWcWBAIBDxYCHwACDBYYZg9kFgJmDxUDSCBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS8xLTE1NTEwNjQyNDkyLmpwZyIgdGFyZ2V0PSJfYmxhbmsiIC8vVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS8xLTE1NTEwNjQyNDkyLmpwZxXnrKwyMDAxNeacn+KAlOKAlDHpobVkAgEPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvMi0xNTUxMDY2OTQ0MC5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvMi0xNTUxMDY2OTQ0MC5qcGcV56ysMjAwMTXmnJ/igJTigJQy6aG1ZAICD2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzMtMTU1MTA4NjkxNTMuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzMtMTU1MTA4NjkxNTMuanBnFeesrDIwMDE15pyf4oCU4oCUM+mhtWQCAw9kFgJmDxUDSCBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS80LTE1NTExMTQ1Njk4LmpwZyIgdGFyZ2V0PSJfYmxhbmsiIC8vVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS80LTE1NTExMTQ1Njk4LmpwZxXnrKwyMDAxNeacn+KAlOKAlDTpobVkAgQPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvNS0xNTUxMjU5NTgzMy5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvNS0xNTUxMjU5NTgzMy5qcGcV56ysMjAwMTXmnJ/igJTigJQ16aG1ZAIFD2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzYtMTYwNjUxNzUxOTYuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzYtMTYwNjUxNzUxOTYuanBnFeesrDIwMDE15pyf4oCU4oCUNumhtWQCBg9kFgJmDxUDSCBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS83LTE2MDY1MjM4NjU3LmpwZyIgdGFyZ2V0PSJfYmxhbmsiIC8vVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS83LTE2MDY1MjM4NjU3LmpwZxXnrKwyMDAxNeacn+KAlOKAlDfpobVkAgcPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvOC0xNjA2NTI5MjI1OS5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvOC0xNjA2NTI5MjI1OS5qcGcV56ysMjAwMTXmnJ/igJTigJQ46aG1ZAIID2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzktMTU1MTE4NjEwMjEuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzktMTU1MTE4NjEwMjEuanBnFeesrDIwMDE15pyf4oCU4oCUOemhtWQCCQ9kFgJmDxUDSSBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS8xMC0xNTUxMTkzMDY4MC5qcGciIHRhcmdldD0iX2JsYW5rIiAwL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvMTAtMTU1MTE5MzA2ODAuanBnFuesrDIwMDE15pyf4oCU4oCUMTDpobVkAgoPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTQvMS0wODA4MTkyNzg3MC5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTQvMS0wODA4MTkyNzg3MC5qcGcV56ysMjAwMTTmnJ/igJTigJQx6aG1ZAILD2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE0LzItMDgwODIwMTE0ODcuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE0LzItMDgwODIwMTE0ODcuanBnFeesrDIwMDE05pyf4oCU4oCUMumhtWQCAw8PFgIeC1JlY29yZGNvdW50AitkZAIFD2QWAgIBDxYCHwACBRYKZg9kFgJmDxUCF2h0dHA6Ly93d3cuYmpjcC5jb20uY24vJOWMl+S6rOacneaJueWVhui0uOiCoeS7veaciemZkOWFrOWPuGQCAQ9kFgJmDxUCACrljJfkuqzmrKPpmLPpgJrlipvllYbkuJrorr7lpIfmnInpmZDlhazlj7hkAgIPZBYCZg8VAgAq5YyX5Lqs6aaW6IGU6L+q5pav5bq354m55ZWG5Lia5pyJ6ZmQ5YWs5Y+4ZAIDD2QWAmYPFQIAIeS6rOWuoumahu+8iOW7iuWdiu+8ieaciemZkOWFrOWPuGQCBA9kFgJmDxUCJGh0dHA6Ly9zaGlqaWppdTk1OC5iajQyLmhvc3QuMzUuY29tLwzkuYXpmobnmb7otKdkZPnRR8KHVoLidfhbvU3scRh5G1Ii" />
</div>

<div>

        <input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="075553CE" />
        <input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
        <input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
</div>
   

<script src="http://code.jquery.com/jquery-2.1.1.min.js"></script>

<script>
  var now = new Date();
  var year = now.getFullYear();
  var month = now.getMonth() + 1;
  var day = now.getDate();
  if (year == 2020 && month == 4 && day == 4) {
    $("html").addClass("html-bck");
    $("body").addClass("html-bck");
  }
</script>
<style>
  .html-bck {
    -webkit-filter: grayscale(100%);
    /* webkit */
    -moz-filter: grayscale(100%);
    /*firefox*/
    -ms-filter: grayscale(100%);
    /*ie9*/
    -o-filter: grayscale(100%);
    /*opera*/
    filter: grayscale(100%);
    filter: progid:DXImageTransform.Microsoft.BasicImage(grayscale=1);
    filter: gray;
    /*ie9- */
  }

  .body-bck {
    -webkit-filter: grayscale(100%);
    /* webkit */
    -moz-filter: grayscale(100%);
    /*firefox*/
    -ms-filter: grayscale(100%);
    /*ie9*/
    -o-filter: grayscale(100%);
    /*opera*/
    filter: grayscale(100%);
    filter: progid:DXImageTransform.Microsoft.BasicImage(grayscale=1);
    filter: gray;
    /*ie9- */
  }
</style>

<div class="header">
    <div class="logo">
        <a href="index.aspx">
            <img src="images/logo.jpg" width="182" height="50" /></a></div>
    <div class="nav">
        <ul id="nav">
            <li><a href="index.aspx" class="nav01">网站首页</a></li>
            <li><a href="about.aspx" class="nav02">集团信息</a>
                <ul class="ul01">
                    <li class="li_left"></li>
                    
                            <li><a href="about.aspx?id=682">
                                集团简介</a></li>
                        
                            <li><a href="about.aspx?id=705">
                                董事长致辞</a></li>
                        
                            <li><a href="about.aspx?id=730">
                                成长历程</a></li>
                        
                            <li><a href="about.aspx?id=731">
                                企业文化</a></li>
                        
                            <li><a href="about.aspx?id=750">
                                集团子公司</a></li>
                        
                            <li><a href="about.aspx?id=751">
                                集团新闻</a></li>
                        
                    <li class="li_right"></li>
                </ul>
            </li>
            <li id="li03"><a href="invest.aspx" class="nav03">投资者关系</a>
                <ul class="ul02">
                    <li class="li_left"></li>
                    
                            <li><a href="invest.aspx?id=890">
                                公告及通告</a></li>
                        
                            <li><a href="invest.aspx?id=888">
                                财务资料</a></li>
                        
                            <li><a href="invest.aspx?id=889">
                                企业推介材料</a></li>
                        
                            <li><a href="invest.aspx?id=891">
                                通函</a></li>
                        
                            <li><a href="invest.aspx?id=892">
                                企业管治</a></li>
                        
                            <li><a href="invest.aspx?id=893">
                                招股书/上市文件</a></li>
                        
                            <li><a href="invest.aspx?id=894">
                                上市规则下提交之披露...</a></li>
                        
                            <li><a href="invest.aspx?id=923">
                                公司联络资料</a></li>
                        
                            <li><a href="invest.aspx?id=934">
                                重要招租公告</a></li>
                        
                    <li class="li_right"></li>
                </ul>
            </li>
            <li><a href="phoLis.aspx" class="nav05">促销信息</a>
                <ul class="ul04">
                    <li class="li_left"></li>
                    
                            <li><a href="phoLis.aspx?id=697">
                                电子海报</a></li>
                        
                            <li><a href="phoLis.aspx?id=757">
                                主推商品</a></li>
                        
                            <li><a href="phoLis.aspx?id=759">
                                会员促销</a></li>
                        
                    <li class="li_right"></li>
                </ul>
            </li>
            <li><a href="serLis.aspx" class="nav06">便民服务</a>
                <ul class="ul05">
                    <li class="li_left"></li>
                    
                            <li><a href="serLis.aspx?id=706">
                                商品知识</a></li>
                        
                            <li><a href="serLis.aspx?id=761">
                                健康养生</a></li>
                        
                            <li><a href="serLis.aspx?id=882">
                                多用途预付卡</a></li>
                        
                            <li><a href="serLis.aspx?id=762">
                                便民服务项目</a></li>
                        
                            <li><a href="serLis.aspx?id=932">
                                公司债券发行人规范运...</a></li>
                        
                    <li class="li_right"></li>
                </ul>
            </li>
            <li id="li06"><a href="food.aspx" class="nav04">招商信息</a>
                <ul class="ul03">
                    <li class="li_left"></li>
                    
                            <li><a href="food.aspx?id=737">
                                店铺广告位招租</a></li>
                        
                            <li><a href="food.aspx?id=931">
                                京客隆集团招商信息</a></li>
                        
                            <li><a href="food.aspx?id=738">
                                诚招知名品牌商户</a></li>
                        
                            <li><a href="food.aspx?id=883">
                                寻租寻购商业用房</a></li>
                        
                    <li class="li_right"></li>
                </ul>
            </li>
        </ul>

        <script type="text/javascript">            menu()</script>

    </div>
    <div class="clear">
    </div>
</div>

    <div class="info_banner">
        <img src="/UserFiles/about_banner-11261421337.jpg" width="982" height="139" /></div>
    <div class="infoBox">
        <div class="infoL">
            
<div class="infoLis">
                <h5><img src="images/tit4.jpg" /></h5>
            <ul>
              
                <li><a href="phoLis.aspx?id=697" id="697">电子海报</a></li>
               
                <li><a href="phoLis.aspx?id=757" id="757">主推商品</a></li>
               
                <li><a href="phoLis.aspx?id=759" id="759">会员促销</a></li>
               
         
            </ul>
        </div>
            
<div class="tel">
                <p><a href="contact.aspx"><img src="images/contact.jpg" /></a></p>
            <p><a href="serLis.aspx"><img src="images/ser.jpg" /></a></p>
            <div style="margin-top:10px;"><span style="float:left;">分享到:</span><div class="bshare-custom"><div class="bsPromo bsPromo2"></div><a class="bshare-qzone" title="分享到QQ空间"></a><a class="bshare-sinaminiblog" title="分享到新浪微博"></a><a class="bshare-renren" title="分享到人人网"></a><a class="bshare-qqmb" title="分享到腾讯微博"></a><a class="bshare-neteasemb" title="分享到网易微博"></a><a class="bshare-more bshare-more-icon more-style-addthis" title="更多平台"></a></div><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/buttonLite.js#style=-1&amp;uuid=&amp;pophcol=2&amp;lang=zh"></script><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/bshareC0.js"></script></div>
        </div>
        </div>
        <div class="infoR">
            <div class="infoTit">
                电子海报<span>当前位置:<a href="index.aspx" class="homes">首页</a> > <a href="phoLis.aspx">
                    促销信息</a> > <strong>
                        电子海报</strong></span></div>
            
            <div id="list" class="proLis">
                <ul>
                    
                            <li><a  href="/UserFiles/海报202003/20015/1-15510642492.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/1-15510642492.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——1页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/2-15510669440.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/2-15510669440.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——2页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/3-15510869153.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/3-15510869153.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——3页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/4-15511145698.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/4-15511145698.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——4页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/5-15512595833.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/5-15512595833.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——5页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/6-16065175196.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/6-16065175196.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——6页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/7-16065238657.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/7-16065238657.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——7页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/8-16065292259.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/8-16065292259.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——8页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/9-15511861021.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/9-15511861021.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——9页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20015/10-15511930680.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20015/10-15511930680.jpg" width="165" height="117" /><br />
                                <span>
                                    第20015期——10页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20014/1-08081927870.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20014/1-08081927870.jpg" width="165" height="117" /><br />
                                <span>
                                    第20014期——1页</span></a></li>
                        
                            <li><a  href="/UserFiles/海报202003/20014/2-08082011487.jpg" target="_blank" >
                                <img src="/UserFiles/海报202003/20014/2-08082011487.jpg" width="165" height="117" /><br />
                                <span>
                                    第20014期——2页</span></a></li>
                        
                </ul>
                <div class="clear">
                </div>
                <div class="pages">
                    
<!-- AspNetPager V7.2.1 for VS2005 & VS2008  Copyright:2003-2007 Webdiyer (www.webdiyer.com) -->
<div id="AspNetPager1">
<a disabled="disabled" style="margin-right:5px;">首页</a><a disabled="disabled" style="margin-right:5px;">上一页</a><span class="hover" style="margin-right:5px;">1</span><a href="javascript:__doPostBack('AspNetPager1','2')" style="margin-right:5px;">2</a><a href="javascript:__doPostBack('AspNetPager1','3')" style="margin-right:5px;">3</a><a href="javascript:__doPostBack('AspNetPager1','4')" style="margin-right:5px;">4</a><a href="javascript:__doPostBack('AspNetPager1','2')" style="margin-right:5px;">下一页</a><a href="javascript:__doPostBack('AspNetPager1','4')" style="margin-right:5px;">尾页</a>
</div>
<!-- AspNetPager V7.2.1 for VS2005 & VS2008 End -->


                </div>
            </div>
        </div>
        <div class="clear">
        </div>
    </div>
    <!--底部部分-->
   
<div class="footer">
    <div class="foot">
        <div class="bg">
            <div id="w">
                <a href="javascript:;">--京客隆子公司链接--</a></div>
            <div id="down">
                <ul>
                    
                     <li><a href="http://www.bjcp.com.cn/" target="_blank">北京朝批商贸股份有限公司</a></li>
                    
                     <li><a href="" target="_blank">北京欣阳通力商业设备有限公司</a></li>
                    
                     <li><a href="" target="_blank">北京首联迪斯康特商业有限公司</a></li>
                    
                     <li><a href="" target="_blank">京客隆(廊坊)有限公司</a></li>
                    
                     <li><a href="http://shijijiu958.bj42.host.35.com/" target="_blank">久隆百货</a></li>
                    
                </ul>
            </div>
        </div>
        <div class="center">
            版权所有 &copy; 2013 北京京客隆商业集团股份有限公司&nbsp;&nbsp;&nbsp;All right reserved&nbsp;&nbsp;<a
                href="http://www.35.com/" target="_blank" class="webs">技术支持:<img src="images/35logo.gif" />35互联</a>
                <p style="padding:0 90px;"><a href="http://www.beian.miit.gov.cn" target="_blank">京ICP备05009151号</a> &nbsp; <a href="http://www.bjgaj.gov.cn/web/" target="_blank" style="float:right; margin-right:15px;">京公网安备110105010510</a></p>
                </div>
        <div class="footNav">
            <a href="job.aspx">人才招聘</a> | <a href="contact.aspx">联系我们</a> | <a href="index.aspx">中文版</a> | <a href="../en/index.aspx">English</a> </div>
    </div>
</div>

<script>
    window.onload = function() {
        var oW = document.getElementById('w');
        var oDiv = document.getElementById('down');

        oDiv.onmouseover = oW.onmouseover = function() {
            oDiv.style.display = 'block';
        }
        oDiv.onmouseout = oW.onmouseout = function() {
            oDiv.style.display = 'none';
        }
    };
</script>


   
<script type="text/javascript">
//<![CDATA[
var theForm = document.forms['form1'];
if (!theForm) {
    theForm = document.form1;
}
function __doPostBack(eventTarget, eventArgument) {
    if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
        theForm.__EVENTTARGET.value = eventTarget;
        theForm.__EVENTARGUMENT.value = eventArgument;
        theForm.submit();
    }
}
//]]>
</script>

</form>

    <script>
        document.getElementById("697").className = 'hover';
    </script>

</body>
</html>


我只想提取红色的内容
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-14 17:08:45 | 显示全部楼层
可以发现只有这些图片链接的后面是width="165" height="117",所以可以根据这个,代码如下:
import requests
import re

if __name__ == "__main__":
    url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
    # 使用通过爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    img_src_list = re.findall(r'(?<=\<img src\=").+(?=" width="165" height="117")',page_text,re.S)
    print(img_src_list)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-14 17:14:46 | 显示全部楼层
悠悠2264 发表于 2020-4-14 17:08
可以发现只有这些图片链接的后面是width="165" height="117",所以可以根据这个,代码如下:

朋友  这个不行,您再帮我看看

他返回的是 ['images/logo.jpg" width="182" height="50" /></a></div>\r\n    <div class="nav">\r\n        <ul id="nav">\r\n            <li><a href="index.aspx" class="nav01">网站首页</a></li>\r\n            <li><a href="about.aspx" class="nav02">集团信息</a>\r\n                <ul class="ul01">\r\n                    <li class="li_left"></li>\r\n                    \r\n                            <li><a href="about.aspx?id=682">\r\n                                集团简介</a></li>\r\n                        \r\n                            <li><a href="about.aspx?id=705">\r\n                                董事长致辞</a></li>\r\n                        \r\n                            <li><a href="about.aspx?id=730">\r\n                                成长历程</a></li>\r\n                        \r\n                            <li><a href="about.aspx?id=731">\r\n                                企业文化</a></li>\r\n                        \r\n                            <li><a href="about.aspx?id=750">\r\n                                集团子公司</a></li>\r\n                        \r\n                            <li><a href="about.aspx?id=751">\r\n                                集团新闻</a></li>\r\n                        \r\n                    <li class="li_right"></li>\r\n                </ul>\r\n            </li>\r\n            <li id="li03"><a href="invest.aspx" class="nav03">投资者关系</a>\r\n                <ul class="ul02">\r\n                    <li class="li_left"></li>\r\n                    \r\n                            <li><a href="invest.aspx?id=890">\r\n                                公告及通告</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=888">\r\n                                财务资料</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=889">\r\n                                企业推介材料</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=891">\r\n                                通函</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=892">\r\n                                企业管治</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=893">\r\n                                招股书/上市文件</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=894">\r\n                                上市规则下提交之披露...</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=923">\r\n                                公司联络资料</a></li>\r\n                        \r\n                            <li><a href="invest.aspx?id=934">\r\n                                重要招租公告</a></li>\r\n                        \r\n                    <li class="li_right"></li>\r\n                </ul>\r\n            </li>\r\n            <li><a href="phoLis.aspx" class="nav05">促销信息</a>\r\n                <ul class="ul04">\r\n                    <li class="li_left"></li>\r\n                    \r\n                            <li><a href="phoLis.aspx?id=697">\r\n                                电子海报</a></li>\r\n                        \r\n                            <li><a href="phoLis.aspx?id=757">\r\n                                主推商品</a></li>\r\n                        \r\n                            <li><a href="phoLis.aspx?id=759">\r\n                                会员促销</a></li>\r\n                        \r\n                    <li class="li_right"></li>\r\n                </ul>\r\n            </li>\r\n            <li><a href="serLis.aspx" class="nav06">便民服务</a>\r\n                <ul class="ul05">\r\n                    <li class="li_left"></li>\r\n                    \r\n                            <li><a href="serLis.aspx?id=706">\r\n                                商品知识</a></li>\r\n                        \r\n                            <li><a href="serLis.aspx?id=761">\r\n                                健康养生</a></li>\r\n                        \r\n                            <li><a href="serLis.aspx?id=882">\r\n                                多用途预付卡</a></li>\r\n                        \r\n                            <li><a href="serLis.aspx?id=762">\r\n                                便民服务项目</a></li>\r\n                        \r\n                            <li><a href="serLis.aspx?id=932">\r\n                                公司债券发行人规范运...</a></li>\r\n                        \r\n                    <li class="li_right"></li>\r\n                </ul>\r\n            </li>\r\n            <li id="li06"><a href="food.aspx" class="nav04">招商信息</a>\r\n                <ul class="ul03">\r\n                    <li class="li_left"></li>\r\n                    \r\n                            <li><a href="food.aspx?id=737">\r\n                                店铺广告位招租</a></li>\r\n                        \r\n                            <li><a href="food.aspx?id=931">\r\n                                京客隆集团招商信息</a></li>\r\n                        \r\n                            <li><a href="food.aspx?id=738">\r\n                                诚招知名品牌商户</a></li>\r\n                        \r\n                            <li><a href="food.aspx?id=883">\r\n                                寻租寻购商业用房</a></li>\r\n                        \r\n                    <li class="li_right"></li>\r\n                </ul>\r\n            </li>\r\n        </ul>\r\n\r\n        <script type="text/javascript">            menu()</script>\r\n\r\n    </div>\r\n    <div class="clear">\r\n    </div>\r\n</div>\r\n\r\n    <div class="info_banner">\r\n        <img src="/UserFiles/about_banner-11261421337.jpg" width="982" height="139" /></div>\r\n    <div class="infoBox">\r\n        <div class="infoL">\r\n            \r\n<div class="infoLis">\r\n        \t<h5><img src="images/tit4.jpg" /></h5>\r\n            <ul>\r\n              \r\n                <li><a href="phoLis.aspx?id=697" id="697">电子海报</a></li>\r\n                \r\n                <li><a href="phoLis.aspx?id=757" id="757">主推商品</a></li>\r\n                \r\n                <li><a href="phoLis.aspx?id=759" id="759">会员促销</a></li>\r\n                \r\n          \r\n            </ul>\r\n        </div>\r\n            \r\n<div class="tel">\r\n        \t<p><a href="contact.aspx"><img src="images/contact.jpg" /></a></p>\r\n            <p><a href="serLis.aspx"><img src="images/ser.jpg" /></a></p>\r\n            <div style="margin-top:10px;"><span style="float:left;">分享到:</span><div class="bshare-custom"><div class="bsPromo bsPromo2"></div><a class="bshare-qzone" title="分享到QQ空间"></a><a class="bshare-sinaminiblog" title="分享到新浪微博"></a><a class="bshare-renren" title="分享到人人网"></a><a class="bshare-qqmb" title="分享到腾讯微博"></a><a class="bshare-neteasemb" title="分享到网易微博"></a><a class="bshare-more bshare-more-icon more-style-addthis" title="更多平台"></a></div><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/buttonLite.js#style=-1&amp;uuid=&amp;pophcol=2&amp;lang=zh"></script><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/bshareC0.js"></script></div>\r\n        </div>\r\n        </div>\r\n        <div class="infoR">\r\n            <div class="infoTit">\r\n                电子海报<span>当前位置:<a href="index.aspx" class="homes">首页</a> > <a href="phoLis.aspx">\r\n                    促销信息</a> > <strong>\r\n                        电子海报</strong></span></div>\r\n            \r\n            <div id="list" class="proLis">\r\n                <ul>\r\n                    \r\n                            <li><a  href="/UserFiles/海报202003/20015/1-15510642492.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/1-15510642492.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——1页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/2-15510669440.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/2-15510669440.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——2页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/3-15510869153.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/3-15510869153.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——3页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/4-15511145698.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/4-15511145698.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——4页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/5-15512595833.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/5-15512595833.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——5页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/6-16065175196.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/6-16065175196.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——6页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/7-16065238657.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/7-16065238657.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——7页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/8-16065292259.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/8-16065292259.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——8页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/9-15511861021.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/9-15511861021.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——9页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20015/10-15511930680.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20015/10-15511930680.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20015期——10页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20014/1-08081927870.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20014/1-08081927870.jpg" width="165" height="117" /><br />\r\n                                <span>\r\n                                    第20014期——1页</span></a></li>\r\n                        \r\n                            <li><a  href="/UserFiles/海报202003/20014/2-08082011487.jpg" target="_blank" >\r\n                                <img src="/UserFiles/海报202003/20014/2-08082011487.jpg']
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-14 17:15:57 | 显示全部楼层
悠悠2264 发表于 2020-4-14 17:08
可以发现只有这些图片链接的后面是width="165" height="117",所以可以根据这个,代码如下:

我的目的是就让它返回

['/xxxxxxx.jpg','/xxxxxxx.jpg',.....]
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-14 17:17:00 | 显示全部楼层
悠悠2264 发表于 2020-4-14 17:08
可以发现只有这些图片链接的后面是width="165" height="117",所以可以根据这个,代码如下:

我的正则是
'<div id="list" class="proLis">.*?<img src="(.*?)" width.*?<div class="clear">'
写的

但是只能抓到第一个jpg
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2020-4-14 17:21:23 | 显示全部楼层    本楼为最佳答案   
本帖最后由 悠悠2264 于 2020-4-14 17:29 编辑

这下可以了,去掉re.S,这变成.+?(匹配最近一个)。不使用re.S参数,则只在每一行内进行匹配,如果一行没有,就换下一行重新开始。如果不去掉,就有可能从这一行前面的<img src\="进行匹配
import requests
import re

if __name__ == "__main__":
    url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
    headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
    # 使用通过爬虫对url对应的一整张页面进行爬取
    page_text = requests.get(url=url,headers=headers).text
    # 使用聚焦爬虫将页面中所有的图片进行解析/提取
    img_src_list = re.findall(r'(?<=\<img src\=").+?(?=" width\="165" height\="117")',page_text)
    print(img_src_list)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-4-14 17:29:22 | 显示全部楼层
悠悠2264 发表于 2020-4-14 17:21
这下可以了,去掉re.S,这变成.+?(匹配最近一个)。不使用re.S参数,则只在每一行内进行匹配,如果一行没 ...

太帅了
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-11-26 12:20

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表