[已解决]正则问题请高手帮忙

jjxx2005 · 发表于 2020-4-14 16:45:26

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import requests
import re
if __name__ == "__main__":
url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
# 使用通过爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬虫将页面中所有的图片进行解析/提取
img_src_list = re.findall(r'(?<=\<img src\=").+(?=" width)',page_text,re.S)
print(img_src_list)

复制代码

打印的列表不是我想要的，我想要的是以上我想把所有的<img src= 和 width 之间的jpg地址提取出来

我把正则写成 '<div id="list" class="proLis">.*?<img src="(.*?)" width.*?<div class="clear">' 只能提取出第一个，按上面的写提取出来的又多了好多不是我要的

最佳答案

月排行榜 / 总排行榜

悠悠2264

2020-4-14 17:21:23

本帖最后由悠悠2264 于 2020-4-14 17:29 编辑

这下可以了，去掉re.S，这变成.+?（匹配最近一个）。不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。如果不去掉，就有可能从这一行前面的<img src\="进行匹配

import requests
import re
if __name__ == "__main__":
url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
# 使用通过爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬虫将页面中所有的图片进行解析/提取
img_src_list = re.findall(r'(?<=\<img src\=").+?(?=" width\="165" height\="117")',page_text)
print(img_src_list)

复制代码

跳转到最佳答案楼层

悠悠2264 · 发表于 2020-4-14 16:56:23

本帖最后由悠悠2264 于 2020-4-14 17:01 编辑

把爬取到的东西和不需要的东西发出来

jjxx2005 · 发表于 2020-4-14 17:05:32

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="description" content='
北京京客隆商业集团股份有限公司' />
<meta name="keywords" content='
北京京客隆商业集团股份有限公司' />
<title>

北京京客隆商业集团股份有限公司
</title>

<link type="text/css" rel="stylesheet" href="css/style.css" />
<script type="text/javascript" src="js/manu.js" ></script>


</head>
<body>
<form name="form1" method="post" action="phoLis.aspx?id=697" id="form1">
<div>
<input type="hidden" name="__VIEWSTATE" id="__VIEWSTATE" value="/wEPDwULLTEzNjQ3NTM4ODUPZBYCAgQPZBYIZg9kFgoCAQ8WAh4LXyFJdGVtQ291bnQCBhYMZg9kFgJmDxUCAzY4Mgzpm4blm6LnroDku4tkAgEPZBYCZg8VAgM3MDUP6JGj5LqL6ZW/6Ie06L6eZAICD2QWAmYPFQIDNzMwDOaIkOmVv+WOhueoi2QCAw9kFgJmDxUCAzczMQzkvIHkuJrmlofljJZkAgQPZBYCZg8VAgM3NTAP6ZuG5Zui5a2Q5YWs5Y+4ZAIFD2QWAmYPFQIDNzUxDOmbhuWbouaWsOmXu2QCAw8WAh8AAgkWEmYPZBYCZg8VAhJpbnZlc3QuYXNweD9pZD04OTAP5YWs5ZGK5Y+K6YCa5ZGKZAIBD2QWAmYPFQISaW52ZXN0LmFzcHg/aWQ9ODg4DOi0ouWKoei1hOaWmWQCAg9kFgJmDxUCEmludmVzdC5hc3B4P2lkPTg4ORLkvIHkuJrmjqjku4vmnZDmlplkAgMPZBYCZg8VAhJpbnZlc3QuYXNweD9pZD04OTEG6YCa5Ye9ZAIED2QWAmYPFQISaW52ZXN0LmFzcHg/aWQ9ODkyDOS8geS4mueuoeayu2QCBQ9kFgJmDxUCEmludmVzdC5hc3B4P2lkPTg5Mxbmi5vogqHkuaYv5LiK5biC5paH5Lu2ZAIGD2QWAmYPFQISaW52ZXN0LmFzcHg/aWQ9ODk0IeS4iuW4guinhOWImeS4i+aPkOS6pOS5i+aKq+mcsi4uLmQCBw9kFgJmDxUCEmludmVzdC5hc3B4P2lkPTkyMxLlhazlj7jogZTnu5zotYTmlplkAggPZBYCZg8VAhJpbnZlc3QuYXNweD9pZD05MzQS6YeN6KaB5oub56ef5YWs5ZGKZAIFDxYCHwACAxYGZg9kFgJmDxUCAzY5NwznlLXlrZDmtbfmiqVkAgEPZBYCZg8VAgM3NTcM5Li75o6o5ZWG5ZOBZAICD2QWAmYPFQIDNzU5DOS8muWRmOS/g+mUgGQCBw8WAh8AAgUWCmYPZBYCZg8VAgM3MDYM5ZWG5ZOB55+l6K+GZAIBD2QWAmYPFQIDNzYxDOWBpeW6t+WFu+eUn2QCAg9kFgJmDxUCAzg4MhLlpJrnlKjpgJTpooTku5jljaFkAgMPZBYCZg8VAgM3NjIS5L6/5rCR5pyN5Yqh6aG555uuZAIED2QWAmYPFQIDOTMyIeWFrOWPuOWAuuWIuOWPkeihjOS6uuinhOiMg+i/kC4uLmQCCQ8WAh8AAgQWCGYPZBYCZg8VAgM3MzcV5bqX6ZO65bm/5ZGK5L2N5oub56efZAIBD2QWAmYPFQIDOTMxG+S6rOWuoumahumbhuWbouaLm+WVhuS/oeaBr2QCAg9kFgJmDxUCAzczOBjor5rmi5vnn6XlkI3lk4HniYzllYbmiLdkAgMPZBYCZg8VAgM4ODMY5a+756ef5a+76LSt5ZWG5Lia55So5oi/ZAIBD2QWAgIBDxYCHwACAxYGZg9kFgJmDxUDAzY5NwM2OTcM55S15a2Q5rW35oqlZAIBD2QWAmYPFQMDNzU3Azc1NwzkuLvmjqjllYblk4FkAgIPZBYCZg8VAwM3NTkDNzU5DOS8muWRmOS/g+mUgGQCBA8WAh4HVmlzaWJsZWcWBAIBDxYCHwACDBYYZg9kFgJmDxUDSCBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS8xLTE1NTEwNjQyNDkyLmpwZyIgdGFyZ2V0PSJfYmxhbmsiIC8vVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS8xLTE1NTEwNjQyNDkyLmpwZxXnrKwyMDAxNeacn+KAlOKAlDHpobVkAgEPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvMi0xNTUxMDY2OTQ0MC5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvMi0xNTUxMDY2OTQ0MC5qcGcV56ysMjAwMTXmnJ/igJTigJQy6aG1ZAICD2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzMtMTU1MTA4NjkxNTMuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzMtMTU1MTA4NjkxNTMuanBnFeesrDIwMDE15pyf4oCU4oCUM+mhtWQCAw9kFgJmDxUDSCBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS80LTE1NTExMTQ1Njk4LmpwZyIgdGFyZ2V0PSJfYmxhbmsiIC8vVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS80LTE1NTExMTQ1Njk4LmpwZxXnrKwyMDAxNeacn+KAlOKAlDTpobVkAgQPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvNS0xNTUxMjU5NTgzMy5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvNS0xNTUxMjU5NTgzMy5qcGcV56ysMjAwMTXmnJ/igJTigJQ16aG1ZAIFD2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzYtMTYwNjUxNzUxOTYuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzYtMTYwNjUxNzUxOTYuanBnFeesrDIwMDE15pyf4oCU4oCUNumhtWQCBg9kFgJmDxUDSCBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS83LTE2MDY1MjM4NjU3LmpwZyIgdGFyZ2V0PSJfYmxhbmsiIC8vVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS83LTE2MDY1MjM4NjU3LmpwZxXnrKwyMDAxNeacn+KAlOKAlDfpobVkAgcPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvOC0xNjA2NTI5MjI1OS5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvOC0xNjA2NTI5MjI1OS5qcGcV56ysMjAwMTXmnJ/igJTigJQ46aG1ZAIID2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzktMTU1MTE4NjEwMjEuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE1LzktMTU1MTE4NjEwMjEuanBnFeesrDIwMDE15pyf4oCU4oCUOemhtWQCCQ9kFgJmDxUDSSBocmVmPSIvVXNlckZpbGVzL+a1t+aKpTIwMjAwMy8yMDAxNS8xMC0xNTUxMTkzMDY4MC5qcGciIHRhcmdldD0iX2JsYW5rIiAwL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTUvMTAtMTU1MTE5MzA2ODAuanBnFuesrDIwMDE15pyf4oCU4oCUMTDpobVkAgoPZBYCZg8VA0ggaHJlZj0iL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTQvMS0wODA4MTkyNzg3MC5qcGciIHRhcmdldD0iX2JsYW5rIiAvL1VzZXJGaWxlcy/mtbfmiqUyMDIwMDMvMjAwMTQvMS0wODA4MTkyNzg3MC5qcGcV56ysMjAwMTTmnJ/igJTigJQx6aG1ZAILD2QWAmYPFQNIIGhyZWY9Ii9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE0LzItMDgwODIwMTE0ODcuanBnIiB0YXJnZXQ9Il9ibGFuayIgLy9Vc2VyRmlsZXMv5rW35oqlMjAyMDAzLzIwMDE0LzItMDgwODIwMTE0ODcuanBnFeesrDIwMDE05pyf4oCU4oCUMumhtWQCAw8PFgIeC1JlY29yZGNvdW50AitkZAIFD2QWAgIBDxYCHwACBRYKZg9kFgJmDxUCF2h0dHA6Ly93d3cuYmpjcC5jb20uY24vJOWMl+S6rOacneaJueWVhui0uOiCoeS7veaciemZkOWFrOWPuGQCAQ9kFgJmDxUCACrljJfkuqzmrKPpmLPpgJrlipvllYbkuJrorr7lpIfmnInpmZDlhazlj7hkAgIPZBYCZg8VAgAq5YyX5Lqs6aaW6IGU6L+q5pav5bq354m55ZWG5Lia5pyJ6ZmQ5YWs5Y+4ZAIDD2QWAmYPFQIAIeS6rOWuoumahu+8iOW7iuWdiu+8ieaciemZkOWFrOWPuGQCBA9kFgJmDxUCJGh0dHA6Ly9zaGlqaWppdTk1OC5iajQyLmhvc3QuMzUuY29tLwzkuYXpmobnmb7otKdkZPnRR8KHVoLidfhbvU3scRh5G1Ii" />
</div>

<div>

<input type="hidden" name="__VIEWSTATEGENERATOR" id="__VIEWSTATEGENERATOR" value="075553CE" />
<input type="hidden" name="__EVENTTARGET" id="__EVENTTARGET" value="" />
<input type="hidden" name="__EVENTARGUMENT" id="__EVENTARGUMENT" value="" />
</div>

<script src="http://code.jquery.com/jquery-2.1.1.min.js"></script>

<script>
  var now = new Date();
  var year = now.getFullYear();
  var month = now.getMonth() + 1;
  var day = now.getDate();
  if (year == 2020 && month == 4 && day == 4) {
$("html").addClass("html-bck");
$("body").addClass("html-bck");
  }
</script>
<style>
  .html-bck {
-webkit-filter: grayscale(100%);
/* webkit */
-moz-filter: grayscale(100%);
/*firefox*/
-ms-filter: grayscale(100%);
/*ie9*/
-o-filter: grayscale(100%);
/*opera*/
filter: grayscale(100%);
filter: progid:DXImageTransform.Microsoft.BasicImage(grayscale=1);
filter: gray;
/*ie9- */
  }

  .body-bck {
-webkit-filter: grayscale(100%);
/* webkit */
-moz-filter: grayscale(100%);
/*firefox*/
-ms-filter: grayscale(100%);
/*ie9*/
-o-filter: grayscale(100%);
/*opera*/
filter: grayscale(100%);
filter: progid:DXImageTransform.Microsoft.BasicImage(grayscale=1);
filter: gray;
/*ie9- */
  }
</style>

<div class="header">
<div class="logo">
      <a href="index.aspx">
         <img src="images/logo.jpg" width="182" height="50" /></a></div>
<div class="nav">
      <ul id="nav">
         <li><a href="index.aspx" class="nav01">网站首页</a></li>
         <li><a href="about.aspx" class="nav02">集团信息</a>
            <ul class="ul01">
                  <li class="li_left"></li>

                        <li><a href="about.aspx?id=682">
                              集团简介</a></li>

                        <li><a href="about.aspx?id=705">
                              董事长致辞</a></li>

                        <li><a href="about.aspx?id=730">
                              成长历程</a></li>

                        <li><a href="about.aspx?id=731">
                              企业文化</a></li>

                        <li><a href="about.aspx?id=750">
                              集团子公司</a></li>

                        <li><a href="about.aspx?id=751">
                              集团新闻</a></li>

                  <li class="li_right"></li>
            </ul>
         </li>
         <li id="li03"><a href="invest.aspx" class="nav03">投资者关系</a>
            <ul class="ul02">
                  <li class="li_left"></li>

                        <li><a href="invest.aspx?id=890">
                              公告及通告</a></li>

                        <li><a href="invest.aspx?id=888">
                              财务资料</a></li>

                        <li><a href="invest.aspx?id=889">
                              企业推介材料</a></li>

                        <li><a href="invest.aspx?id=891">
                              通函</a></li>

                        <li><a href="invest.aspx?id=892">
                              企业管治</a></li>

                        <li><a href="invest.aspx?id=893">
                              招股书/上市文件</a></li>

                        <li><a href="invest.aspx?id=894">
                              上市规则下提交之披露...</a></li>

                        <li><a href="invest.aspx?id=923">
                              公司联络资料</a></li>

                        <li><a href="invest.aspx?id=934">
                              重要招租公告</a></li>

                  <li class="li_right"></li>
            </ul>
         </li>
         <li><a href="phoLis.aspx" class="nav05">促销信息</a>
            <ul class="ul04">
                  <li class="li_left"></li>

                        <li><a href="phoLis.aspx?id=697">
                              电子海报</a></li>

                        <li><a href="phoLis.aspx?id=757">
                              主推商品</a></li>

                        <li><a href="phoLis.aspx?id=759">
                              会员促销</a></li>

                  <li class="li_right"></li>
            </ul>
         </li>
         <li><a href="serLis.aspx" class="nav06">便民服务</a>
            <ul class="ul05">
                  <li class="li_left"></li>

                        <li><a href="serLis.aspx?id=706">
                              商品知识</a></li>

                        <li><a href="serLis.aspx?id=761">
                              健康养生</a></li>

                        <li><a href="serLis.aspx?id=882">
                              多用途预付卡</a></li>

                        <li><a href="serLis.aspx?id=762">
                              便民服务项目</a></li>

                        <li><a href="serLis.aspx?id=932">
                              公司债券发行人规范运...</a></li>

                  <li class="li_right"></li>
            </ul>
         </li>
         <li id="li06"><a href="food.aspx" class="nav04">招商信息</a>
            <ul class="ul03">
                  <li class="li_left"></li>

                        <li><a href="food.aspx?id=737">
                              店铺广告位招租</a></li>

                        <li><a href="food.aspx?id=931">
                              京客隆集团招商信息</a></li>

                        <li><a href="food.aspx?id=738">
                              诚招知名品牌商户</a></li>

                        <li><a href="food.aspx?id=883">
                              寻租寻购商业用房</a></li>

                  <li class="li_right"></li>
            </ul>
         </li>
      </ul>

      <script type="text/javascript">          menu()</script>

</div>
<div class="clear">
</div>
</div>

<div class="info_banner">
      <img src="/UserFiles/about_banner-11261421337.jpg" width="982" height="139" /></div>
<div class="infoBox">
      <div class="infoL">

<div class="infoLis">
        <h5><img src="images/tit4.jpg" /></h5>
         <ul>

            <li><a href="phoLis.aspx?id=697" id="697">电子海报</a></li>

            <li><a href="phoLis.aspx?id=757" id="757">主推商品</a></li>

            <li><a href="phoLis.aspx?id=759" id="759">会员促销</a></li>


         </ul>
      </div>

<div class="tel">
        <p><a href="contact.aspx"><img src="images/contact.jpg" /></a></p>
         <p><a href="serLis.aspx"><img src="images/ser.jpg" /></a></p>
         <div style="margin-top:10px;"><span style="float:left;">分享到：</span><div class="bshare-custom"><div class="bsPromo bsPromo2"></div><a class="bshare-qzone" title="分享到QQ空间"></a><a class="bshare-sinaminiblog" title="分享到新浪微博"></a><a class="bshare-renren" title="分享到人人网"></a><a class="bshare-qqmb" title="分享到腾讯微博"></a><a class="bshare-neteasemb" title="分享到网易微博"></a><a class="bshare-more bshare-more-icon more-style-addthis" title="更多平台"></a></div><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/buttonLite.js#style=-1&uuid=&pophcol=2&lang=zh"></script><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/bshareC0.js"></script></div>
      </div>
      </div>
      <div class="infoR">
         <div class="infoTit">
            电子海报<span>当前位置：<a href="index.aspx" class="homes">首页</a> > <a href="phoLis.aspx">
                  促销信息</a> > <strong>
                     电子海报</strong></span></div>

         <div id="list" class="proLis">
            <ul>

                        <li><a  href="/UserFiles/海报202003/20015/1-15510642492.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/1-15510642492.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——1页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/2-15510669440.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/2-15510669440.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——2页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/3-15510869153.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/3-15510869153.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——3页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/4-15511145698.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/4-15511145698.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——4页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/5-15512595833.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/5-15512595833.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——5页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/6-16065175196.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/6-16065175196.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——6页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/7-16065238657.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/7-16065238657.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——7页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/8-16065292259.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/8-16065292259.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——8页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/9-15511861021.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/9-15511861021.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——9页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20015/10-15511930680.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20015/10-15511930680.jpg" width="165" height="117" /><br />
                              <span>
                                 第20015期——10页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20014/1-08081927870.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20014/1-08081927870.jpg" width="165" height="117" /><br />
                              <span>
                                 第20014期——1页</span></a></li>

                        <li><a  href="/UserFiles/海报202003/20014/2-08082011487.jpg" target="_blank" >
                              <img src="/UserFiles/海报202003/20014/2-08082011487.jpg" width="165" height="117" /><br />
                              <span>
                                 第20014期——2页</span></a></li>

            </ul>
            <div class="clear">
            </div>
            <div class="pages">


<div id="AspNetPager1">
<a disabled="disabled" style="margin-right:5px;">首页</a><a disabled="disabled" style="margin-right:5px;">上一页</a><span class="hover" style="margin-right:5px;">1</span><a href="javascript:__doPostBack('AspNetPager1','2')" style="margin-right:5px;">2</a><a href="javascript:__doPostBack('AspNetPager1','3')" style="margin-right:5px;">3</a><a href="javascript:__doPostBack('AspNetPager1','4')" style="margin-right:5px;">4</a><a href="javascript:__doPostBack('AspNetPager1','2')" style="margin-right:5px;">下一页</a><a href="javascript:__doPostBack('AspNetPager1','4')" style="margin-right:5px;">尾页</a>
</div>


            </div>
         </div>
      </div>
      <div class="clear">
      </div>
</div>


<div class="footer">
<div class="foot">
      <div class="bg">
         <div id="w">
            <a href="javascript:;">--京客隆子公司链接--</a></div>
         <div id="down">
            <ul>

                  <li><a href="http://www.bjcp.com.cn/" target="_blank">北京朝批商贸股份有限公司</a></li>

                  <li><a href="" target="_blank">北京欣阳通力商业设备有限公司</a></li>

                  <li><a href="" target="_blank">北京首联迪斯康特商业有限公司</a></li>

                  <li><a href="" target="_blank">京客隆（廊坊）有限公司</a></li>

                  <li><a href="http://shijijiu958.bj42.host.35.com/" target="_blank">久隆百货</a></li>

            </ul>
         </div>
      </div>
      <div class="center">
         版权所有 © 2013 北京京客隆商业集团股份有限公司   All right reserved  <a
            href="http://www.35.com/" target="_blank" class="webs">技术支持：<img src="images/35logo.gif" />35互联</a>
            <p style="padding:0 90px;"><a href="http://www.beian.miit.gov.cn" target="_blank">京ICP备05009151号</a>   <a href="http://www.bjgaj.gov.cn/web/" target="_blank" style="float:right; margin-right:15px;">京公网安备110105010510</a></p>
            </div>
      <div class="footNav">
         <a href="job.aspx">人才招聘</a> | <a href="contact.aspx">联系我们</a> | <a href="index.aspx">中文版</a> | <a href="../en/index.aspx">English</a> </div>
</div>
</div>

<script>
window.onload = function() {
      var oW = document.getElementById('w');
      var oDiv = document.getElementById('down');

      oDiv.onmouseover = oW.onmouseover = function() {
         oDiv.style.display = 'block';
      }
      oDiv.onmouseout = oW.onmouseout = function() {
         oDiv.style.display = 'none';
      }
};
</script>

<script type="text/javascript">
//<![CDATA[
var theForm = document.forms['form1'];
if (!theForm) {
theForm = document.form1;
}
function __doPostBack(eventTarget, eventArgument) {
if (!theForm.onsubmit || (theForm.onsubmit() != false)) {
      theForm.__EVENTTARGET.value = eventTarget;
      theForm.__EVENTARGUMENT.value = eventArgument;
      theForm.submit();
}
}
//]]>
</script>

</form>

<script>
      document.getElementById("697").className = 'hover';
</script>

</body>
</html>

我只想提取红色的内容

悠悠2264 · 发表于 2020-4-14 17:08:45

可以发现只有这些图片链接的后面是width="165" height="117"，所以可以根据这个，代码如下：

import requests
import re
if __name__ == "__main__":
url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
# 使用通过爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬虫将页面中所有的图片进行解析/提取
img_src_list = re.findall(r'(?<=\<img src\=").+(?=" width="165" height="117")',page_text,re.S)
print(img_src_list)

复制代码

jjxx2005 · 发表于 2020-4-14 17:14:46

悠悠2264 发表于 2020-4-14 17:08
可以发现只有这些图片链接的后面是width="165" height="117"，所以可以根据这个，代码如下：

朋友这个不行，您再帮我看看

他返回的是 ['images/logo.jpg" width="182" height="50" /></a></div>\r\n <div class="nav">\r\n <ul id="nav">\r\n <li><a href="index.aspx" class="nav01">网站首页</a></li>\r\n <li><a href="about.aspx" class="nav02">集团信息</a>\r\n <ul class="ul01">\r\n <li class="li_left"></li>\r\n \r\n <li><a href="about.aspx?id=682">\r\n 集团简介</a></li>\r\n \r\n <li><a href="about.aspx?id=705">\r\n 董事长致辞</a></li>\r\n \r\n <li><a href="about.aspx?id=730">\r\n 成长历程</a></li>\r\n \r\n <li><a href="about.aspx?id=731">\r\n 企业文化</a></li>\r\n \r\n <li><a href="about.aspx?id=750">\r\n 集团子公司</a></li>\r\n \r\n <li><a href="about.aspx?id=751">\r\n 集团新闻</a></li>\r\n \r\n <li class="li_right"></li>\r\n </ul>\r\n </li>\r\n <li id="li03"><a href="invest.aspx" class="nav03">投资者关系</a>\r\n <ul class="ul02">\r\n <li class="li_left"></li>\r\n \r\n <li><a href="invest.aspx?id=890">\r\n 公告及通告</a></li>\r\n \r\n <li><a href="invest.aspx?id=888">\r\n 财务资料</a></li>\r\n \r\n <li><a href="invest.aspx?id=889">\r\n 企业推介材料</a></li>\r\n \r\n <li><a href="invest.aspx?id=891">\r\n 通函</a></li>\r\n \r\n <li><a href="invest.aspx?id=892">\r\n 企业管治</a></li>\r\n \r\n <li><a href="invest.aspx?id=893">\r\n 招股书/上市文件</a></li>\r\n \r\n <li><a href="invest.aspx?id=894">\r\n 上市规则下提交之披露...</a></li>\r\n \r\n <li><a href="invest.aspx?id=923">\r\n 公司联络资料</a></li>\r\n \r\n <li><a href="invest.aspx?id=934">\r\n 重要招租公告</a></li>\r\n \r\n <li class="li_right"></li>\r\n </ul>\r\n </li>\r\n <li><a href="phoLis.aspx" class="nav05">促销信息</a>\r\n <ul class="ul04">\r\n <li class="li_left"></li>\r\n \r\n <li><a href="phoLis.aspx?id=697">\r\n 电子海报</a></li>\r\n \r\n <li><a href="phoLis.aspx?id=757">\r\n 主推商品</a></li>\r\n \r\n <li><a href="phoLis.aspx?id=759">\r\n 会员促销</a></li>\r\n \r\n <li class="li_right"></li>\r\n </ul>\r\n </li>\r\n <li><a href="serLis.aspx" class="nav06">便民服务</a>\r\n <ul class="ul05">\r\n <li class="li_left"></li>\r\n \r\n <li><a href="serLis.aspx?id=706">\r\n 商品知识</a></li>\r\n \r\n <li><a href="serLis.aspx?id=761">\r\n 健康养生</a></li>\r\n \r\n <li><a href="serLis.aspx?id=882">\r\n 多用途预付卡</a></li>\r\n \r\n <li><a href="serLis.aspx?id=762">\r\n 便民服务项目</a></li>\r\n \r\n <li><a href="serLis.aspx?id=932">\r\n 公司债券发行人规范运...</a></li>\r\n \r\n <li class="li_right"></li>\r\n </ul>\r\n </li>\r\n <li id="li06"><a href="food.aspx" class="nav04">招商信息</a>\r\n <ul class="ul03">\r\n <li class="li_left"></li>\r\n \r\n <li><a href="food.aspx?id=737">\r\n 店铺广告位招租</a></li>\r\n \r\n <li><a href="food.aspx?id=931">\r\n 京客隆集团招商信息</a></li>\r\n \r\n <li><a href="food.aspx?id=738">\r\n 诚招知名品牌商户</a></li>\r\n \r\n <li><a href="food.aspx?id=883">\r\n 寻租寻购商业用房</a></li>\r\n \r\n <li class="li_right"></li>\r\n </ul>\r\n </li>\r\n </ul>\r\n\r\n <script type="text/javascript"> menu()</script>\r\n\r\n </div>\r\n <div class="clear">\r\n </div>\r\n</div>\r\n\r\n <div class="info_banner">\r\n <img src="/UserFiles/about_banner-11261421337.jpg" width="982" height="139" /></div>\r\n <div class="infoBox">\r\n <div class="infoL">\r\n \r\n<div class="infoLis">\r\n \t<h5><img src="images/tit4.jpg" /></h5>\r\n <ul>\r\n \r\n <li><a href="phoLis.aspx?id=697" id="697">电子海报</a></li>\r\n \r\n <li><a href="phoLis.aspx?id=757" id="757">主推商品</a></li>\r\n \r\n <li><a href="phoLis.aspx?id=759" id="759">会员促销</a></li>\r\n \r\n \r\n </ul>\r\n </div>\r\n \r\n<div class="tel">\r\n \t<p><a href="contact.aspx"><img src="images/contact.jpg" /></a></p>\r\n <p><a href="serLis.aspx"><img src="images/ser.jpg" /></a></p>\r\n <div style="margin-top:10px;"><span style="float:left;">分享到：</span><div class="bshare-custom"><div class="bsPromo bsPromo2"></div><a class="bshare-qzone" title="分享到QQ空间"></a><a class="bshare-sinaminiblog" title="分享到新浪微博"></a><a class="bshare-renren" title="分享到人人网"></a><a class="bshare-qqmb" title="分享到腾讯微博"></a><a class="bshare-neteasemb" title="分享到网易微博"></a><a class="bshare-more bshare-more-icon more-style-addthis" title="更多平台"></a></div><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/buttonLite.js#style=-1&uuid=&pophcol=2&lang=zh"></script><script type="text/javascript" charset="utf-8" src="http://static.bshare.cn/b/bshareC0.js"></script></div>\r\n </div>\r\n </div>\r\n <div class="infoR">\r\n <div class="infoTit">\r\n 电子海报<span>当前位置：<a href="index.aspx" class="homes">首页</a> > <a href="phoLis.aspx">\r\n 促销信息</a> > <strong>\r\n 电子海报</strong></span></div>\r\n \r\n <div id="list" class="proLis">\r\n <ul>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/1-15510642492.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/1-15510642492.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——1页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/2-15510669440.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/2-15510669440.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——2页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/3-15510869153.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/3-15510869153.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——3页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/4-15511145698.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/4-15511145698.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——4页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/5-15512595833.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/5-15512595833.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——5页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/6-16065175196.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/6-16065175196.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——6页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/7-16065238657.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/7-16065238657.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——7页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/8-16065292259.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/8-16065292259.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——8页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/9-15511861021.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/9-15511861021.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——9页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20015/10-15511930680.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20015/10-15511930680.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20015期——10页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20014/1-08081927870.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20014/1-08081927870.jpg" width="165" height="117" /><br />\r\n <span>\r\n 第20014期——1页</span></a></li>\r\n \r\n <li><a href="/UserFiles/海报202003/20014/2-08082011487.jpg" target="_blank" >\r\n <img src="/UserFiles/海报202003/20014/2-08082011487.jpg']

jjxx2005 · 发表于 2020-4-14 17:15:57

悠悠2264 发表于 2020-4-14 17:08
可以发现只有这些图片链接的后面是width="165" height="117"，所以可以根据这个，代码如下：

我的目的是就让它返回

['/xxxxxxx.jpg','/xxxxxxx.jpg',.....]

jjxx2005 · 发表于 2020-4-14 17:17:00

悠悠2264 发表于 2020-4-14 17:08
可以发现只有这些图片链接的后面是width="165" height="117"，所以可以根据这个，代码如下：

我的正则是
'<div id="list" class="proLis">.*?<img src="(.*?)" width.*?<div class="clear">'
写的

但是只能抓到第一个jpg

悠悠2264 · 发表于 2020-4-14 17:21:23

本帖最后由悠悠2264 于 2020-4-14 17:29 编辑

这下可以了，去掉re.S，这变成.+?（匹配最近一个）。不使用re.S参数，则只在每一行内进行匹配，如果一行没有，就换下一行重新开始。如果不去掉，就有可能从这一行前面的<img src\="进行匹配

import requests
import re
if __name__ == "__main__":
url = 'http://www.jkl.com.cn/cn/phoLis.aspx?id=697'
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
# 使用通过爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=url,headers=headers).text
# 使用聚焦爬虫将页面中所有的图片进行解析/提取
img_src_list = re.findall(r'(?<=\<img src\=").+?(?=" width\="165" height\="117")',page_text)
print(img_src_list)

复制代码

jjxx2005 · 发表于 2020-4-14 17:29:22

悠悠2264 发表于 2020-4-14 17:21
这下可以了，去掉re.S，这变成.+?（匹配最近一个）。不使用re.S参数，则只在每一行内进行匹配，如果一行没 ...

太帅了

账号		自动登录	找回密码
密码			立即注册

[已解决]正则问题请高手帮忙

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块