爬取网页时遇到的两个问题，求好心人能帮忙看下

liushuai_529 · 发表于 2017-7-31 11:23:58

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

需求：爬取新闻网站，把最近刚更新的第一条抓取出来
第一个问题：读取到的网页内容缺失？？？
url: http://news.jstv.com/js/
正则表达式：
result=re.search(r'<a href="http://news.jstv.com/a/.*" title=".*" target="_blank">.*</a>',html)
req=urllib.request.Request(url)
      req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36')
      response=urllib.request.urlopen(req)
      html=response.read()
      encode=chardet.detect(html)['encoding']
      if encode=='GB2312':
         encode='GBK'
html=html.decode(encode)
我测试了下：result=re.search(r'<一批新规8月起将实施：部分银行柜台手续费取消',html) 发现下载下来的网页内容没有第一条新闻信息
第二个问题：url: http://news.xdkb.net/node_6743.htm
也是想获取第条新闻的信息：<a href="2017-07/31/content_1058677.htm" target="_blank">老太河边摘枣不慎摔下被挂水面枣树枝上</a>
代码如下：
result=re.search(r'<h3><a href="20.*htm" target="_blank">.*</a>',html) html是获取页面的信息
结果：可以匹配正确的开始位置，无法匹配正确的结束为止

zkamsk · 发表于 2017-8-1 16:40:40

你把源码用code贴出来，太乱了这个

小锟 · 发表于 2017-8-1 21:34:58

第一个问题，网页是动态加载的，具体的可以百度
第二个问题，正则表达式默认是贪婪模式的，你把贪婪模式取消了就可以了，具体的也可以百度

账号		自动登录	找回密码
密码			立即注册

爬取网页时遇到的两个问题，求好心人能帮忙看下

马上注册，结交更多好友，享用更多功能^_^

浏览过的版块