|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
需求:爬取新闻网站,把最近刚更新的第一条抓取出来
第一个问题:读取到的网页内容缺失???
url: http://news.jstv.com/js/
正则表达式:
result=re.search(r'<a href="http://news.jstv.com/a/.*" title=".*" target="_blank">.*</a>',html)
req=urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/59.0.3071.109 Safari/537.36')
response=urllib.request.urlopen(req)
html=response.read()
encode=chardet.detect(html)['encoding']
if encode=='GB2312':
encode='GBK'
html=html.decode(encode)
我测试了下:result=re.search(r'<一批新规8月起将实施:部分银行柜台手续费取消',html) 发现下载下来的网页内容没有第一条新闻信息
第二个问题:url: http://news.xdkb.net/node_6743.htm
也是想获取第条新闻的信息:<a href="2017-07/31/content_1058677.htm" target="_blank">老太河边摘枣不慎摔下 被挂水面枣树枝上</a>
代码如下:
result=re.search(r'<h3><a href="20.*htm" target="_blank">.*</a>',html) html是获取页面的信息
结果:可以匹配正确的开始位置,无法匹配正确的结束为止
|
|