|
|
发表于 2018-2-27 01:57:36
|
显示全部楼层
- import requests
- import re
- num = int(input('你想要爬几页:'))
- # 循环爬取的页数,使用倒序爬取(78,77,76...)
- for page in range(78, 78 - num, -1):
- url = 'http://news.scut.edu.cn/s/22/t/3/p/12/i/' + str(page) + '/list.htm'
- html = requests.get(url).text
- # 正则匹配文章标题
- titles = re.findall("color=''>(.*?)<", html)
- # 正则匹配文章链接
- links = re.findall("<td><a href='(.*?)'", html)
- # 补完文章链接
- new_links = ['http://news.scut.edu.cn' + i for i in links]
- # 打印提示
- print('-------------这是第%d页-------------' % (page))
- # zip函数可同时对两个列表进行遍历
- for m, n in zip(titles, new_links):
- # 分别打印文章和链接
- print(m, '\t\t', n)
复制代码
嗯,含注释,可翻页,不到20行,凑合着用吧
加群一起学习吧[Python基础/爬虫692-858-412,是一个Python语言学习小组,欢迎大牛进群接受指导。什么性能,什么语言,都是浮云。够简洁,就Python!] |
|