|
|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本人要用链接爬虫爬取b站首页的所有视频链接,定义了get_links()函数获取网页所有链接,再使用正则表达匹配视频链接。
但是运行时,get_links()函数却没有返回值,请教这是哪里出了错误呢?附代码
- # !/usr/bin/env python
- # -*- coding:utf-8 -*-
- import download_url
- import re
- from urllib import parse
- def link_crawler(seed_url, link_regex):
- crawl_queue = [seed_url]
- while crawl_queue:
- url = crawl_queue.pop()
- html = download_url.download_url(url)
- for link in get_links(html):
- if re.match(link_regex, link):
- link = parse.urljoin(seed_url, link)
- crawl_queue.append(link)
- def get_links(html):
- webpage_regex = re.compile('<a[^>]+href = ["\'](.*?)["\']', re.IGNORECASE)
- return webpage_regex.findall(html)
- link_crawler('https://www.bilibili.com/', 'video/av/')
复制代码
|
|