|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
- import csv
- from zipfile import ZipFile
- from io import BytesIO, TextIOWrapper
- import requests,pprint
- url='http://s3.amazonaws.com/alexa-static/top-1m.csv.zip' #下载列表压缩文件网址
- resp = requests.get(url, stream=True)
- urls = [] # top 1 million URL's will be stored in this list
- with ZipFile(BytesIO(resp.content)) as zf:
- csv_filename = zf.namelist()[0]
- with zf.open(csv_filename) as csv_file:
- for _, website in csv.reader(TextIOWrapper(csv_file)):
- urls.append('http://' + website)
- pprint.pprint(urls)
复制代码
下载得到的压缩数据是在使用 BytesIO 类封装之
后,才传给 ZipFile 的。这是因为 ZipFile 需要一个类似文件的接口,而不
是原生字节对象。我们还设置了 stream=True,帮助加速请求。接下来,我
们从文件名列表中提取出 CSV 文件的名称。由于这个.zip 文件中只包含一个
文件,所以我们直接选择第一个文件名即可。然后,使用 TextIOWrapper 读
取 CSV 文件,它将协助处理编码和读取问题。该文件之后会被遍历,并将第二
列中的域名数据添加到 URL 列表中。为了使 URL 合法,我们还会在每个域名
前添加 http://协议。
是不是内容太多导致的,我看有71w多行。 - import csv
- from zipfile import ZipFile
- import requests
- url = 'http://s3.amazonaws.com/alexa-static/top-1m.csv.zip'
- r = requests.get(url, headers={"user-agent": "mozilla"}, stream=True, timeout=None)
- with open('test.zip', 'wb') as f:
- f.write(r.content)
- with ZipFile('test.zip') as myzip:
- myzip.extractall()
- c_name = myzip.namelist()[0]
- with open(c_name) as csv_file:
- reader = csv.reader(csv_file)
- for row in reader:
- print(row[1])
复制代码
|
|