|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
#写一个程序,依次访问文件中指定的网站,并将每个站点的内容依次存放到不同文件中。
import urllib.request
import chardet
def main():
i = 0
#urls.txt这个文件没下载
with open('urls.txt','r') as f:
#读取待访问地址,由于urls.txt每行一个URL,所有按换行符'\n'分割
urls = f.read().splitlines()
for each_url in urls:
response = urllib.request.urlopen(each_url)
html = response.read()
#识别网络编码
encode = chardet.detect(html)['encoding']
if encode == 'GB2312':
encode = 'GBK'
i += 1
#文件名url_1、2、3。。。
filename = 'url_%d.txt'%i
#打开filename这个文件识别each_file的网络编码后写入文件
with open(filename,'w',encoding = encode) as each_file:
each_file.write(html.decode(encode),'ignore') #此处报错待解决
if __name__ == '__main__':
main()
|
|