[已解决]python爬虫文件写入问题

黑盒子 · 发表于 2020-8-27 21:26:16

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

import urllib.request
import re
import os
def url_open(url):
#添加头文件
req = urllib.request.Request(url)
req.add_header('User-Agent','Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36')
#访问网址
response = urllib.request.urlopen(req)
html = response.read()
return html
def get_url(url):
html = url_open(url).decode('utf-8')
#获取电影地址
a = r'<a class="stui-vodlist__thumb lazyload" href="([^"]+\.html)"'
mov_addrs = re.findall(a, html)
#获取电影名称
b = r'<a class="stui-vodlist__thumb lazyload" href="[^"]+\.html" title="([^"]+)"'
mov_title = re.findall(b, html)
#电影名与网址对应
mov_dict = dict(zip(mov_title, mov_addrs))
return mov_dict
#保存到文档中
def save_url(folder, mov_dict):
for each in mov_dict:
with open('movies.txt', 'a') as f:
f.write('%s ' % each)
url = 'https://www.4480qpg.net/'
f.write('%s\n' % (url + mov_dict[each]))
def download_movs(folder='mov'):
#创建文件夹
os.mkdir(folder)
#保存文件夹
os.chdir(folder)
url = 'https://www.4480qpg.net/'
#获取电影地址
mov_url = get_url(url)
#保存到指定文件夹
save_url(folder, mov_url)
if __name__ == '__main__':
download_movs()

复制代码

自己写的一个小爬虫，爬的是4480青苹果影院https://www.4480qpg.net/
#保存到文档中
这一步，怎么把电影名称和电影地址直接同时（直接字典不用分开）写入TXT文档中呢，还是说像我那样写也还不错，有没有更好的写入方法呢，求教
还有就是，比如爬取网址后缀为.html的，是不是一般方法爬不了呢，求教求解释

最佳答案

月排行榜 / 总排行榜

suchocolate

2020-8-28 09:45:14

本帖最后由 suchocolate 于 2020-8-28 09:49 编辑

1）第一个问题：

url = 'https://www.4480qpg.net/' # 变量赋值一次即可
with open('movies.txt', 'a') as f: # 文件打开一次即可
for key,value in mov_dict.items(): # items()可以同时取key和value。
movie_url = url + value
f.write('%s %s\n' % (key, movie_url))

复制代码

2）第二个问题：页面主要由HTML（主题框架），Javascript（网页行为），css组成（网页样式）组成，光看url是html无法判断网页能不能直接爬取，需要根据实际情况分析。
有的网站设置加密，有的网站要求登录，有的网站数据需要发起ajax。这个4480网站我看没有过多使用ajax，应该可以直接爬取。

3）你的代码还有其他可以优化的地方，不过还是交给你自己练习吧。

跳转到最佳答案楼层

suchocolate · 发表于 2020-8-28 09:45:14

这个最佳答案由 suchocolate 给出，感谢 suchocolate 的回答。

单击隐藏图章

本帖最后由 suchocolate 于 2020-8-28 09:49 编辑

1）第一个问题：

url = 'https://www.4480qpg.net/' # 变量赋值一次即可
with open('movies.txt', 'a') as f: # 文件打开一次即可
for key,value in mov_dict.items(): # items()可以同时取key和value。
movie_url = url + value
f.write('%s %s\n' % (key, movie_url))

复制代码

2）第二个问题：页面主要由HTML（主题框架），Javascript（网页行为），css组成（网页样式）组成，光看url是html无法判断网页能不能直接爬取，需要根据实际情况分析。
有的网站设置加密，有的网站要求登录，有的网站数据需要发起ajax。这个4480网站我看没有过多使用ajax，应该可以直接爬取。

3）你的代码还有其他可以优化的地方，不过还是交给你自己练习吧。

账号		自动登录	找回密码
密码			立即注册

[已解决]python爬虫 文件写入问题

马上注册，结交更多好友，享用更多功能^_^

[已解决]python爬虫文件写入问题