爬取的数据存储不到txt文件中了

chunguang · 发表于 2018-8-29 10:52:21

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

从网上爬取的评论存储不到TXT文件中了，老报错，求大神：

import requests
import csv
import multiprocessing
from bs4 import BeautifulSoup
from requests.exceptions import RequestException
from multiprocessing import Pool
def get_comments(url):
try:
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'
}
response=requests.get(url,headers=headers)
response.encoding = 'gbk'
if response.status_code==200:
return response.text
print('请求评论错误')
return None
except RequestException:
return None
def parse_comments(html):
soup = BeautifulSoup(html,'lxml')
items = soup.find_all(class_='comment-item')
for item in items:
comments = item.select('.commenttext')
if comments:
comments = comments[0].text.replace('\n','').replace('\xa0','').replace('\u3000','').replace('\r','').replace(' ','')
data={
'comments': comments
}
yield data
def save_to_file(content):
try:
with codecs.open(r'C:\Users\lenovo\Desktop\数据\白沙comment.txt', 'a', encoding='utf-8') as f:
for i in content:
f.write(i.strip() + '\r\n')
except Exception:
print('存储到文件失败')
def main(page):
url = 'http://www.yanyue.cn/product/comments/15?paramsend=postget&productid=15&paramsend=postget&page_offset='+str(page)
html=get_comments(url)
for item in parse_comments(html):
print(item)
save_to_file(item)
if __name__=='__main__':
for i in range(53):
main(page=i+1)

复制代码

呵123 · 发表于 2018-8-29 11:13:34

虽然我没有跑你的程序，不过感觉你往C盘存数据，是不是需要管理员权限啊？你试试吧，我之前也遇到过没有开管理员权限无法保存的问题，或者你把保存路径改一下

chunguang · 发表于 2018-8-29 11:15:53

呵123 发表于 2018-8-29 11:13
虽然我没有跑你的程序，不过感觉你往C盘存数据，是不是需要管理员权限啊？你试试吧，我之前也遇到过没有开 ...

我试了，也不行

新人 · 发表于 2018-8-29 11:16:07

def save_to_file(content):
try:
      with open(r'C:\Users\lenovo\Desktop\数据\白沙comment.txt', 'a+', encoding='utf-8') as f:
            f.write(json.dumps(content) + '\r\n')
except:
      print('存储到文件失败') 把你的save_to_file 改一下

呵123 · 发表于 2018-8-29 11:17:09

chunguang 发表于 2018-8-29 11:15
我试了，也不行

那你把路径的中文改一下吧，也可能是这个问题

chunguang · 发表于 2018-8-29 11:22:37

新人发表于 2018-8-29 11:16
def save_to_file(content):
try:
with open(r'C:%users\lenovo\Desktop\数据\白沙comment.t ...

不行呀

新人 · 发表于 2018-8-29 11:25:07

f.write(json.dumps(content,ensure_ascii=False) + '\r\n') json模块要导入的

新人 · 发表于 2018-8-29 11:27:19

{"comments": "和天下，非常纯。烟吐出来比一般烟更多。空心过滤嘴。软金砂口感的加强版。女人抽还行！"}

chunguang · 发表于 2018-8-29 11:32:29

新人发表于 2018-8-29 11:25
f.write(json.dumps(content,ensure_ascii=False) + '\r\n') json模块要导入的

但是乱码的

chunguang · 发表于 2018-8-29 11:33:31

chunguang 发表于 2018-8-29 11:32
但是乱码的

好了

账号		自动登录	找回密码
密码			立即注册