python如何处理大量数据？

403141996 · 发表于 2018-10-9 19:29:45

处理对象：一个3M的txt文件，UTF-8编码。

试过yield不行。

求问有没有其它办法。

403141996 · 发表于 2018-10-9 19:32:56

BTW，文件读取出来以后还要对大量的内容进行遍历和增删改，并且也不卡死。

wongyusing · 发表于 2018-10-9 19:58:49

什么数据啊？？为什么不先弄个数据库或者json格式来处理？？

幽梦三影 · 发表于 2018-10-9 20:02:44

你是想读取大文件么

403141996 · 发表于 2018-10-9 20:07:37

wongyusing 发表于 2018-10-9 19:58
什么数据啊？？为什么不先弄个数据库或者json格式来处理？？

一堆普通的字符串，想问问有没有什么简单的方法

403141996 · 发表于 2018-10-9 20:08:23

幽梦三影发表于 2018-10-9 20:02
你是想读取大文件么

是的，读取出来还要增删改

RIXO · 发表于 2018-10-9 20:13:33

403141996 发表于 2018-10-9 20:08
是的，读取出来还要增删改

呃，这个txt文件有什么格式啊，能不能逐条读入，改成json 或者pickle 存储然后用json 或者pickle 增删改啊

wongyusing · 发表于 2018-10-9 20:14:13

403141996 发表于 2018-10-9 20:07
一堆普通的字符串，想问问有没有什么简单的方法

类似于csv之类的数据，有规律的就好弄，

不规律的只能一行一行的看

Charles未晞 · 发表于 2018-10-9 21:53:40

https://www.jianshu.com/p/af9f48 ... urce=recommendation

gkj111111 · 发表于 2018-10-9 22:53:26

有服务器的话在服务器端运行吧，或者自己上网查一查CUDA并行计算,用GPU计算应该不会卡。（怎么用我也不清楚，之前上课学了一点CUDA，但是都忘干净了）我自己一般是连学校的服务器运行，处理大数据耗时间是常有的事，我有时候处理数据一百多核并行还要等上一天。万一中间出现问题就GG了。

wwhywhy · 发表于 2018-10-10 09:37:42

本帖最后由 wwhywhy 于 2018-10-10 09:57 编辑

//////////  1)文件如果是一行一条数据：
import os
//FILE_WITH_PATH = .....
if os.path.exists(FILE_WITH_PATH):
try:
      f = open(FILE_WITH_PATH, encoding="utf-8", mode="a")
      while True:
         line = f.readline()
         if not line:
            break
         print(line)
      f.close()
except IOError, msg:
      print '*** Cannot open', fullname, ':', msg
      return 0
else:
print("文件：<", FILE_WITH_PATH, ">不存在。")

///////////  2)如果文件就是一条数据：
import os
//FILE_WITH_PATH = .....
if os.path.exists(FILE_WITH_PATH):
try:
      f = open(FILE_WITH_PATH, encoding="utf-8", mode="a")
      while True:
         block = f.read(1024)
         if not block:
            break
         print(block)
      f.close()
except IOError, msg:
      print '*** Cannot open', fullname, ':', msg
      return 0
else:
print("文件：<", FILE_WITH_PATH, ">不存在。")

袁奥2 · 发表于 2018-10-13 21:18:47

循环本身是没有什么耗时的;恐怕资源消耗于数字a的反复调整变化上;
如果内存资源充裕的话建议不对数组a进行del操作，而是顺序地将满足条件的数据添加到新数组中。
使用多线程处理重复逻辑。建议使用3以上，2.x会存在gil线程锁分配问题。但目前很多服务器的python都是2.x的

幽梦三影 · 发表于 2018-10-13 21:28:04

本帖最后由幽梦三影于 2018-10-13 21:45 编辑

def read_big_file(f, split_key):
cache = ''
while 1:
while split_key in cache:
position = cache.index(split_key)
yield cache[:position]
cache = cache[position+len(split_key):]
b = f.read(4)
if not b:
yield cache
break
cache += b
with open('1.txt') as f:
for i in read_big_file(f, 'e'): #分割字符
i = 'changed' #修改
print(i)

复制代码

小小旺 · 发表于 2018-10-17 10:29:01

TOP_LK · 发表于 2018-10-20 18:31:18

可以用pandas处理试试哦

Jons · 发表于 2018-10-23 16:39:32

如果文件是 3M的文件，本身也不是什么大数据问题，我处理几十万的数据数据也也很快，但是几千w有点慢了，我是把一些文件写入 csv 在处理，我的问题地址（https://fishc.com.cn/thread-123130-1-1.html）

账号		自动登录	找回密码
密码			立即注册