新人求帮忙，鱼币少以后富裕了一定补上：想处理一类文本

LYLlllhhh · 发表于 2021-2-17 11:59:31

本帖最后由 LYLlllhhh 于 2021-2-19 09:52 编辑

希望做到：只保留微博内容和用户位置，并转为xls表格（如图）

这只是一部分，想学会方法，麻烦了

请展示结果，并附上方法

新人鱼币少，以后富裕了一定补上

米兰达小年轻（微博名）个人一首歌不要刻意模#泰瑞沙#星月不要龙腾渊一声凄厉的惨叫陡然间坐了泰瑞沙起来睁开眼睛的那一刻他却发现自己两眼漆黑竟然什泰瑞沙么都看不到这是怎么回事不呆了一下后龙腾渊猛泰瑞沙然间抱住了自己的头用尽了身的力气抓扯起了自己泰瑞沙的头发泪水再也止不住疯狂的涌泰瑞沙了出来星月他最爱的恋人竟然就这么去了该死的天门该死的柳正堂我泰瑞沙要你死要你死啊泰瑞沙泪水狂涌心如刀割一股股滔天的泰瑞沙杀机从他的身体里不断的溢散着泰瑞沙少爷黑夜中烛光一泰瑞沙闪一个清脆的声音响了起来紧接着又是一阵手泰瑞沙忙脚乱的声音传泰瑞沙来让杀气腾腾的龙腾渊双目一 #丁真有多爱他的小马珍珠##奚梦瑶发长文谈产后抑郁#（微博内容）浙江（用户位置）钮祜禄·狐狸花花爱吃肉找到所谓真相的意义在哪里？如果当初我没有执着于哥哥为什么接那部剧，如果我不好奇为什么丁真有两个房子，我可能现在还开开心心什么都不知道呢！知道那么多除了让自己不开心之外好像什么都没改变好奇心害死猫，明知道是潘多拉的盒子，我也忍不住打开它。可见掌握真理的不一定是智者可是我不后悔，黄粱一梦终成空，比起自己的喜怒哀乐都被别人控制利用，突然一天五雷轰顶世界崩塌，不如自己先抽离，主动权在我手里。重庆四海故人从前经常见到有些男的说，对女性最狠的还是女性。看看明日方舟里那些将男干员骂个狗血淋头，看看在贴吧里把丁真骂的狗血淋头，看看各大游戏群里面把各种男性角色骂的狗血淋头。我只能说对男性最狠的，果然还是男性。  湖北这里是你玉弟广场真的不懂有些男的怎么好意思跟丁真比学历的，你tm生在一个几年前刚通上电的地方试试  天津红豆瓜梨喜欢丁真真好啊，也没有网络暴力，也没有人时时刻刻judge他。所以我选择超越妹妹。美少女无敌！  江苏橘子不甜--- #丁真[超话]#晚安  1新疆寒寒的暖阳 #丁真[超话]# 自从吸真之后，我突然对娱乐圈八卦失去了兴趣！  广东罗罗诺亚索隆的女友 #华春莹提丁真# 官方反黑最为致命，酸鸡继续，看有人理你们没  河南 JMU1006 #华春莹提丁真#   理塘,丁真陕西康国平上礼拜丁真刚把四川炒热我还想下周买票去成都呢，这礼拜奶奶的孙女直接把成都封了！   四川省,成都市  丁真北京青龙赛马王妃 #丁真[超话]##华春莹提丁真# 有作业啦，快找出纸笔，叫醒真真，@理塘融媒 @理塘仓央嘉措微型博物馆 @理塘丁真 @珍珠number1 写：我是藏族人，我更是中国人��，我爱我们的藏族文化，它属于中国文化不可或缺的一部分（会不会有点长）原创更新  其他  其他  理塘,丁真山东别害怕大家都心律不齐 #华春莹提丁真#  广东李飘飘终于可以点赞了丁真刷屏式的曝光，背后是因为当权者给了许可和认证，所有的利益方消费起来可以无所顾忌。这个社会上太多无形的边边框框，已经驯化出一批学会在圈地里得寸进尺的人，这是件蛮值得叹息的事情  浙江一口陷陷啊这我挺愿意看丁真热搜的  河北小马跑第一哦 #丁真[超话]#竟然有朋友给我介绍对象赶紧看两眼真真，冷静一下，拒绝  江苏 Redamancy-yxz #华春莹提丁真#在学校看到这段新闻啦！！  辽宁一般通过拆腻子 “妈妈，我读完书也没有丁真哥哥给家乡做的贡献大，我还是不读书了吧”  四川忧伤卟哩哩敏感  纠错说实话还蛮能理解不满丁真的男的的。但是人类啊，怎么还没理解大部分时候投胎技术就是很重要啊，万里挑一的脸，万里挑一的机遇，万里挑一的富贵家庭，就是很重要啊。在并没有万里挑一的努力和万里挑一的脑子的时候还指望知识改变命运到能够与万里挑一的投胎概率抗衡，也太把自己动动手指那两下当回事儿了吧。原创  政务  其他  丁真北京查理小公举最近真的好喜欢丁真。忘不掉的喜欢，像是高三时候喜欢Asa的状态。  辽宁 casi温_祎 #华春莹提丁真#中国人一家人，56个民族一个都不能分割  江西西青大道全智贤糟糕，完了，看丁真比看欧巴更快乐了，以我的尿性，这是爱情要转移了！舍不得欧巴，人间极品的欧巴！  广东黑原小里桑不过我作为女性确实也对丁真没什么好感，虽然也没啥恶感就是了。  山东隐者不遇旧时客 #华春莹提丁真# 在他19岁那年，遇到了卧虎藏龙的国企，遇到了走在扶贫路上的政府，遇到了很多善良的网友，是他的幸运。希望他珍惜他的运气，再反哺他的家乡。希望他努力学习，未来成为一个有正确价值观的男人。19岁，未来还有无限可能。  江苏 892721912 奥希替尼人不能创造时机但是它可以抓住那些已经出现的时机多吉美印度多吉美奥希替尼奥希替尼克唑替尼索拉非尼片赫赛汀色瑞替尼曲格列汀尼拉帕尼爱博新帕博西尼依鲁替尼泰瑞沙奥拉帕尼布格替尼地诺单抗埃克替尼凯美纳克力芝非布索坦阿比特龙乐伐替尼 9291 多吉美阿来替尼艾乐替尼恩杂鲁胺伊布替尼 #丁真的舅舅像疯了的郑伊健##浙江玉环一份进口冷冻猪肉标本核酸阳性#战士的意志要象礁石一样坚定，战士的性格要象和风一样温柔。原创  娱乐  浙江玉环,浙江省,玉环市  丁真 2湖北 Sylvia_cxhardcore 丁真[超话]#刚从理塘回来两天想聊一聊理塘的一个扶贫项目这个KADHAK是一个80后的姐姐创造的，她在美国上的博士，去过全球十几个国家，最后还是毅然决然的回到了理塘创业。她说藏区很多妇女没有什么收入来源，就是靠上山挖虫草松茸这些(和真真一样)，会遇到野兽，也很危险，这个品牌也给当地妇女提供了些就业的机会。听姐姐说前两年都在填钱进去，没有营收。她们家的手工皂都是纯天然的原创  政务  甘孜藏族自治州,四川省,理塘县  理塘,丁真广东青道ACE-沢村栄純蝈蝻都是什么sb？居然有这么多人认为丁真火是只靠脸，刚开始是靠脸，后来明明是靠国家好吗？基层那么多年的奋斗被你吃了？还有人觉得国家下场捧丁真low？人家少数民族艰苦朴素热情好客有什么不能捧的？还有人说丁真没文化纯靠脸，真实呕吐，把你放到西藏你连羊都不会放   西藏自治区  丁真广东老芳又饿了 #丁真[超话]# 假装跟丁真合照了  广东 356111860 昨日大雪！丁真同款“甜野男孩”给你送温暖~ http://t.cn/A6q2Zxu4  上海李恩熙88 #丁真# 晋州市  石家庄市,河北省,晋州市  理塘,丁真河北莫斯科隆冬敏感  纠错‘’丁真的走红是告知妄图破坏我国国内民族团结和制造宗教矛盾的不法势力，我们是多民族的社会主义国家，中国人民将在这块土地上，彻底地摆脱任何贫困、愚昧和精神空虚的状态，而造成一个物质文明和精神文明高度发达的、站在人类前列的光明中国。我们党和国家都将为这个光辉前景努力奋斗！‘’ 原创  政务  其他  丁真北京百姓评车 #华春莹提丁真# 中国少数民族的生活在变好、家乡在发展、文化在传承为藏族小伙丁真“打call”。“一张灿烂、阳光、天真的微笑”。  #成都疫情# 希望快点好起来！   四川省,成都市  丁真吉林慕子Fairy 丁真的意义逐渐扩大  北京梅川奈酷 #华春莹提丁真#前几天看了一个up主分析丁真的走红，说的非常到位，他的背后有很多身份，他的走红对内对外都非常有意义。  山西 Learn2001 #华春莹提丁真#  陕西 oo19278 #华春莹提丁真#希望闹剧早点结束，别再带坏社会风气了  上海空山新雨后的太阳 #华春莹提丁真#  山东超开心呀Calia #华春莹提丁真#我国内政绝不容许外国干涉  江西湖南乔雅美学设计·Kitty 一个人带火‬了两个省他统一了全国的审美没读过一天书却6天进入国企所以～你说脸能不能当饭吃？颜值经济时代真的可以[让我看看] #丁真##颜值时代#  湖南大小姐请你喝茶 #华春莹提丁真# 华姐respect  江苏豆蔻or小汉堡 #丁真珍珠[超话]# 这巴掌脸  黑龙江 ·除了樱花· 今天在B站看到一个关于丁真的视频，视频的内容是一个up主自作了一首歌来控诉对待丁真不公平（即酸丁真）。本人秉持友好探讨的态度在视频下面评论，原文如下，结果被删了几次（其他内容），这都无所谓了，最气人的是我全文无一脏字居然还被举报了，现在我每发布评论都得输入验证码，无语。我一直都不爱说蝈蝻这个词，因为我不是女权主义，但是今天这个确实把我恶心到了。好家伙，这就是蝈蝻的肚量吗？最后用那个up提到的半佛仙人的原话总结:“普通而又自信的男孩子们——欢迎来到现实世界。”#华春莹提丁真# 四川

永恒的蓝色梦想 · 发表于 2021-2-17 18:07:21

你这个内容是怎么回事……

qq1151985918 · 发表于 2021-2-17 18:23:08

把你的文本压缩一下发上来要不看不到，这格式太乱了

LYLlllhhh · 发表于 2021-2-18 11:30:56

本帖最后由 LYLlllhhh 于 2021-2-18 11:32 编辑

https://kdocs.cn/l/cgGS63qnHDQ0
[金山文档] 12.7全天.docx

LYLlllhhh · 发表于 2021-2-18 11:34:14

qq1151985918 发表于 2021-2-17 18:23
把你的文本压缩一下发上来要不看不到，这格式太乱了

其实上面那个是处理过的（就是那样），下面还有一个连接是原始的复制粘贴的文档

LYLlllhhh · 发表于 2021-2-18 11:35:02

永恒的蓝色梦想发表于 2021-2-17 18:07
你这个内容是怎么回事……

其实上面那个是处理过的（就是那样），下面还有一个连接是原始的复制粘贴的文档

qq1151985918 · 发表于 2021-2-18 11:40:38

添加到你自己的帖子里，我看不到

LYLlllhhh · 发表于 2021-2-18 11:42:19

永恒的蓝色梦想发表于 2021-2-17 18:07
你这个内容是怎么回事……

https://kdocs.cn/l/cgGS63qnHDQ0
[金山文档] 12.7全天.docx

LYLlllhhh · 发表于 2021-2-18 11:42:52

qq1151985918 发表于 2021-2-18 11:40
添加到你自己的帖子里，我看不到

https://kdocs.cn/l/cgGS63qnHDQ0
[金山文档] 12.7全天.docx

qq1151985918 · 发表于 2021-2-18 11:44:37

都告诉你了看不到还在这里回复，你自己设置的仅作者可见

qq1151985918 · 发表于 2021-2-18 11:45:24

你在你的原贴中回复一下，把你的文本文件压缩上传就行了

LYLlllhhh · 发表于 2021-2-18 12:05:58

qq1151985918 发表于 2021-2-18 11:45
你在你的原贴中回复一下，把你的文本文件压缩上传就行了

我不会。。我帖子好像被删了

qq1151985918 · 发表于 2021-2-18 12:13:39

我跟你说的话这么难理解吗？？？？？？？？？？？？？？？？
看不到看不到理解不了？？？？？？

qq1151985918 · 发表于 2021-2-18 12:15:03

要不就把你的回帖仅作者可见给取消掉！！！！！！

qq1151985918 · 发表于 2021-2-18 12:17:04

LYLlllhhh · 发表于 2021-2-18 12:20:12

qq1151985918 发表于 2021-2-18 12:17

这里附件只能上传图片格式的

LYLlllhhh · 发表于 2021-2-19 09:54:05

qq1151985918 发表于 2021-2-18 12:15
要不就把你的回帖仅作者可见给取消掉！！！！！！

好的我懂了，别气了哈。已经上传，在审核呢

LYLlllhhh · 发表于 2021-2-21 13:21:43

qq1151985918 发表于 2021-2-18 12:17

能继续帮忙看看吗

qq1151985918 · 发表于 2021-2-21 22:40:21

本帖最后由 qq1151985918 于 2021-2-22 07:01 编辑

LYLlllhhh 发表于 2021-2-21 13:21
能继续帮忙看看吗

import docx
import openpyxl
file = docx.Document("（版本二）稍微处理过的.docx")
data = []
for para in file.paragraphs:
data.append(para.text)
text = "\n".join(data)
text = text.replace(" 微博问答","")
text = text.replace(" 微博头条","")
text = text.replace("拷贝地址一键复制","")
text = text.replace("  ","\n")
text = text.replace(" ","\n")
text = text.replace(" ","\n")
text = text.replace(" \n","\n")
text = text.replace(" \n","\n")
text = text.replace("\n ","\n")
text = text.replace("\n ","\n")
text = text.replace("\n"*4,"\n")
text = text.replace("\n"*3,"\n")
text = text.replace("\n"*2,"\n")
data = text.split("\n")
data1 = []
for i in data:
if ("首页" in i or
"上一页" in i or
"下一页" in i):
pass
elif ("/" in i) and (len(i)<10):
pass
else:
data1.append(i)
if len(data1[0])<10:
data = data1[1:]
else:
data = data1
text = []
city = []
for i in range(len(data)-1):
if len(data[i])>10 and len(data[i+1])<10:
text.append(" ".join(data[i].split(" ")[1:]))
city.append(data[i+1].replace("0","").replace("1","").replace("2","").replace("3","").replace("4","").replace("5","").replace("6","").replace("7","").replace("8","").replace("9",""))
wb = openpyxl.Workbook()
ws = wb.active
ws.append(["地点","微博内容"])
for i in range(len(city)):
ws.append([city[i],text[i]])
wb.save("data.xlsx")
print("OK")

复制代码

LYLlllhhh · 发表于 2021-2-22 09:52:44

qq1151985918 发表于 2021-2-21 22:40

我的天，我等等试试看！谢谢您

账号		自动登录	找回密码
密码			立即注册

新人求帮忙，鱼币少以后富裕了一定补上：想处理一类文本

浏览过的版块