鱼C论坛

 找回密码
 立即注册
查看: 2618|回复: 18

[已解决]零基础小白,我应该怎么办才能在半个月学会用Python抓文本数据并进行数据分析!!!!

[复制链接]
发表于 2023-4-13 17:04:24 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
如题,文科生,无编程基础,半个月(或者更短),麻烦大家支个招

最佳答案
2023-4-13 17:22:55
本帖最后由 歌者文明清理员 于 2023-4-13 17:25 编辑
逐梦学术圈 发表于 2023-4-13 17:19
打算抓B站的评论,然后用LDA模型。
请问re是?


re 是 regax的简写,正则表达式
http://web.suda.edu.cn/hejun/cha ... pression_table.html
用sleenium+lxml,用xpath得到源代码,然后用re过滤标签

哔哩哔哩的回复的class是reply-content,xpath是://@reply-content

补充一下代码:
from lxml import html
import re
tree = html.fromstring(一些源代码)
replies = tree.xpath('//@reply-content')
texts = []
for reply in replies:
    texts.append(re.sub(re.compile(r'<.*?>'), html.tostring(reply, encoding='unicode')))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

发表于 2023-4-13 17:06:35 | 显示全部楼层
你要从那抓,是已有的文件,还是网页?都可以用re,但是情况有所不同
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:07:55 | 显示全部楼层
半个月内学会用Python抓文本数据并进行数据分析对于一个零基础的文科生来说可能比较困难,但这并不意味着不可能。

只要合理安排时间和学习计划,保持学习动力,你可以在短时间内学会一些基本的Python编程技能。

以下是一个推荐的学习计划:

第1周:Python基础学习

  • 学习Python基本语法,包括变量、数据类型、运算符、循环、条件语句等。
  • 学习Python内置数据结构,如列表、元组、字典和集合。
  • 学习Python的基本函数和模块的使用。
  • 完成一些基本的Python练习题,加深理解。


第2周:抓取文本数据与数据分析

  • 学习网络爬虫基本概念,了解如何使用Python爬取网页数据。
  • 学习使用requests库和BeautifulSoup库进行网络爬虫。
  • 学习正则表达式,提高抓取数据的准确性。
  • 学习使用pandas库进行数据处理和分析。
  • 学习使用matplotlib和seaborn等库进行数据可视化。


为了让你更有效地学习,这里提供一些建议:

  • 制定详细的学习计划和目标,确保每天都有一定的学习时间。
  • 参考在线教程、课程和书籍,如Python官方文档、菜鸟教程、Coursera、edX等。
  • 多做实践,将所学知识应用于实际项目中,提高编程能力。
  • 加入Python社区或论坛,与其他学习者互动,解决问题。


请记住,学习编程需要时间和耐心。尽管这个计划可能在半个月内无法让你成为一个Python专家,

但它可以帮助你建立基础知识,为以后的深入学习打下基础。祝你学习顺利!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:09:37 | 显示全部楼层
isdkz 发表于 2023-4-13 17:07
半个月内学会用Python抓文本数据并进行数据分析对于一个零基础的文科生来说可能比较困难,但这并不意味着不 ...

他要爬文本不用mat、pandas吧

另:补充:需要了解一下动态渲染
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:11:49 | 显示全部楼层
歌者文明清理员 发表于 2023-4-13 17:09
他要爬文本不用mat、pandas吧

另:补充:需要了解一下动态渲染

他后面还有“并进行数据分析
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-4-13 17:17:09 | 显示全部楼层
isdkz 发表于 2023-4-13 17:07
半个月内学会用Python抓文本数据并进行数据分析对于一个零基础的文科生来说可能比较困难,但这并不意味着不 ...

看完了您的回复,非常感谢并感动。
但请问有没有以上内容都是必须学习的吗?有没有一些捷径能让我在掌握Python基本原理后就能完成数据抓取和分析工作呢?(并没有冒犯及不尊重Python的意思,只是时间紧任务重)
再次深表感谢!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:18:53 | 显示全部楼层
逐梦学术圈 发表于 2023-4-13 17:17
看完了您的回复,非常感谢并感动。
但请问有没有以上内容都是必须学习的吗?有没有一些捷径能让我在掌握P ...


emm...推荐selenium
你把python理解透了确实可以
只要学一个selenium打开网页,获取源代码,然后分析
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

 楼主| 发表于 2023-4-13 17:19:04 | 显示全部楼层
歌者文明清理员 发表于 2023-4-13 17:06
你要从那抓,是已有的文件,还是网页?都可以用re,但是情况有所不同

打算抓B站的评论,然后用LDA模型。
请问re是?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:20:03 | 显示全部楼层
逐梦学术圈 发表于 2023-4-13 17:17
看完了您的回复,非常感谢并感动。
但请问有没有以上内容都是必须学习的吗?有没有一些捷径能让我在掌握P ...

理解你的担忧,时间紧迫的情况下,可以尝试简化学习计划。以下是一个更加简洁的计划,帮助你快速掌握数据抓取和分析所需的最基本技能:

  • Python基础知识:尽量在3天内掌握Python的基本语法和数据结构。跳过深入的细节,只关注实现你项目所需的基本技能。
  • 数据抓取:学习使用requests库(1天),用于发送网络请求获取网页数据。然后学习BeautifulSoup库(1天),用于解析HTML并提取需要的信息。
  • 数据处理与分析:直接学习pandas库(2天),专注于数据清洗、筛选、统计等基本操作。
  • 实战项目:剩下的时间用于实际项目,将所学知识应用于实际问题,遇到问题时查阅资料或向社区请教。


为了提高学习效率,以下是一些建议:

  • 确定具体的项目需求:在学习之前,先弄清楚你需要解决的问题和目标。这将有助于你更有针对性地学习相关知识。
  • 学习实例:找一些与你项目类似的教程或案例,跟着实例学习并尝试修改代码以适应自己的需求。
  • 查阅文档:在使用库时,查阅官方文档以获得更准确的信息和示例。
  • 利用现有资源:互联网上有许多现成的Python脚本和教程,你可以直接参考、修改并应用于你的项目。


请注意,这个简化的计划可能不足以让你全面掌握Python编程,但可以帮助你在短时间内完成特定任务。希望这对你有所帮助,祝你好运!
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:22:55 | 显示全部楼层    本楼为最佳答案   
本帖最后由 歌者文明清理员 于 2023-4-13 17:25 编辑
逐梦学术圈 发表于 2023-4-13 17:19
打算抓B站的评论,然后用LDA模型。
请问re是?


re 是 regax的简写,正则表达式
http://web.suda.edu.cn/hejun/cha ... pression_table.html
用sleenium+lxml,用xpath得到源代码,然后用re过滤标签

哔哩哔哩的回复的class是reply-content,xpath是://@reply-content

补充一下代码:
from lxml import html
import re
tree = html.fromstring(一些源代码)
replies = tree.xpath('//@reply-content')
texts = []
for reply in replies:
    texts.append(re.sub(re.compile(r'<.*?>'), html.tostring(reply, encoding='unicode')))
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 1 反对 0

使用道具 举报

发表于 2023-4-13 17:28:16 | 显示全部楼层
歌者文明清理员 发表于 2023-4-13 17:22
re 是 regax的简写,正则表达式
(http://web.suda.edu.cn/hejun/chapter8/regular_expression_table. ...

记得print

然后,获取网页源代码的代码是:
from time import sleep
from selenium import webdriver
co = webdriver.ChromeOptions()
# 设置操作时不显示浏览器界面
co.add_argument('headless')
chrome = webdriver.Chrome(options=co)
chrome.get(视频网址)
# 等待加载完成,你可以改(单位:秒)
sleep(1)
source = chrome.page_source
chrome.quit()
然后把刚才的代码粘贴过来,第三行改成:
tree = html.fromstring(source)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:29:39 | 显示全部楼层
本帖最后由 歌者文明清理员 于 2023-4-13 17:31 编辑
歌者文明清理员 发表于 2023-4-13 17:28
记得print

然后,获取网页源代码的代码是:


这样子直接套用即可,代码都帮你写好了~
driver配置:https://blog.csdn.net/m0_68795816/article/details/126343734
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-4-13 17:39:55 | 显示全部楼层
歌者文明清理员 发表于 2023-4-13 17:29
这样子直接套用即可,代码都帮你写好了~
driver配置:https://blog.csdn.net/m0_68795816/article/det ...

非常感谢!!!
虽然我还看不懂,但是结合上面那位朋友说的,我现在就是要先弄懂基本原理,然后学selenium吗?
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 17:40:32 | 显示全部楼层
本帖最后由 歌者文明清理员 于 2023-4-13 17:41 编辑
逐梦学术圈 发表于 2023-4-13 17:39
非常感谢!!!
虽然我还看不懂,但是结合上面那位朋友说的,我现在就是要先弄懂基本原理,然后学selenium ...


selenium不用学吧,你要拿来爬就只需要一个driver和chrome.get(打开网页)、chrome.page_source(获取动态渲染后的源代码)、chrome.quit(退出浏览器)
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-13 22:29:15 | 显示全部楼层
兄弟,我们两个差不多,都是这个需求
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

 楼主| 发表于 2023-4-14 10:02:01 | 显示全部楼层
1i1e1e 发表于 2023-4-13 22:29
兄弟,我们两个差不多,都是这个需求

搭个伴儿! 咱互助一下
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-15 11:21:04 | 显示全部楼层
我也想,但我进度太慢,全职交易员。每天复盘时间就要4小时。除编程外其余学习时间2小时
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-15 11:39:46 | 显示全部楼层
我最近刚刚开始学习爬虫知识,感觉没有基础知识确实不太好学,有很多语法不懂,例如我之前没有了解过多线程、协程等内容,我学习到对应位置的时候,很多语法就要花时间学习,我感觉你可以看看一些实战视频,来学学相关模块的用法,如果碰到基础语法不了解的话,你可以在网上查阅相关的电子书,总感觉看视频太啰嗦了,不过视频一般都会结合例子进行讲解,讲的比较透。
不过可能是我找到实战视频的原因,我找的视频比较老,人家的反爬手段都升级了,导致学的可能用不上,你可以找找你目标网站最新的爬虫视频有没有,如果有的话,很多都可以直接套用过来。当然,如果有时间还是要学好基础知识再搞爬虫。
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2023-4-16 09:10:32 | 显示全部楼层
选择一个最佳答案
想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2024-9-23 17:23

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表