逐梦学术圈 发表于 2023-4-13 17:04:24

零基础小白,我应该怎么办才能在半个月学会用Python抓文本数据并进行数据分析!!!!

如题,文科生,无编程基础,半个月(或者更短),麻烦大家支个招{:10_329:}

歌者文明清理员 发表于 2023-4-13 17:06:35

你要从那抓,是已有的文件,还是网页?都可以用re,但是情况有所不同

isdkz 发表于 2023-4-13 17:07:55

半个月内学会用Python抓文本数据并进行数据分析对于一个零基础的文科生来说可能比较困难,但这并不意味着不可能。

只要合理安排时间和学习计划,保持学习动力,你可以在短时间内学会一些基本的Python编程技能。

以下是一个推荐的学习计划:

第1周:Python基础学习


[*]学习Python基本语法,包括变量、数据类型、运算符、循环、条件语句等。
[*]学习Python内置数据结构,如列表、元组、字典和集合。
[*]学习Python的基本函数和模块的使用。
[*]完成一些基本的Python练习题,加深理解。


第2周:抓取文本数据与数据分析


[*]学习网络爬虫基本概念,了解如何使用Python爬取网页数据。
[*]学习使用requests库和BeautifulSoup库进行网络爬虫。
[*]学习正则表达式,提高抓取数据的准确性。
[*]学习使用pandas库进行数据处理和分析。
[*]学习使用matplotlib和seaborn等库进行数据可视化。


为了让你更有效地学习,这里提供一些建议:


[*]制定详细的学习计划和目标,确保每天都有一定的学习时间。
[*]参考在线教程、课程和书籍,如Python官方文档、菜鸟教程、Coursera、edX等。
[*]多做实践,将所学知识应用于实际项目中,提高编程能力。
[*]加入Python社区或论坛,与其他学习者互动,解决问题。


请记住,学习编程需要时间和耐心。尽管这个计划可能在半个月内无法让你成为一个Python专家,

但它可以帮助你建立基础知识,为以后的深入学习打下基础。祝你学习顺利!

歌者文明清理员 发表于 2023-4-13 17:09:37

isdkz 发表于 2023-4-13 17:07
半个月内学会用Python抓文本数据并进行数据分析对于一个零基础的文科生来说可能比较困难,但这并不意味着不 ...

他要爬文本不用mat、pandas吧

另:补充:需要了解一下动态渲染

isdkz 发表于 2023-4-13 17:11:49

歌者文明清理员 发表于 2023-4-13 17:09
他要爬文本不用mat、pandas吧

另:补充:需要了解一下动态渲染

他后面还有“并进行数据分析”

逐梦学术圈 发表于 2023-4-13 17:17:09

isdkz 发表于 2023-4-13 17:07
半个月内学会用Python抓文本数据并进行数据分析对于一个零基础的文科生来说可能比较困难,但这并不意味着不 ...

看完了您的回复,非常感谢并感动。
但请问有没有以上内容都是必须学习的吗?有没有一些捷径能让我在掌握Python基本原理后就能完成数据抓取和分析工作呢?(并没有冒犯及不尊重Python的意思,只是时间紧任务重)
再次深表感谢!

歌者文明清理员 发表于 2023-4-13 17:18:53

逐梦学术圈 发表于 2023-4-13 17:17
看完了您的回复,非常感谢并感动。
但请问有没有以上内容都是必须学习的吗?有没有一些捷径能让我在掌握P ...

emm...推荐selenium
你把python理解透了确实可以
只要学一个selenium打开网页,获取源代码,然后分析

逐梦学术圈 发表于 2023-4-13 17:19:04

歌者文明清理员 发表于 2023-4-13 17:06
你要从那抓,是已有的文件,还是网页?都可以用re,但是情况有所不同

打算抓B站的评论,然后用LDA模型。
请问re是?

isdkz 发表于 2023-4-13 17:20:03

逐梦学术圈 发表于 2023-4-13 17:17
看完了您的回复,非常感谢并感动。
但请问有没有以上内容都是必须学习的吗?有没有一些捷径能让我在掌握P ...

理解你的担忧,时间紧迫的情况下,可以尝试简化学习计划。以下是一个更加简洁的计划,帮助你快速掌握数据抓取和分析所需的最基本技能:


[*]Python基础知识:尽量在3天内掌握Python的基本语法和数据结构。跳过深入的细节,只关注实现你项目所需的基本技能。

[*]数据抓取:学习使用requests库(1天),用于发送网络请求获取网页数据。然后学习BeautifulSoup库(1天),用于解析HTML并提取需要的信息。

[*]数据处理与分析:直接学习pandas库(2天),专注于数据清洗、筛选、统计等基本操作。

[*]实战项目:剩下的时间用于实际项目,将所学知识应用于实际问题,遇到问题时查阅资料或向社区请教。


为了提高学习效率,以下是一些建议:


[*]确定具体的项目需求:在学习之前,先弄清楚你需要解决的问题和目标。这将有助于你更有针对性地学习相关知识。

[*]学习实例:找一些与你项目类似的教程或案例,跟着实例学习并尝试修改代码以适应自己的需求。

[*]查阅文档:在使用库时,查阅官方文档以获得更准确的信息和示例。

[*]利用现有资源:互联网上有许多现成的Python脚本和教程,你可以直接参考、修改并应用于你的项目。


请注意,这个简化的计划可能不足以让你全面掌握Python编程,但可以帮助你在短时间内完成特定任务。希望这对你有所帮助,祝你好运!

歌者文明清理员 发表于 2023-4-13 17:22:55

本帖最后由 歌者文明清理员 于 2023-4-13 17:25 编辑

逐梦学术圈 发表于 2023-4-13 17:19
打算抓B站的评论,然后用LDA模型。
请问re是?

re 是 regax的简写,正则表达式
(http://web.suda.edu.cn/hejun/chapter8/regular_expression_table.html)
用sleenium+lxml,用xpath得到源代码,然后用re过滤标签

哔哩哔哩的回复的class是reply-content,xpath是://@reply-content

补充一下代码:
from lxml import html
import re
tree = html.fromstring(一些源代码)
replies = tree.xpath('//@reply-content')
texts = []
for reply in replies:
    texts.append(re.sub(re.compile(r'<.*?>'), html.tostring(reply, encoding='unicode')))

歌者文明清理员 发表于 2023-4-13 17:28:16

歌者文明清理员 发表于 2023-4-13 17:22
re 是 regax的简写,正则表达式
(http://web.suda.edu.cn/hejun/chapter8/regular_expression_table. ...

记得print

然后,获取网页源代码的代码是:

from time import sleep
from selenium import webdriver
co = webdriver.ChromeOptions()
# 设置操作时不显示浏览器界面
co.add_argument('headless')
chrome = webdriver.Chrome(options=co)
chrome.get(视频网址)
# 等待加载完成,你可以改(单位:秒)
sleep(1)
source = chrome.page_source
chrome.quit()
然后把刚才的代码粘贴过来,第三行改成:
tree = html.fromstring(source)

歌者文明清理员 发表于 2023-4-13 17:29:39

本帖最后由 歌者文明清理员 于 2023-4-13 17:31 编辑

歌者文明清理员 发表于 2023-4-13 17:28
记得print

然后,获取网页源代码的代码是:


这样子直接套用即可,代码都帮你写好了~
driver配置:https://blog.csdn.net/m0_68795816/article/details/126343734

逐梦学术圈 发表于 2023-4-13 17:39:55

歌者文明清理员 发表于 2023-4-13 17:29
这样子直接套用即可,代码都帮你写好了~
driver配置:https://blog.csdn.net/m0_68795816/article/det ...

非常感谢!!!
虽然我还看不懂,但是结合上面那位朋友说的,我现在就是要先弄懂基本原理,然后学selenium吗?

歌者文明清理员 发表于 2023-4-13 17:40:32

本帖最后由 歌者文明清理员 于 2023-4-13 17:41 编辑

逐梦学术圈 发表于 2023-4-13 17:39
非常感谢!!!
虽然我还看不懂,但是结合上面那位朋友说的,我现在就是要先弄懂基本原理,然后学selenium ...

selenium不用学吧,你要拿来爬就只需要一个driver和chrome.get(打开网页)、chrome.page_source(获取动态渲染后的源代码)、chrome.quit(退出浏览器)

1i1e1e 发表于 2023-4-13 22:29:15

兄弟,我们两个差不多,都是这个需求

逐梦学术圈 发表于 2023-4-14 10:02:01

1i1e1e 发表于 2023-4-13 22:29
兄弟,我们两个差不多,都是这个需求

搭个伴儿! 咱互助一下

1i1e1e 发表于 2023-4-15 11:21:04

{:5_100:}我也想,但我进度太慢,全职交易员。每天复盘时间就要4小时。除编程外其余学习时间2小时

jianqkx 发表于 2023-4-15 11:39:46

我最近刚刚开始学习爬虫知识,感觉没有基础知识确实不太好学,有很多语法不懂,例如我之前没有了解过多线程、协程等内容,我学习到对应位置的时候,很多语法就要花时间学习,我感觉你可以看看一些实战视频,来学学相关模块的用法,如果碰到基础语法不了解的话,你可以在网上查阅相关的电子书,总感觉看视频太啰嗦了,不过视频一般都会结合例子进行讲解,讲的比较透。
不过可能是我找到实战视频的原因,我找的视频比较老,人家的反爬手段都升级了,导致学的可能用不上,你可以找找你目标网站最新的爬虫视频有没有,如果有的话,很多都可以直接套用过来。当然,如果有时间还是要学好基础知识再搞爬虫。

歌者文明清理员 发表于 2023-4-16 09:10:32

选择一个最佳答案{:10_307:}
页: [1]
查看完整版本: 零基础小白,我应该怎么办才能在半个月学会用Python抓文本数据并进行数据分析!!!!