【爬虫】--爬取四大新闻网站--我的第一个爬虫

Ukulele_Song · 发表于 2020-7-15 15:42:17

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 Ukulele_Song 于 2020-7-15 16:10 编辑

学了一段时间python了,网上的公开课也看了不少,课程都听得懂,但是一想写点什么就不知道从何下手、觉得太麻烦,现在终于狠下心走出舒适区,动手写了第一个爬虫。

爬取目标:人民日报、上观新闻、观察者网、澎湃新闻.
因为新闻页面 html 比较好解析，而且不需要反爬。规避了很多困难。

爬取过程主要用到了requests和BeautifulSoup 库

数据最终存储在sqlite3 数据库里

最后的结果是介个样子滴

我把代码封装了一下，想试试的朋友可以下载newspider.py文件，然后import 来使用需要运行的只有update_info()和update_content()两个函数。

例如:

复制代码

毕竟还是初学者，个人觉得不同类之间的代码重复率很高，没有dry,多写了很多无用代码。 还请大家多多提出修改意见

newspider.zip (4.64 KB, 下载次数: 22)

账号		自动登录	找回密码
密码			立即注册

[技术交流] 【爬虫】--爬取四大新闻网站--我的第一个爬虫