鱼C论坛

 找回密码
 立即注册
查看: 2461|回复: 0

[技术交流] 【爬虫】--爬取四大新闻网站--我的第一个爬虫

[复制链接]
发表于 2020-7-15 15:42:17 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
本帖最后由 Ukulele_Song 于 2020-7-15 16:10 编辑

学了一段时间python了,网上的公开课也看了不少,课程都听得懂,但是一想写点什么就不知道从何下手、觉得太麻烦,现在终于狠下心走出舒适区,动手写了第一个爬虫。
爬取目标:人民日报、上观新闻、观察者网、澎湃新闻.
因为新闻页面 html 比较好解析,而且不需要反爬。规避了很多困难。

爬取过程主要用到了requestsBeautifulSoup
数据最终存储在sqlite3 数据库里

最后的结果是介个样子滴
微信图片_20200715154027.png

我把代码封装了一下,想试试的朋友可以下载newspider.py文件,然后import 来使用 需要运行的只有update_info()update_content()两个函数。
例如:
import news_spider as ns
ns.how()
ns.info
#然后根据这两个信息调用
ns.update_info(['人民日报-时政','上观新闻-政情'],1)
ns.update_content(['上观新闻'])
毕竟还是初学者,个人觉得不同类之间的代码重复率很高,没有dry,多写了很多无用代码。 还请大家多多提出修改意见


newspider.zip (4.64 KB, 下载次数: 22)



评分

参与人数 1荣誉 +2 鱼币 +2 贡献 +2 收起 理由
Twilight6 + 2 + 2 + 2 鱼C有你更精彩^_^

查看全部评分

想知道小甲鱼最近在做啥?请访问 -> ilovefishc.com
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-1-19 23:22

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表