马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 Ukulele_Song 于 2020-7-15 16:10 编辑
学了一段时间python了,网上的公开课也看了不少,课程都听得懂,但是一想写点什么就不知道从何下手、觉得太麻烦,现在终于狠下心走出舒适区,动手写了第一个爬虫。 爬取目标:人民日报、上观新闻、观察者网、澎湃新闻.
因为新闻页面 html 比较好解析,而且不需要反爬。规避了很多困难。
爬取过程主要用到了requests和BeautifulSoup 库
数据最终存储在sqlite3 数据库里
最后的结果是介个样子滴
我把代码封装了一下,想试试的朋友可以下载newspider.py文件,然后import 来使用 需要运行的只有update_info()和update_content()两个函数。 例如: import news_spider as ns
ns.how()
ns.info
#然后根据这两个信息调用
ns.update_info(['人民日报-时政','上观新闻-政情'],1)
ns.update_content(['上观新闻'])
毕竟还是初学者,个人觉得不同类之间的代码重复率很高,没有dry,多写了很多无用代码。 还请大家多多提出修改意见
|