鱼C论坛

 找回密码
 立即注册
查看: 1456|回复: 2

完成一个简单的微博爬虫作业,请大神帮帮忙。

[复制链接]
发表于 2018-3-29 09:35:52 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能^_^

您需要 登录 才可以下载或查看,没有账号?立即注册

x
要完成一个python 的爬虫作业,很简单就是通过微博搜索吧特定用户的信息给抓取下来。

这个是北京地区微博用户的搜索页面  https://s.weibo.com/user/%25E5%258C%2597%25E4%25BA%25AC&Refer=SUer_box

将这个页面中的用户信息抓取下来就可以了。

我遇到的问题是,这个页面是用JS来生成的Html页面,我用了正则,XPATH方式都没问办法获取的数据,研究了好几天了,没有一个头绪,希望大神能给指点一下。

我查看源代码,发现微博用户的名称的代码如下,

<a class=\"W_texta W_fb\" target=\"_blank\" href=\"\/\/weibo.com\/u\/1830362203?refer_flag=1001030201_\" title=\"\u7ecf\u5178\u8bed\u5f55\u90e8\u843d\" usercard=\"id=1830362203&usercardkey=user_mp&refer_flag=1001030201_\" uid=\"1830362203\" suda-data=\"key=tblog_search_user&value=user_feed_other_name\">\n\t\u7ecf\u5178\u8bed\u5f55\u90e8\u843d\n\t\t\n\t<\/a>\


试了很多次方法,都无法将信息读取出来,希望能给指点一下。


小甲鱼最新课程 -> https://ilovefishc.com
回复

使用道具 举报

发表于 2018-3-29 10:31:24 | 显示全部楼层
selenium+phantomjs模拟浏览器
自己上网找资料弄吧。总不要人家把现成的代码给你
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

发表于 2018-3-29 13:01:59 | 显示全部楼层
js本身需要浏览器运行。所以请使用lz推荐的无头浏览器。
小甲鱼最新课程 -> https://ilovefishc.com
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

小黑屋|手机版|Archiver|鱼C工作室 ( 粤ICP备18085999号-1 | 粤公网安备 44051102000585号)

GMT+8, 2025-12-28 23:43

Powered by Discuz! X3.4

© 2001-2023 Discuz! Team.

快速回复 返回顶部 返回列表