完成一个简单的微博爬虫作业，请大神帮帮忙。

技术农民 · 发表于 2018-3-29 09:35:52

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

要完成一个python 的爬虫作业，很简单就是通过微博搜索吧特定用户的信息给抓取下来。

这个是北京地区微博用户的搜索页面 https://s.weibo.com/user/%25E5%258C%2597%25E4%25BA%25AC&Refer=SUer_box

将这个页面中的用户信息抓取下来就可以了。

我遇到的问题是，这个页面是用JS来生成的Html页面，我用了正则，XPATH方式都没问办法获取的数据，研究了好几天了，没有一个头绪，希望大神能给指点一下。

我查看源代码，发现微博用户的名称的代码如下，

<a class=\"W_texta W_fb\" target=\"_blank\" href=\"\/\/weibo.com\/u\/1830362203?refer_flag=1001030201_\" title=\"\u7ecf\u5178\u8bed\u5f55\u90e8\u843d\" usercard=\"id=1830362203&usercardkey=user_mp&refer_flag=1001030201_\" uid=\"1830362203\" suda-data=\"key=tblog_search_user&value=user_feed_other_name\">\n\t\u7ecf\u5178\u8bed\u5f55\u90e8\u843d\n\t\t\n\t<\/a>\

试了很多次方法，都无法将信息读取出来，希望能给指点一下。

ba21 · 发表于 2018-3-29 10:31:24

selenium+phantomjs模拟浏览器
自己上网找资料弄吧。总不要人家把现成的代码给你

colinshi · 发表于 2018-3-29 13:01:59

js本身需要浏览器运行。所以请使用lz推荐的无头浏览器。

账号		自动登录	找回密码
密码			立即注册