[已解决]爬虫遇到必须使用JavaScript的网站怎么办？

可爱的小本子 · 发表于 2018-10-19 21:00:50

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

我准备爬这个页面上的东西： http://psycnet.apa.org/PsycARTICLES/journal/rev/125/1

然后写了如下代码。

import urllib.request
if __name__ == "__main__":
header = {}
header['User-Agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36'
data = {}
url = 'http://psycnet.apa.org/PsycARTICLES/journal/rev/125/1'
req = urllib.request.Request(url, data, header)
response = urllib.request.urlopen(req)
print(response.info())
html = response.read()
print(html.decode('UTF-8'))

复制代码

但是结果并没有返回页面内容，而是返回了一个报错的页面。我看了下返回的html代码，我猜出错的原因是因为JavaScript，因为在返回的html代码中有一句 ”The website psycnet.apa.org requires that all visitors be running JavaScript. This page is validating your browser's JavaScript engine and functionality.“

这个问题应该怎么解决呀。鱼友可以帮忙看看吗？

最佳答案

月排行榜 / 总排行榜

wongyusing

2018-10-20 10:50:46

本帖最后由 wongyusing 于 2018-10-20 10:54 编辑

看了一下，你只需要post一些信息到

url = 'http://psycnet.apa.org/api/request/browsePA.getArticles'

复制代码

就可以获取搜索的结果了。
但是，据我观察，这个网站的曲奇好像是随时间变化而变化的。
而且，你在post的所填入的参数有点多

{"api":"browsePA.getArticles","params":{"code":"rev","volume":"125","issue":"1"},"logs":{"eventType":"Journal TOC","pageId":"B_PA_TOC"}}

复制代码

跳转到最佳答案楼层

可爱的小本子 · 发表于 2018-10-20 09:58:36

或者有人知道爬JavaScript的教程在哪里可以下载吗？

塔利班 · 发表于 2018-10-20 10:04:11

不知道你要爬取什么信息，看看selenium里有没有

from selenium import webdriver
url='http://psycnet.apa.org/PsycARTICLES/journal/rev/125/1'
browser=webdriver.Chrome()
browser.get(url)
print(browser.page_source)

复制代码

塔利班 · 发表于 2018-10-20 10:11:40

好像也不行，我再试试别的

wongyusing · 发表于 2018-10-20 10:50:46

这个最佳答案由 wongyusing 给出，感谢 wongyusing 的回答。

单击隐藏图章

本帖最后由 wongyusing 于 2018-10-20 10:54 编辑

看了一下，你只需要post一些信息到

url = 'http://psycnet.apa.org/api/request/browsePA.getArticles'

复制代码

就可以获取搜索的结果了。
但是，据我观察，这个网站的曲奇好像是随时间变化而变化的。
而且，你在post的所填入的参数有点多

{"api":"browsePA.getArticles","params":{"code":"rev","volume":"125","issue":"1"},"logs":{"eventType":"Journal TOC","pageId":"B_PA_TOC"}}

复制代码

可爱的小本子 · 发表于 2018-10-20 11:26:54

本帖最后由可爱的小本子于 2018-10-20 11:37 编辑

wongyusing 发表于 2018-10-20 10:50
看了一下，你只需要post一些信息到

就可以获取搜索的结果了。

谢谢 wongyusing, 是这样的，我想请问下您提到的这个地址是怎么找到的呢？

url = 'http://psycnet.apa.org/api/request/browsePA.getArticles'

复制代码

我刚刚找了下下面这个页面审查元素里面的network里面并没有出现这个地址呀。请问您是怎么找到上面那个url的呢？

http://psycnet.apa.org/PsycARTICLES/journal/rev/125/1

复制代码

我写这个爬虫其实是想抓取“Psychological Review”这本期刊从2000年到现在所有文章的doi，就是类似“http://dx.doi.org/10.1037/rev0000128”这样的东西。但是返回的那个html代码一直有错，所以一直没有成功。

可爱的小本子 · 发表于 2018-10-20 11:28:02

塔利班发表于 2018-10-20 10:11
好像也不行，我再试试别的

好的，谢谢你

塔利班 · 发表于 2018-10-20 11:29:12

没事，爬虫方面咱们差不多，一起学习，

wongyusing · 发表于 2018-10-20 11:37:20

本帖最后由 wongyusing 于 2018-10-20 16:56 编辑

可爱的小本子发表于 2018-10-20 11:26
谢谢 wongyusing, 是这样的，我想请问下这个地址是怎么找到的呢？

你应该只是观察到doc的文件吧。
大多数情况下，我们爬取动态网站的话。
在network中
除了看doc以外，还要看xhr里的文件。
通常xhr里面会有json文件的。

然后随便复制一个内容的标题。
到里面搜索一下，就找到了。

wongyusing · 发表于 2018-10-20 11:39:05

我的回复又要被审核了，不知道，有触碰了什么关键字。

可爱的小本子 · 发表于 2018-10-20 11:42:33

wongyusing 发表于 2018-10-20 11:39
我的回复又要被审核了，不知道，有触碰了什么关键字。

没事没事，我等等就好了

wongyusing · 发表于 2018-10-20 13:27:25

给张图你吧，你只需要注意一点，大多数动态网站的数据在XHR和DOC这两个文件类型中。
当然也有例外，这个就不讨论了。 2018-10-20 13-23-19 的屏幕截图.png

你应该只看了DOC没看XHR。

wongyusing · 发表于 2018-10-20 17:08:23

审核了半天，终于出来了，到底是什么关键字导致审核的？？ @小甲鱼

可爱的小本子 · 发表于 2018-10-21 18:54:38

wongyusing 发表于 2018-10-20 13:27
给张图你吧，你只需要注意一点，大多数动态网站的数据在XHR和DOC这两个文件类型中。
当然也有例外，这个 ...

对的，我没有看XHR，因为才开始学习爬虫，学习了，谢谢啦

可爱的小本子 · 发表于 2018-10-26 14:42:05

wongyusing 发表于 2018-10-20 17:08
审核了半天，终于出来了，到底是什么关键字导致审核的？？ @小甲鱼

@ wongyusing, 前两天没什么时间，今天试了下post data到那个网址，但是遇到了一些新的问题，请问可以再麻烦你帮忙看看吗？

我post data的代码如下：

import requests
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_4) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'
}
data = {
"api": "browsePA.getArticles",
"params": {"code": "rev",
"volume": "125",
"issue": "5"},
"logs":{"eventType": "Journal TOC",
"pageId":"B_PA_TOC"}
}
response = requests.post("http://psycnet.apa.org/api/request/browsePA.getArticles", data = data, headers = header)
print(response.content.decode("utf-8"))

复制代码

现在主要有两个问题：
1. 提交了这个post之后还是不能拿到doi，但是看到了结果中有出现“DOI”这个字符在"responseHeader"中，这个是需要进行二次提交还是其他的操作吗？
2. 打印出来的结果很乱，没有打印成那种比较好的html结构，请问可以有什么方法让它变得更易读吗？
打印的结果如下：

{"response":{"search":"http://marklogic.com/appservices/search","xsi":"http://www.w3.org/2001/XMLSchema-instance","xh":"http://www.w3.or
g/1999/xhtml","responseHeader":{"status":"0","QTime":"0.051532","params":{"service":"psycinfo","function":"/query/facet","sort":"PageSor
t","fl":"UID,ChorusReleaseDate,ProductCode,GivenDocumentTitle,TransDocumentTitle,AuthorOrig,MonthSeason,PublicationYear,XMLLink,PDFLink,
PAFirstPage,Pagination,PAVolume,PAIssue,PAIssueCode,PAPageSuffix,IsOFP,PAJournalCode,PIJournalTitle,PIReleaseDate,DOI,SFXOpenURL,Special
SectionTitle,SpecialSectionEditors,PICorrectionDate,FTCorrectionDate,HasOpenAccess,HasAbstract,HasFullText,SerialSubTitle,ContributorLis
t,HasImpactStatement,HasCitations,CitedByCount","start":"0","rows":"10000","format":"json","debug":"false","results":"true","facet":"fal
se","facet.prefix":"*","facet.offset":"0","facet.limit":"11","query":"false","hl":"false","child":"false","total":"0","boosting":"false"
,"w_title":"10","w_year":"3","w_keywords":"6","w_abstract":"1","w_first_post":"2.5"}},"result":{"start":"1","rows":"10000","numFound":"0
"},"debug":""}}

复制代码

wongyusing · 发表于 2018-10-26 17:22:49

这个网站，反爬很厉害。
讲真，我看你这个问题的时候，我一个字母都没敲。
我只是分析了一下。
这个网站在曲奇哪里还有一个参数是随时间变化而变化的。
应该是曲奇参数哪里的问题。
曲奇自己翻译成英语，发英语会被审核

账号		自动登录	找回密码
密码			立即注册