爬取中国知网正则

wcq15759797758 · 发表于 2021-7-5 19:34:01

马上注册，结交更多好友，享用更多功能^_^

您需要登录才可以下载或查看，没有账号？立即注册

x

本帖最后由 wcq15759797758 于 2021-7-6 10:57 编辑

中国知网专利库的精彩推荐

[code]import requests  # 网络请求模块
import time,random    # 时间模块
import re
from bs4 import BeautifulSoup
class Crawl():
def __init__(self):
      # 创建头部信息
      self.headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.25 Safari/537.36',
                     'Referer': 'https://www.zhihu.com/',}
def get_json(self,json_url):
      response = requests.get(json_url, headers=self.headers)
      soup = BeautifulSoup(response.text, 'lxml')
      Name = re.findall('"Name":"(.*?)",',response.text)
      Unit = re.findall('"Unit":"(.*?)",',response.text)
      Title = re.findall('"FileTitle":"(.*?)",',response.text)
      Date = re.findall('"PublishDate":"(.*?)",',response.text)
      for li1, li2, li3, li4 in zip(Name, Unit, Title, Date):
         item = {}
         item['name'] = li1
         item['Unit'] = li2
         item['Title'] = li3
         item['Date'] = li4
         print(item)
if __name__ == '__main__':
json_url ='https://recsys.cnki.net/RCDService/api/RecSysOpenApi/Papers?idenID=&clientID=3210408220706642159&userIP=&platformURL=kns.cnki.net%2Fkns8%40%2FKNS8&productID=SCDB'
c = Crawl()  # 创建爬虫类对象
text = c.get_json(json_url)

从页面返回的响应中找到了 json_url

hornwong · 发表于 2021-7-5 20:07:35

感谢分享

Sungne_jer · 发表于 2021-7-5 20:30:32

优秀

ridiculum · 发表于 2021-7-5 20:40:37

大佬厉害

fr1518 · 发表于 2021-7-5 21:19:14

牛逼

芬里尔ming · 发表于 2021-7-5 21:36:19

大佬码住

深谙流年 · 发表于 2021-7-5 23:05:36

厉害厉害，我也想学爬虫，但是感觉有点难

wcq15759797758 · 发表于 2021-7-5 23:06:49

深谙流年发表于 2021-7-5 23:05
厉害厉害，我也想学爬虫，但是感觉有点难

不会不会很简单

深谙流年 · 发表于 2021-7-5 23:07:33

wcq15759797758 发表于 2021-7-5 23:06
不会不会很简单

如果靠爬虫找工作的话是不是很难呢

wcq15759797758 · 发表于 2021-7-5 23:09:17

深谙流年发表于 2021-7-5 23:07
如果靠爬虫找工作的话是不是很难呢

那你得会数据分析

深谙流年 · 发表于 2021-7-5 23:10:27

wcq15759797758 发表于 2021-7-5 23:09
那你得会数据分析

唉，感觉转行it靠白嫖好难

wcq15759797758 · 发表于 2021-7-5 23:13:08

深谙流年发表于 2021-7-5 23:10
唉，感觉转行it靠白嫖好难

爬虫深入也很难对网页架构的了解前端知识

深谙流年 · 发表于 2021-7-5 23:14:45

wcq15759797758 发表于 2021-7-5 23:13
爬虫深入也很难对网页架构的了解前端知识

唉，感觉腰掌握一个技能就得掌握其他的好多技能，难啊

超级玛尼哄 · 发表于 2021-7-6 01:23:59

感谢分享

rsj0315 · 发表于 2021-7-6 08:20:37

看看

西瓜味的苹果 · 发表于 2021-7-6 08:28:31

兄弟，不是要打击你，我有几个小问题需要说说
1.此url接收get请求，但是不需要认证，说明他是对外的显示的，即说明很大概率他不会做UA验证，即使我拿着python的识别去访问，依然可以
2.通过url你访问到了各个论文的简短介绍，你能继续访问到各个对应链接的文章内容吗？如果不能，他是拿session，还是token哪种方式去验证用户的
3.其次就是你写的那个time.sleep()，我不是很明白，你在main函数中，都没有使用循环，那在最后写一个时间等待函数有什么用呢？

wcq15759797758 · 发表于 2021-7-6 10:51:42

西瓜味的苹果发表于 2021-7-6 08:28
兄弟，不是要打击你，我有几个小问题需要说说
1.此url接收get请求，但是不需要认证，说明他是对外的显示的 ...

格式没改

wcq15759797758 · 发表于 2021-7-6 11:06:49

wcq15759797758 发表于 2021-7-6 10:51
格式没改

文章内容只要找出url格式
https://kns.cnki.net/kcms/detail ... ename=CWYJ202006009
CJFD CJFDLAST2021 CWYJ202006009 这三个参数换一下就好了

Kayko · 发表于 2021-7-6 11:14:26

哈哈哈哈

龙舞九天 · 发表于 2021-7-9 09:47:54

账号		自动登录	找回密码
密码			立即注册

[技术交流] 爬取中国知网正则

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

浏览过的版块

[技术交流] 爬取中国知网 正则

马上注册，结交更多好友，享用更多功能^_^

本帖被以下淘专辑推荐:

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

回帖奖励 +1 鱼币

浏览过的版块

[技术交流] 爬取中国知网正则