鸬鹚鸟 发表于 2021-8-26 19:01:42

大数据是女人!爬虫是男朋友!黑客是强奸犯!

本帖最后由 鸬鹚鸟 于 2021-8-27 18:25 编辑

在黑科技、爬虫、大数据领域深度技术研发领域,爬虫和黑客使用的技术其实是一样的但是又有区别的,爬虫和黑客的区别在哪里呢 ?大数据、爬虫、黑客有什么关系呢?



爬虫和黑科技的区别:
    黑客和爬虫最大的区别就是行为目的不同,黑客是干坏事,爬虫是干好事。因为黑客和爬虫使用的技术都是差不多,都是通过计算机网络技术进行对用户电脑、网站、服务器进行入侵然后获取数据信息。区别是黑客是非法入侵,爬虫是合法入侵。比如黑客通过破解网站后台验证码技术然后模拟登陆网站数据库,把数据库删掉或者直接修改人家数据库,这种是非法入侵,破坏性行为、违法行为。 同样也是破解验证码技术,但是爬虫就不同了,比我需要获取某些政府网站的一些公开数据,但是每次都需要输入验证码很麻烦,为了提高数据分析的工作效率,爬虫技术也是通过绕过验证码技术去采集网站公开、开放的数据,不会获取隐私不公开的数据。 如果把数据比喻女人,爬虫和黑客是男人,那么爬虫是男朋友,是在正当合法、名正言顺的情况下和女的发生了关系,然而黑客不同,黑客就是强奸犯了,因为女的不是自愿的,黑客是强制性,甚至用暴力来和女的发生关系。这个就是黑客和爬虫的本质不同地方,虽然采用类似的技术手段来获取数据,但是采取的技术行为和最终导致的后果性质是不同的。一个是违法需要承担法律后果,一个是国家支持鼓励的是合法的。不管是爬虫还是黑客技术 都是一个工具而已,就像是菜刀一样,有人拿去切菜,有人拿去杀人,那菜刀是好还是坏呢,其实菜刀只是一个工具而已,好坏在于使用者的行为的结果
      https://img1.baidu.com/it/u=1448793252,3016580126&fm=26&fmt=auto&gp=0.jpg                                          由于图片过于**请您自行脑补
                爬虫-谢天谢地您来了,好开心啊                                                                                 黑客- 恶魔,离我远一点!给我滚!
大数据和爬虫又有啥关系?
2012年国家都不断对数据进行开放,中央要求每个政府单位必须把你们能够开放的数据开放出来,主要是中国在大力发展大数据科技产业,也就是我们经常听到的各种所谓专家、教授口里经常喊的数字产业化,数字中国,数字经济、大数据、人工智能、区块链等各种时尚高端词汇。那大数据和爬虫有什么关系呢?以下从几个案例举例介绍:

人脸识别: 您做人工智能是需要大数据的,举个例子您想做一个自动识别人脸的人工智能机器。您首先需要根据人脸生物特征建立AI模型,然后需要几千万或者几十亿张人脸图片进行不断的训练这个模型,最后才得到精准的人脸识别AI。几十亿的人脸图片数据哪里来呢? 公安局给你?不可能的!一张张去拍照?更不现实啦! 那就是通过网络爬虫技术建立人脸图像库,比如我们可以通过爬虫技术对facebook、qq头像、微信头像等进行爬取,来实现建立十几亿的人脸图像库。

商标专利大数据:那么商标和专利和大数据又有什么关系?和爬虫又扯上什么关系呢?在中国聪明人其实是不少的。商标和专利这个应该是很老土的过期词语,但是往往创新只是改变一下我们的思维、或者根据环境变化进行改革一下即可。因为有了大数据,有了政府开放数据,有大数据深度挖掘技术,有了AI人智能,有了5G,那么之前我们采用的工具和模式都需要调整了。在从事AI和大数据路上还是遇到不少有创新和智慧的人,有一天有一个陌生好友加我,问我说可以帮他做一个商标专利大数据吗? 我问他什么是商标专利大数据,他说就是监控商标网和专利网的实时更新数据,我只要有一套AI技术系统,可以实现获取最新申请的专利信息数据和商标数据,然后就可以知道哪些企业有申请专利、申请知识产权的需求,我问他:您怎么赢利呢? 他说赢利方式太多了,比如2020年新型冠状病毒,我通过这个系统就可以知道哪些企业在申请关于生产疫苗的专利和商标,哪些企业在申请生产医疗物资的知识产权,那么这些企业都是科技创新企业,都可以拿到政府扶持资金,我可以把这个做成一个大数据平台专门服务于那种做知识产权企业和做国家财税补贴申请机构,那通过这个数据,很多投资机构也可以合作掌握哪些企业在生产未来具有前景的产品。关于专利和商标大数据还有一个更聪明的人也是私聊我,同样问题,问他怎么赢利,做这些数据做什么,他说比如我现在知道有大公司在申请一个商标叫“麦当劳”,那么我马上就申请一个叫“迈当老”谐音的商标,那么这个大公司的商标麦当老肯定会做大,品牌的, 我的那个谐音的“迈当老”就值钱了,就可以卖个几十万都行的。我问他 这样靠近名字算算侵权吗? 他说国家规定的 只要是同一年时间申请的,之后使用都不算是侵权。最后也是通过建立一套大数据AI爬虫系统帮助他实现了这个功能。最后不知道他运营如何了。

裁判文书大数据:自从国家中文裁判文书对外开放之后,经常很多有创新想法朋友找我帮忙,他们有些想做一个案件的判例分析系统,因为现在很多法官在判案的时候都是需要查阅各种历史类似案件,之前的判官都是怎么判的。然后做一些借鉴。现在有大数据好了,如果通过AI技术自动把案件文案扫描进去,然后通过裁判文书数据库进行深度分析匹配,马上出来类似的判例结果出来,并按案件相识度进行排序,最终形成一套法务判例AI智能系统。然后把这个系统提供给律师、法官、法院、税务所用。那么问题来了,需要实现这个第一步首先您需要有裁判文书大数据库,然后在数据库基础上建立一个案例分析AI模型,其中需要用到爬虫技术来解决裁判文书数据源获取和更新问题,然后需要用到文本分析技术、文本情感识别技术、文本扫描解读技术。我当时采用是一套国外的框架tensorFlow,这是一套由美国google brain研发出来的开源机器学习库,专门做深度学习、神经网络技术、模型训练框架。因为裁判文书爬虫需要解析算出它的DOCID值,然后通过多进程+多线程+cookie池技术来解决批量爬取的问题。
————————————————
版权声明:本文为CSDN博主「liujainq」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/liujainq/article/details/105951172

于熙顿 发表于 2021-8-28 22:31:55

生动形象{:10_256:}

WR2019 发表于 2021-9-12 14:38:23

学习了{:10_256:}

鸬鹚鸟 发表于 2021-9-12 16:17:42

WR2019 发表于 2021-9-12 14:38
学习了

多年后(度日如年)的第二个访客{:9_227:}

周狮虎 发表于 2024-8-13 17:30:29

学习了
页: [1]
查看完整版本: 大数据是女人!爬虫是男朋友!黑客是强奸犯!