|
马上注册,结交更多好友,享用更多功能^_^
您需要 登录 才可以下载或查看,没有账号?立即注册
x
本帖最后由 不二如是 于 2018-10-23 08:27 编辑
大数据是这几年的一项热门技,这一点毋庸置疑~
它和人工智能、云计算一起,已经成为大科技公司的技术标配。
但是该如何理解大数据技术?
这项技术对我们有什么影响?
这些基本的问题,我们作为程序员真的了解不?
大数据这个名字本身会给人一种误解,认为:
如果鱼油也这么认为,那么很有必要往下看看了。
数据量的大小经常被高估。
其实所需要的数据量的大小,跟数据本身的效果、数据的真实程度等都有关。
举个例子,一个火热的炉子,你只需要碰到一次,就明白,热炉子很危险,会烫伤你。
但是,你可能需要喝几千杯咖啡,才能确定,咖啡是否会让你头疼。
原因就在于:
热炉子本身的效果强度很高,因此,只需要一项数据,就能显现出结果。
谷歌的数据之所以这么有价值,其实原因也不完全是因为谷歌能拿到的庞大的数据量。
还因为,人们在自己的电脑上输入关键词、进行搜索时,都很诚实。
他们不需要考虑社交压力、周围人的眼光等等,做了最真实的自己。
我们未必总是需要大数据,才能得出重要见解,其实需要的是正确的数据。
相信鱼油最近看到马蜂窝数据造假,并为之付出惨痛代价的案例,百亿估值将暴跌至20多亿。
惨痛的声明(过长,想看回复即可,不影响主题):
为啥呢?
还不是以为造假的“蜂拥而至”会吸引来更多的人(流量)吗,一时可以,但假的终究还是真不了~
所以可见:
大数据革命跟收集更多的数据无关,而是跟收集正确的数据有关。
还是以谷歌为例。
谷歌不是仅仅凭借着能够比其他搜索引擎搜索到更多的内容,就成为世界上最大的搜索引擎公司,它凭借的是,可以搜索到更好的数据。
这跟谷歌的算法有关。
谷歌的算法,按照一个网页被链接的数量来对搜索结果排序。
大数据拥有的四种力量
这四种力量,也并不都同数据集本身的大小相关。
大数据的第一种力量是,提供了新类型的数据。
比如,包括弗洛伊德在内的思想家,都会从性的角度,来解释人类的很多行为。
但是,这些思想家更多还是在观念层面进行思考。
而现在,大数据时代的研究者,有了一项让那些过往思想家羡慕不已的数据:
这些独特的数据来源,能够让研究者进入以前只能靠推理和猜测的领域。
大数据的力量在于,重新想象什么东西有资格成为数据,提供之前从来没有收集过的信息,让人们可以研究。
假如我们把2010年至2018年的失业率输入到谷歌的数据挖掘工具Google Correlate中,结果发现,跟失业最相关的搜索,一个是色情网站,另一个是蜘蛛纸牌。
原因也很简单,因为失业者会有很多空闲时间。
所以,利用一些跟消遣相关的搜寻组合,就能追踪失业率,而且是预测失业率最佳模式的一部分。
大数据的第二种力量是,提供了诚实的数据。
在数字时代出现之前,可想而知,由于考虑到社会压力等因素,人往往会隐藏起来那些会让自己难堪的想法。
即使面对询问,也不会坦诚相告。
但是,在数字时代,虽然人们仍然会在现实生活中隐藏起一些真实想法,但是在互联网上,尤其是可以匿名的网站上,人们往往会透露出自己的想法。
大数据使我们终于可以看清人们真正想要什么和真正做了什么,而不是人们说自己要什么和做了什么。
人的秘密,指的是跟自己有关但自己却不知道,或者不想让别人知道的事。
举个例子,流媒体公司奈飞,曾经让用户设置一个自己以后想看的电影播放列表。
奈飞发现,用户确实会把电影添加到这个列表中,但是,尽管奈飞会提醒用户看这些电影,用户却很少真的去看。
因为,人们说自己想要的,跟自己实际想要的不一致。
后来,奈飞不再要求用户告诉自己他们想看什么电影,而是根据用户点击和观看的数据建立一个模型,用模型来推测用户想看什么电影。
结果,用户果然越来越频繁地造访奈飞,在上面看了越来越多的电影。
很简答:
大数据的第三种力量是,让我们可以把焦点放在人口中的一个很小的子集,去进行研究。
当然,这要求对小的子集,也有大数据量。
打个比方,为了将照片的一小部分放大后还能看清楚,照片需要有很高的像素。
同样,为了能够清楚放大检视数据的小子集,每一个小子集中都需要大量的数据。
比如,鱼C某一个课程有多受1978年出生的男性的欢迎。
只对几千人进行的小调查,样本根本不够大,1978年出生的男性人数肯定不够多。
大数据允许我们有意义地放大检视数据集的细部,获取新的洞察。
大数据的第四种力量是,允许研究者进行因果关系实验。
大数据可以允许研究者进行快速而且可控制的因果关系实验,而不仅仅是相关性。
这种测试在很多互联网公司被称作是A/B测试。
所谓的A/B测试,指的是:
在同一个时间维度,分别让相似的两组访客随机访问这些版本,收集数据,来评估出用户更喜欢的版本。
比如,两个标题,哪一个点击量更高;放哪种类型的照片,更能让用户喜欢等等。
脸书(Facebook)每天能进行上千次A/B测试。
如果我们了解人性,根据我们的生活经验就能判断答案是什么,那么测试就不会有价值。
但事实上,我们不了解人性,所以测试才这么有价值。
这种方法,互联网公司已经大量使用,而现在和将来,社会科学家也可以使用,从而把以往模糊的研究,变得更科学。
预知更多神文请看:
如果喜欢,别忘了评分 :
如此多懂学习的 VIP至尊都 已订阅本专辑,你还不快点行动!( ☞订阅传送门 ) |
评分
-
查看全部评分
|