0066 - 数据、谎言与真相|【玩火】,吹水阁,娱乐休闲,鱼C论坛

不二如是 发表于 2018-10-23 08:27:28

0066 - 数据、谎言与真相 |【玩火】

本帖最后由不二如是于 2018-10-23 08:27 编辑

大数据是这几年的一项热门技，这一点毋庸置疑～

它和人工智能、云计算一起，已经成为大科技公司的技术标配。

但是该如何理解大数据技术？

这项技术对我们有什么影响？

这些基本的问题，我们作为程序员真的了解不？

大数据这个名字本身会给人一种误解，认为：
大数据的关键在于数据量很大。

如果鱼油也这么认为，那么很有必要往下看看了。

数据量的大小经常被高估。

其实所需要的数据量的大小，跟数据本身的效果、数据的真实程度等都有关。

举个例子，一个火热的炉子，你只需要碰到一次，就明白，热炉子很危险，会烫伤你。

但是，你可能需要喝几千杯咖啡，才能确定，咖啡是否会让你头疼。

原因就在于：
热炉子本身的效果强度很高，因此，只需要一项数据，就能显现出结果。

谷歌的数据之所以这么有价值，其实原因也不完全是因为谷歌能拿到的庞大的数据量。

还因为，人们在自己的电脑上输入关键词、进行搜索时，都很诚实。

他们不需要考虑社交压力、周围人的眼光等等，做了最真实的自己。

我们未必总是需要大数据，才能得出重要见解，其实需要的是正确的数据。

相信鱼油最近看到马蜂窝数据造假，并为之付出惨痛代价的案例，百亿估值将暴跌至20多亿。

惨痛的声明（过长，想看回复即可，不影响主题）：
**** Hidden Message *****

为啥呢？

还不是以为造假的“蜂拥而至”会吸引来更多的人（流量）吗，一时可以，但假的终究还是真不了～

所以可见：
大数据革命跟收集更多的数据无关，而是跟收集正确的数据有关。

还是以谷歌为例。

谷歌不是仅仅凭借着能够比其他搜索引擎搜索到更多的内容，就成为世界上最大的搜索引擎公司，它凭借的是，可以搜索到更好的数据。

这跟谷歌的算法有关。

谷歌的算法，按照一个网页被链接的数量来对搜索结果排序。

大数据拥有的四种力量

这四种力量，也并不都同数据集本身的大小相关。

大数据的第一种力量是，提供了新类型的数据。

比如，包括弗洛伊德在内的思想家，都会从性的角度，来解释人类的很多行为。

但是，这些思想家更多还是在观念层面进行思考。

而现在，大数据时代的研究者，有了一项让那些过往思想家羡慕不已的数据：
人们在互联网上搜索和观看色情作品的数据。

这些独特的数据来源，能够让研究者进入以前只能靠推理和猜测的领域。

大数据的力量在于，重新想象什么东西有资格成为数据，提供之前从来没有收集过的信息，让人们可以研究。

假如我们把2010年至2018年的失业率输入到谷歌的数据挖掘工具Google Correlate中，结果发现，跟失业最相关的搜索，一个是色情网站，另一个是蜘蛛纸牌。

原因也很简单，因为失业者会有很多空闲时间。

所以，利用一些跟消遣相关的搜寻组合，就能追踪失业率，而且是预测失业率最佳模式的一部分。

大数据的第二种力量是，提供了诚实的数据。

在数字时代出现之前，可想而知，由于考虑到社会压力等因素，人往往会隐藏起来那些会让自己难堪的想法。

即使面对询问，也不会坦诚相告。

但是，在数字时代，虽然人们仍然会在现实生活中隐藏起一些真实想法，但是在互联网上，尤其是可以匿名的网站上，人们往往会透露出自己的想法。

大数据使我们终于可以看清人们真正想要什么和真正做了什么，而不是人们说自己要什么和做了什么。

人的秘密，指的是跟自己有关但自己却不知道，或者不想让别人知道的事。

举个例子，流媒体公司奈飞，曾经让用户设置一个自己以后想看的电影播放列表。

奈飞发现，用户确实会把电影添加到这个列表中，但是，尽管奈飞会提醒用户看这些电影，用户却很少真的去看。

因为，人们说自己想要的，跟自己实际想要的不一致。

后来，奈飞不再要求用户告诉自己他们想看什么电影，而是根据用户点击和观看的数据建立一个模型，用模型来推测用户想看什么电影。

结果，用户果然越来越频繁地造访奈飞，在上面看了越来越多的电影。

很简答：
算法比你更了解你自己。

大数据的第三种力量是，让我们可以把焦点放在人口中的一个很小的子集，去进行研究。

当然，这要求对小的子集，也有大数据量。

打个比方，为了将照片的一小部分放大后还能看清楚，照片需要有很高的像素。

同样，为了能够清楚放大检视数据的小子集，每一个小子集中都需要大量的数据。

比如，鱼C某一个课程有多受1978年出生的男性的欢迎。

只对几千人进行的小调查，样本根本不够大，1978年出生的男性人数肯定不够多。

大数据允许我们有意义地放大检视数据集的细部，获取新的洞察。

大数据的第四种力量是，允许研究者进行因果关系实验。

大数据可以允许研究者进行快速而且可控制的因果关系实验，而不仅仅是相关性。

这种测试在很多互联网公司被称作是A/B测试。

所谓的A/B测试，指的是：
在同一个时间维度，分别让相似的两组访客随机访问这些版本，收集数据，来评估出用户更喜欢的版本。

比如，两个标题，哪一个点击量更高；放哪种类型的照片，更能让用户喜欢等等。

脸书（Facebook）每天能进行上千次A/B测试。

如果我们了解人性，根据我们的生活经验就能判断答案是什么，那么测试就不会有价值。

但事实上，我们不了解人性，所以测试才这么有价值。

这种方法，互联网公司已经大量使用，而现在和将来，社会科学家也可以使用，从而把以往模糊的研究，变得更科学。

预知更多神文请看：
菊、套与吹水 | 【？？？】

如果喜欢，别忘了评分{:10_281:} ：

http://xxx.fishc.com/forum/201709/19/094516hku92k2g4kefz8ms.gif

如此多懂学习的VIP至尊都已订阅本专辑，你还不快点行动！（☞订阅传送门　）

FC的注册很坑 发表于 2018-10-23 11:53:51

领鱼币顺便瞅瞅{:10_277:}

wow0181 发表于 2018-10-23 17:03:54

很可惜，每個世代都有被濫用的詞，像大數據，或者像ai，尤其ai，想想沒ai這詞時，可口可樂和汽車制造，套上大數據和ai，有很多公司就亂圈錢。

常德水鱼村 发表于 2018-10-24 11:17:17

支持楼主！热爱鱼C！

余生愿你常欢笑 发表于 2018-10-24 12:59:06

贴

简单的蓝猫 发表于 2018-10-25 13:19:58

支持

钱闻韬 发表于 2018-10-25 21:58:46

666支持

工藤v新一 发表于 2018-10-25 22:08:36

数据就是财富

蹉跎岁月 发表于 2018-10-25 23:33:40

谢谢楼主，顶！

蹉跎岁月 发表于 2018-10-25 23:40:50

谢谢楼主，顶！

pystudy 发表于 2018-10-26 14:45:16

lsdfjlsdj

不许偷懒的小猫 发表于 2018-10-26 14:59:11

{:10_256:}{:10_256:}{:10_256:}{:10_256:}{:10_256:}{:10_256:}

Waytson 发表于 2018-10-26 15:29:06

支持

qiuyouzhi 发表于 2018-10-26 19:45:43

666

岁月2 发表于 2018-10-26 23:03:09

谢谢楼主，顶！

岁月3 发表于 2018-10-26 23:06:48

谢谢楼主，顶！

不当咸鱼当dalao 发表于 2018-10-27 04:35:46

来支持一下

wwhywhy 发表于 2018-10-27 10:18:06

原来这就大数据啊！

whdd 发表于 2018-10-27 12:21:07

{:9_226:}

岁月4 发表于 2018-10-27 21:10:46

楼主辛苦了，谢谢分享，顶

页: [1] 2 3 4 5 6

鱼C论坛's Archiver

0066 - 数据、谎言与真相 |【玩火】