加入收藏 | 设为首页 | 会员中心 | 我要投稿 百客网 - 百科网 (https://www.baikewang.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 大数据 > 正文

【我读《Big Data》】大数据时代的思维变革

发布时间:2023-01-14 13:07:17 所属栏目:大数据 来源:未知
导读: 大数据笔记
维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠

大数据笔记

维克托最具洞见之处在于,他明确指出,大数据时代最大的转变就是,放弃对因果关系的渴求,而取而代之关注相关关系。也就是说只要知道“是什么”,而不需要知道“为什么”。这颠覆了千百年来人类的思维惯例,对人类的认知和与世界交流的方式提出了全新的挑战。本书认为大数据的核心就是预测。大数据将为人类的生活创造前所未有的可量化的维度。

本书前瞻性地指出,大数据带来的信息风暴正在变革我们的生活、工作和思维大数据时代,大数据开启了一次重大的时代转型,并用三个部分讲述了大数据时代的思维变革、商业变革、和管理变革。

硅谷臭名昭著的技术成熟度曲线:经过新闻媒体和学术会议的大肆宣传之后,新技术趋势一下子跌到谷底,许多数据创业公司变得岌岌可危。当然,不管是过热期还是幻想破灭期,都非常不利于我们正确理解正在发生的变革的重要『性』。

就像望远镜能够让我们感受宇宙,显微镜能够让我们观测微生物,这种能够收集和分析海量数据的新技术将帮助我们更好地理解世界——这种理解世界的新方法我们现在才意识到。本书旨在如实表达出大数据的内涵,而不会过分热捧它。当然,真正的革命并不在于分析数据的机器,而在于数据本身和我们如何运用数据。

自那以后,我们就再也没有创造出什么东西了。”

事实上,尽管规律相同,但是我们能够感受到的约束,很可能只对我们这样尺度的事物起作用。对于人类来说,唯一一个最重要的物理定律便是万有引力定律。这个定律无时无刻不在控制着我们。但对于细小的昆虫来说,重力是无关紧要的。对它们而言,物理宇宙中有效的约束是地表张力,这个张力可以让它们在水上自由行走而不会掉下去。但人类对于地表张力毫不在意。

对于万有引力产生的约束效果而言,生物体的大小是非常重要的。类似地,对于信息而言,规模也是非常重要的。谷歌能够几近完美地给出和基于大量真实病例信息所得到的流感情况一致的结果,而且几乎是实时的,比疾控中心快多了。

大数据时代,我们无须再紧盯事物之间的因果关系,而应该寻找事物之间的相关关系,这会给我们提供非常新颖且有价值的观点。相关关系也许不能准确地告知我们某件事情为何会发生,但是它会提醒我们这件事情正在发生。在许多情况下,这种提醒的帮助已经足够大了。

人们对于数据的看法以及对于由因果关系向相关关系转化时释放出的潜在价值的态度,正是主宰这场游戏的关键。

统计学的一个目的就是用尽可能少的数据来证实尽可能重大的发现。事实上,我们形成了一种习惯,那就是在我们的制度、处理过程和激励机制中尽可能地减少数据的使用。

统计学家们证明:采样分析的精确『性』随着采样随机『性』的增加而大幅提高,但与样本数量的增加关系不大。

苹果公司的传奇总裁史蒂夫·乔布斯在与癌症斗争的过程中采用了不同的方式,成为世界上第一个对自身所有dna和肿瘤dna进行排序的人

完整的人体基因组有约30亿个碱基对。但这只是单纯的数据节点的绝对数量,并不代表它们就是大数据。大数据是指不用随机分析法这样的捷径,而采用所有数据的方法。谷歌流感趋势和乔布斯的医生们采取的就是大数据的方法

相扑比赛的一个比较特殊的地方是,选手需要在15场联赛中的大部分场次取得胜利才能保持排名和收入。这样一来就会出现利益不对称的问题。当一个7胜7负的摔跤手碰到一个8胜6负的对手时,比赛结果对第一个选手来说极其重要,对他的对手则没有那么重要。列维特和达根发现,在这样的情况下,需要赢的那个选手很可能会赢。这看起来像是对手送的“礼物”,因为在联系紧密的相扑界,帮别人一把就是给自己留了一条后路。

有没有可能是要赢的决心帮助这个选手获胜呢?答案是,有可能。但是数据显示的情况是,需要赢的选手的求胜心也只是比平常高了25%。所以,把胜利完全归功于求胜心是不妥当的。对数据进行进一步分析可能会发现,与他们在前三四次比赛中的表现相比,当他们再相遇时,上次失利的一方要拥有比对方多3~4倍的胜率。

以太字节(一般记做tb,等于2的40次方字节

大数据分析法不只关注一个随机的样本。这里的“大”取的是相对意义而不是绝对意义,也就是说这是相对所有数据来说的。

这个团队发现,如果把一个在社区内有很多连接关系的人从社区关系网中剔除开来,这个关系网会变得没那么高效但却不会解体;但如果把一个与所在社区之外的很多人有着连接关系的人从这个关系网中剔除,整个关系网很快就会破碎成很多小块。这个研究结果非常重要也非常的出人意料。谁能想象一个在关

大数据的简单算法比小数据的复杂算法更有效

简而言之,数字化带来了数据化,但是数字化无法取代数据化。数字化是把模拟数据变成计算机可读的数据,和数据化有本质的不同。

除了纠结于数据的准确『性』、正确『性』、纯洁度和严格度之外,我们也应该容许一些不精确的存在。数据不可能是完全对或完全错的。当数据的规模以数量级增加时,这些混『乱』也就算不上问题了。事实上,它甚至可以是有好处的,因为当我们只想使用一小部分时,无须捕捉这么多的知识细节。又因为我们可以用更快更便宜的方式找到数据的相关『性』,并且效果往往更好,而不必努力去寻找因果关系。当然在某些情况下,我们仍然需要精心策划的数据来做因果关系研究和控制实验,如测试『药』物的副作用或设计关键的飞机部件。但是在日常情况下,知道“是什么”就已经足够了,不必非要弄清楚“为什么”。大数据的相关『性』将人们指向了比探讨因果关系更有前景的领域

无论大数据如何威胁到隐私保护,最让人们头疼的都是行为倾向问题。大数据预测的准确『性』越来越高,它能预测行为的发生,在人们犯错之前,提前惩处。因为预测的结果几乎不可反驳,人们也就无法为自己开脱。但这种基于预测得出的惩罚不仅违背自由意志的原则,同时也否定了人们会突然改变选择的可能『性』(无论可能『性』有多小)。当我们给一个人判定责任(并给予惩罚)时,必须牢记人类意志的神圣不可侵犯『性』。人类的未来必须保留部分空间,允许我们按照自己的愿望进行塑造。否则,大数据将会扭曲人类最本质的东西,即理『性』思维和自由选择。

在一个预测的时代里,人类的自由意志神圣而不可侵犯,这一点不可轻视。我们不仅需要承认个人进行道德选择的能力,还要强调个人应为自我行为承担责任。社会则必须采取新的保护措施:接受一种新的职业人,也就是数据算法师,对大数据进行深度分析。如此,因为大数据而变得可预测的世界,才不会陷入一个用一种未知取代另一种未知的困境中,不会变成一个黑匣子。

莎士比亚曾写道:“凡是过去,皆为序曲。

没有什么是上天注定的,因为我们总能就手中的信息制定出相应的对策。大数据预测结果也并非铁定,而只是提供了一种可能『性』,也就是说,只要我们愿意,结局可以改写。我们可以判断出迎接未来的最佳方式,摇身变作未来的主人,正如莫里在海与风的广阔世界中乘风破浪一般。在过程中我们无须理解宇宙的奥秘或是去证明神的存在,因为大数据已经帮我们做好了。

(编辑:百客网 - 百科网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!