每个数据科学家都该读的五本无关技术的书

原标题:每个数据科学家都该读的五本无关技术的书

图片 1

图片 2

对于数据分析的书,博主推荐几本,只做参考。

大数据文摘出品

图片 3

编译:M、小七

【一本值得珍藏、大胆迷人,并将永远改变你对统计看法的书 】面对充满不确定性的未知世界,人们在科学研究中需要大量使用统计分析方法。但是,如何正确使用统计分析方法充满玄机,即使对那些最优秀和最聪明的人也是如此。读完此书你会惊讶地发现,许多科学家使用的统计方法中其实隐藏着许多谬误和陷阱。 本书简明扼要地指出了现代科学研究中常见的统计谬误,诸如 p 值与基础概率谬误、统计显著性和模型误用等。从这本书中,你将理解什么是统计谬误及其产生的原因,了解如何检查科学研究中隐藏的统计谬误。你还将学会如何正确地使用统计方法,如何在科学研究中避免这些统计谬误。

2010年,我在华盛顿大学的一节课上写了我的第一行R代码。当我意识到代码比电子表格更强大时,我立马就迷上了。在过去十年中,我目睹了“数据科学”一词的广泛使用,并看到了大数据、商业智能、数据分析和现在的人工智能等流行语的兴衰。

图片 4

在华盛顿大学开启我人生新阶段的这一课程是“金融计量学”,就像今天的深度学习课程一样,很大的教室也坐的满满当当。当时,金融危机在每个人心中仍然历历在目。对于工程师来说,这也是一种微妙的信息: 如果你想获得一份报酬丰厚的工作,那么就进入金融领域,成为一名金融计量分析师,就像今天的数据科学一样。

数据科学与大数据分析在当前是炙手可热的概念,关注的是如何通过分析海量数据来洞悉隐藏于数据背后的见解。

在业务运营中直接使用数学的概念很有趣,不仅仅是为了决策支持,更是为了做出实时决策。然而,金融危机也暴露了,即使是最复杂的模型来应对现实世界的混乱也有不足之处。

本书是数据科学领域为数不多的实用性技术图书,它通过详细剖析数据分析生命周期的各个阶段来讲解用于发现、分析、可视化、表示数据的相关方法和技术。 本书共分为12章,主要内容包括大数据分析的简单介绍,数据分析生命周期的各个阶段,使用R语言进行基本的数据分析,以及高级的分析理论和方法,主要涉及数据的聚类、关联规则、回归、分类、时间序列分析、文本分析等方法。此外,本书还涵盖了用来进行高级数据分析所使用的技术和工具,比如MapReduce和Hadoop、数据库内分析等。 本书内容详细,示例丰富,侧重于理论与练习的结合,因此比较适合对大数据分析、数据科学感兴趣的人员阅读,有志于成为数据科学家的读者也可以从本书中获益。

许多人认为,金融危机的核心是获得过诺贝尔奖的布莱克-舒尔斯模型(Black-Scholes)期权定价模型。这个模型在不了解其固有局限性和隐含假设的情况下,来衡量大型投资的风险。这种技术盲目性造成了灾难性经济损失的条件。

图片 5

如今,有抱负的数据科学家们都需要去学习一系列令人难以置信的建模技术。每种方法背后都有自己的一套理论,例如线性回归,你通过使用它就可以知道这些理论的实用性,不管你了解其背后的理论也好,不了解也罢。

Python是一种多范型编程语言,既适用于面向对象的应用开发,又适合函数式设计模式。Python已经成为数据科学家进行数据分析、可视化以及机器学习的一种理想编程语言,它能帮助你快速提升工作效率。本书将会带领新手熟悉Python数据分析相关领域的方方面面,从数据检索、清洗、操作、可视化、存储到高级分析和建模。同时,本书着重讲解一系列开源的Python模块,诸如NumPy、SciPy、matplotlib、pandas、IPython、 Cython、scikit-learn和NLTK等。此外,本书还介绍了数据可视化、信号处理、时间序列分析、数据库、预测性分析和机器学习等主题。通过阅读本书,你将华丽变身数据分析高手。

这已经创造了一大批准备使用模型而不了解模型背后理论的新工人。年轻社区没有解决技术盲目性问题,而是参与有关工具的代理争论(R与Python!)。

图片 6

为了帮助解决这个问题(我也受到了影响),我这里提供了一份简短的阅读清单,这份清单可以为数据科学家们奠定理论基础。此外,这些书还将激发你思考在使用模型之前有关模型技术假设的问题。

这本书帮助那些希望用数学工具解决实际问题的人们,仅有的要求可能就是懂一点概率知识和程序设计。而贝叶斯方法是一种常见的利用概率学知识去解决不确定性问题的数学方法,对于一个计算机专业的人士,应当熟悉其应用在诸如机器翻译,语音识别,垃圾邮件检测等常见的计算机问题领域。可是本书实际上会远远扩大你的视野,即使不是一个计算机专业的人士,你也可以看到在战争环境下,法律问题上,体育博彩领域(棕熊队和加人队NFL比赛问题)贝叶斯方法的威力。怎么从有限的信息判断德军装甲部队的规模,你所支持的球队有多大可能赢得冠军,在《龙与地下城》勇士中,你应当对游戏角色属性的最大值有什么样的期望,甚至在普通的彩弹射击游戏中,拥有一些贝叶斯思维也能帮助到你提高游戏水平。除此以外,本书在共计15章的篇幅中讨论了怎样解决十几个现实生活中的实际问题。在这些问题的解决过程中,作者还潜移默化的帮助读者形成了建模决策的方法论,建模误差和数值误差怎么取舍,怎样为具体问题建立数学模型,如何抓住问题中的主要矛盾,再一步一步的优化或者验证模型的有效性或者局限性。在这个意义上,这本书又是一本关于数学建模的成功样本。

此列表并非详尽无遗,书籍主题也会从入门到深入研究。其对金融工程的影响是巨大的,因为相比比任何其他学科,金融工程更多的产生的是通用数据科学家。

图片 7

本文由澳门太阳集团2018网站发布于科技中心,转载请注明出处:每个数据科学家都该读的五本无关技术的书