你的位置:首页 > 香港六彩开奖

刘伯温WWW6335con为何Python攀上数据科学巅峰?KDnuggets2017调查Python超越R

作者:admin 发布于2018/4/5 11:49:21   浏览310 次  

刘伯温WWW6335con为何Python攀上数据科学巅峰?KDnuggets2017调查Python超越R

刘伯温WWW6335con

为何Python攀上数据科学巅峰?KDnuggets2017调查Python超越R2017-09-05机器之心选自KDnuggets等机器之心整理参与:李泽南、李亚洲、路旭阳根据KDnuggets2017年最新调查,Python生态系统已经超过了R,成为了数据分析、数据科学与机器学习的第一大语言。

本文对KDnuggets的此项调查结果做了介绍,并补充了一篇文章讲解为何Python能成为数据科学领域最受欢迎的语言。

PythonvsR:2017年调查结果近日,KDnuggets发起了一项调查,问题是:你在2016年到现在是否使用过R语言、Python(以及它们的封装包),或是其他用于数据分析、数据科学与机器学习的工具?预料之内的是,Python并没有完全「吞噬」R语言的空间,但这项基于954个参与者的投票显示,Python生态系统在今年已经超越了R语言,成为了数据分析、数据科学和机器学习的第一大语言。值得一提的是,在2016年的调查中,Python还处于落后地位(34%比42%),在2017年,两者的对比是41%比36%。

此外,参与这项调查的KDnuggets读者也有倾向于共同使用Python和R两种语言的趋势(12%),而使用其他工具的人则有所减少(从16%降至11%)。

图年与2017年在数据分析、数据科学和机器学习上,Python、R、两者共同使用,以及其他平台的人数对比。

下面,让我们看看不同平台之间的转换。

图年与2017年间,数据分析、数据科学和机器学习上,Python、R、两者共同使用,以及其他平台的人数转换示意。这张图看起来有点复杂,其中有两个主要方面都是Python获得胜利。忠诚度:Python的用户显得更加忠诚,有91%的2016年Python用户仍然在使用这个语言,而R语言的忠诚度为74%,其他平台为60%。转换趋势:只有5%的Python用户转投R语言,反向转换的比例则是10%。而对于在2016年使用两种语言的用户而言,只有49%的人仍在使用双平台,38%现在只用Python,而11%转移到了R语言上。在KDnuggets2015年的调查中,并没有提出「同时使用Python和R语言」的选项,所以下图的趋势线中,2016年和2017年的数据按照如下公式进行了转换Python=(Python比例)+50%(同时使用Python和R)R=(R比例)+50%(同时使用Python和R)我们可以看到,R的使用份额正在逐渐下降(从2015年的50%降低到了2017年的36%),而Python的比例则呈逐年上升趋势——从2014年的23%增加到了2017年的47%。同时,其他平台的使用量在逐渐减少。最后,让我们看看这次调查的参与者地区分布:美国/加拿大:40%欧洲:35%亚洲:%拉丁美洲:%非洲/中东:%澳大利亚/新西兰:%为了简化图表,在下图中,同时使用两种语言与使用其他语言的比例被合并。

图4:分区域对比Python、R、其他,2016对比2017我们在所有地区都发现了同样的模式:Python的比重增加了8%-10%;R的比重下降了2%-4%;其他平台的比重下降了5%-7%。

Python用户的未来看起来一片光明,但我们预期R和其他平台在未来会保持住一定比重,因为它们巨大的嵌入式基础。

Python是如何上升到数据科学顶峰的可以肯定地说,Python是一个十分受欢迎的工具,它涵盖了各个行业的各种职业。

由于它亲近性的语言、丰富的资源和框架以及它庞大硬件开发族群,Python自然是开发人员们的首选工具。

Packt在2017年的技能调查显示,在不同职位的技术专业人员中,Python从2016年的第二名上升成为用户最多的工具。

我们向SebastianRaschka提问:为什么不论是应用机器学习还是深度学习的研究者,亦或是Packt的畅销书Python机器学习的作者都转向了Python学习?这个语言的下一步将会是什么?他不得不承认:Python已成为近二十年来最流行的语言。

艰难登顶:PYTHON是如何成为数据科学通用语言的?Python是有史以来最流行的编程语言之一,这一点是毫无疑问的。

但是最初发生的事情确实很难描述的,是语言本身还是对编程语言的爱。

是否是我们首先为科学计算、数据科学以及机器学习开发出优秀的开源的数据库才推动了大家选择Python作为他们的工具,或是因为越来越多的人在使用Python我们才把这些开发出来。

无论哪一种是对的,有一件事是足够显而易见的:Python是一种非常通用的语言,易于学习和使用。

在我看来,这是今天它被如此普遍使用的原因。

虽然科学计算的大多数算法都没有在纯Python中实现,Python仍然是用于与Fortran,C/C++和其他语言中的非常有效的实现交互的优秀语言。

所谓的从计算高效的低级语言调用代码,以及Python为用户提供一个非常自然和直观的编程接口的这一事实可能是Python作为通用语言普及的重要原因之一,特别是在数据科学和机器学习社区中体现的更为明显。

未来的框架:我们应该关注什么工具、框架和数据库Python开发了许多有趣的库。

作为一名数据科学家或机器学习从业者,我时常从Python核心科学堆栈中重点关注维护良好的工具。

例如,NumPy和SciPy是就是用于处理数据数组和科学计算的高效库。

当涉及严重的数据清洗时,我们可以使用多功能的Pandas包。

Pandas是一个开源库,可以为Python编程语言提供快速简化的数据处理和数据分析工具,它主要是为Python提供现实和高端的数据分析。

我还建议使用Matplotlib进行数据可视化,Seaborn还可以提供更多的绘图功能和更专门的绘图。

此外Scikit学习是一个很好的通用机器学习工具,它为数据挖掘和分析提供了有效的工具。

这可能是我最喜欢的一款了,因为它几乎可以为所有的基本机器学习算法和许多有用的数据处理工具提供一个非常好用的API。

当然,我在自己的项目中发现了很多有用的库。

当我需要额外的性能时,我首选的数据框架库是Dask。

Dask是一个非常适合处理大型、难以装入内存的数据框架的库,它还能在多个处理器中进行并行计算。

或者使用TensorFlow、Keras和PyTorch,所有这些都非常适合实现深度学习模型。

使用什么库取决于你的个人偏好和项目需求,但是一直以来都有很多方便有趣、使用Python开发的框架,关键是找到适合你自己的。

Python的未来是什么样的?在大多数人的眼里,Python的未来非常光明。

这个语言刚刚被IEEESpectrum列为第一大编程语言。

而Packt最近的调查也显示它是最近一段时期内科技界最为流行的工具。

尽管在这里,我们主要从数据科学和机器学习的角度谈论Python,但我们也会经常听说其他领域的人们也认为Python是一种功能丰富的语言,拥有大量的库和完整的生态系统。

Python或许不是所有问题的最佳工具,但对于想要「完成任务」的程序员来说,它被认为是一种「有效」的语言。

此外,虽然拥有大量库是Python的优势之一,但它的大多数开发包目前都得到了很好的维护——那些数据科学和机器学习库每天都有新特性与提升。

例如2006年发起的NumPy项目,作为Python数据科学的核心库,最近它刚刚接受了价值万美元的资助。

Python及其相关库在我们的工作中扮演了重要角色,我非常感谢所有这些工具背后的开发者,没有这些开源库,Python就没有今天。

对于我们来说,Python可以成为非常重要的工具,我希望它的用户们能够多考虑帮助开源社区的发展,不论文档修改、bug修复还是新代码、新特性或新库,所有贡献都将帮助整个社区向前发展。

因为这个富有活力的社区,Python的未来有着光明的前景。

整理自:http:///2017/08/:///news/big-data/analytics/python-rose-top-data-science-world/受够了碎片信息和大众搜索?来试试机器之心新上线的「AI商用垂直搜索」。

点击「阅读原文」,立即试用。

精选留言微阅读本文版权归机器之心所有!如果您发现本文有侵犯您的知识产权或不允许转载,请与我们联系,我们将及时修改或删除。

刘伯温WWW6335con相关链接:刘伯温WWW6335con 刘伯温WWW6335con 刘伯温WWW6335con 顶尖高手坛