新闻中心
数据分析课程——原文翻译Hadley Wickham篇(数据分析全套讲解)
自学R已经有一段时间了,在学习的过程中不时和小伙伴进行交流,可谓受益匪浅,埋头苦学的同时,不要忘了放眼世界,有可能当我们认为了解了全部的时候,时代却已经将我们淘汰。
这是笔者我想进行原文翻译的原因,多看多思考,在了解他人思维逻辑的同时,也会让自己迸发新的灵感,当然啦,还有一个重要的原因是,笔者想要多练练英语,如有不当之处还望海涵。
言归正传,今天笔者翻译文章来自Hadley Wickham(Rstudio首席科学家,奥克兰大学、斯坦佛大学和莱斯大学兼职教授,如果这么介绍大家比较陌生,那么请记住他是好用到不行的ggplot2、dplyr包的开发者),他的个人主页:
Hadley Wickham本文原文地址:
Hadley Wickham: Impact the world by being useful通过有用的方式影响世界
作为一名数据科学家或统计学家影响世界的最佳方式是变得有用起来。在变得有用这项中我给的建议是:
•编写代码
•开放工作
•教
•告诉世界
(有很多其他的方法可以使用,这是我的道路。)
编写代码
每个现代的统计和数据分析问题都需要代码来解决它。你不应该只学习编程的基础知识,而是花一些时间掌握它。提高你的编程技能是值得的,因为代码是一个力量倍增器:一旦你解决了一个问题,代码可以让你今后更快地解决它。随着你编程技能的提高,你大部分的解决方案将得到改进:你不仅解决了遇到的确切问题,同时解决了更广泛的相关问题(编程技能非常像数学技能)。最后,与他人分享你的代码,让他们从你的经验中受益。
我非常喜欢R包作为一种编写和分享代码的方式。R包是伟大的,因为它们不仅包括R代码,还包括文档,示例数据,编译的C / C ++代码和测试。R包可以由数百万的R用户轻松访问,因为将代码放到他们的计算机上只是一个单独的函数调用(devtools :: install_github()或install.packages())。
开放工作
如果不在孤立的环境中写代码要容易得多,在发布完美的包之前你的目标不应该是独自奋斗多年。相反,在开放环境中工作,不仅发布最终产品,也发布每个中间阶段。如果你这样做,你会在早期得到更多的反馈,因为了解人们所关心的问题,你会保持很高的动力。
开放工作有两个关键。首先,使用开源许可证发布代码。有很多许可证可供挑选,但尽量不要陷入细节。我建议从http://choosealicense.com开始,它总结最重要的许可证。二,学习使用Git和GitHub。Git是一个重要的协作工具,GitHub可以将给的代码放在网上,其他人可以轻松查看它,报告错误并提出改进建议。
教人
一旦你有一些有用的代码,你需要向人们展示如何使用它。首先在文本中描述。如果您正在编写一个R包,请写一个小插件,一个长形式的文档,描述如何应用包来解决实际问题。
有效教学的关键是把自己当做新手。总是从动机开始:为什么有人关心你的包?你的包将一些有用的事物变得容易?展示一些酷的东西的例子,然后深入细节。我发现在写代码时提高了它的质量:它使我认识到粗糙的边缘,不一致和缺失的特殊情况。 如果你有机会亲自教导,大胆做!当你亲自教导时,你只能覆盖你所写的材料的一小部分,但它是非常有用的,因为它立竿见影的反馈了难以理解的和容易理解的部分。
告诉世界
如果没有人知道你的工作是多么伟大这不重要。如果你想对世界产生影响,你需要考虑营销。虽然许多学者认为营销是一个肮脏的词汇,但实际上这并不是欺骗人们使用你的工具。相反,通过让他们知道你的有用工具,使他们的生活更轻松。
有很多关于营销的学说,我当然不是专家。但我认为最重要的是要记住,这不是关于你。你花了几个小时开发软件,或者你赢得了多少个奖项,或者你的代码是多么美妙。相反,摆脱图片,并解释为什么使用你的代码会使生活更轻松。凯西·塞拉斯(Kathy Sierra)有一篇关于演讲背景下的文章:演讲技巧被认为是有害的(http://seriouspony.com/blog/2013/10/4/presentation-skills-considered-harmful)
(实际上,我强烈推荐你去阅读她的每一篇文章)
具体来说,我认为让人们了解你工作的最好方法是在博客和Twitter上发布更新。
榜样
每天都有许多伟大的榜样正在应用这些原则。这里有一些我印象深刻的是:
• 简单统计组有一个伟大的博客和一个活跃的Twitter帐户@simplystats。他们通过Coursera课程教授数千人统计和数据科学知识。我也喜欢Jeff Leek分享数据,编写包,审阅论文等(https://github.com/jtleek)
• ROpenSci是一个科学家社区,他们正在开发R软件包使开放科学更容易。到目前为止,他们已经发行了超过30个包到CRAN。他们还组织“hackathons”和教程,帮助科学家更好地编程和数据分析。
• Hilary Mason和Alyssa Frazee拥有很好的博客。他们不会经常发布,但是当他们发布,你将得到有洞察力的代码和分析。
• 珍妮·布莱恩(Jenny Bryan)在Twitter和GitHub上都是活跃的,并且公开发表了她所有的教材。她也是(据我所知)世界上唯一的专业极限(飞盘)统计学家!
如果您想对世界产生影响,请开始应用这些原则!
PS:如果网址打开不了,记得翻墙!