人工智能
产品经理
职场
数据分析
运营

超级菜鸟怎么学习数据分析?

本题已加入圆桌 数据分析入门指南 ,更多数据分析内容,欢迎关注圆桌>>>数据挖掘、工具、技术、所需知识点
关注者
17,106
被浏览
3,165,788

522 个回答

从文科的超级菜鸟一路摸爬滚打,到独揽市场部的数据分析。我学习分为两块:学习数据分析知识、学习数据分析技能。

  • 【数据分析知识-入门进阶高阶】

一、入门必看,不需要会编程系列

1、 《深入浅出数据分析》

数据分析入门第一本。通俗简单,能够让你对数据分析的相关概念有大致的了解。这本书蕴含的思想逻辑和分析原则,要好好体会,会对你以后的学习有很大的帮助。

2、 《深入浅出统计学》

号称“文科生也能看懂”的统计书。阅读起来相当容易,一口气就能看完。这本书所讲的知识在数据分析中都是常见且必须掌握的,比如基本的统计量,基本上每个分析项目中都会用到;比如基本的概率分布,总体与样本的概念、置信区间、假设检验、回归分析,都是关于数据分析的统计学知识。

“HeadFirst类的书籍,一向浅显易懂形象生动,可以对分析概念有个全面的认知。”

3、 《赤裸裸的统计学》

这本书是结合生活讲解统计知识,生动有趣。从作者自身的生活经历讲述他与统计学的故事。处处见得统计学在生活中的智慧。

“可以避免统计学一上来就大讲贝叶斯概率和随机分析的枯燥。”

4、如果觉得书籍太枯燥,那把视频课看起来。

注意:不要一开始就去啃那种很难的课程,否则很容易直接从入门到放弃。可以去看一些基础的、短小的课程,容易理解也没那么枯燥。

如果不知道怎么选择,可以去看看知乎知学堂官方的数据分析课程,对比下来这个课程对于数据分析的底层逻辑盘的是最清楚的,作为入门课程完全足够了。

二、进阶:数据变多,不学编程搞不定系列

数据分析领域的三把数据库利器:R语言、Python、SQL

1、 《R语言实战》

如果要用R语言做数据分析,建议读完《深入浅出数据分析》之后,就开始读这本。从工具的安装,到具体分析方法在R语言中的实现,讲解详细,可操作性极强,是一本非常值得读的数据分析书。

2、 《利用Python进行数据分析》

最经典的数据分析书之一,其中梳理介绍的pandas、Numpy、matplotlib 等库,应对一般的数据分析,完全足够。

3、 《MySQL必知必会》

企业的数据,多是以数据库的形式存储起来的,那么如果你要去调用你想要的那部分数据,SQL就是必须的技能。MySQL本身比较简单,对于数据分析师来说,只需要掌握基本的语句和技巧,能够进行基本的数据提取和处理就能够应对一般的数据分析需求了。

三、高阶:数据思维高度训练系列

1、 《精益数据分析》

“此书优势在于将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧,对使用者的分析能力要求较高,且必须具备相应的业务知识。”

书中并没有讲到具体的数据分析技术,主要分析了各种产品中用到的指标、模型和“数据驱动型产品”的一些思路。

2、 《数据科学实战》

“对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑地过渡到机器学习和数据挖掘,这本书我认为是这方面做的最好的一本。”

这本书是数据分析和机器学习之间的桥梁。从探索性的数据分析,引出了机器学习的基本算法:回归分析、k近邻、k均值,并介绍了不同应用场景中最常见的机器学习算法。

3、 《决战大数据》

阿里巴巴前数据副总裁车品觉所著,讲解了阿里巴巴在企业内部治理数据过程中的心得,所讲“存-通-用”数据管理三板斧和“从数据化运营到运营数据”,字字珠玑,可堪借鉴。


  • 【数据分析技能-搜集分析可视化】

一、数据搜集

1、表单搜集:由于我是社会学出身,为了快速分发问卷收集数据,迄今为止用过3个表单工具, 简道云、 金数据、问卷星。问卷星在学生时代发问卷用过,个人不推荐; 简道云和 金数据都比较推荐,尤其简道云是今年开始接触,因为我个人很喜欢它的操作界面,后续的图表制作以及数据关联性较强,用的次数是最多的。

(表单的具体使用可以参考我的另一篇回答: 如何制作图表非常精美的 Excel 文档?)

2、数据爬取:超级菜鸟还不至于到这一阶段。再加上这方面我了解不多,就不班门弄斧了。有意者可以参考这篇回答: 如何入门 Python 爬虫?

二、数据分析与可视化

1、配色学习:好的可视化是一份数据分析报告的点睛之笔。数据可视化主要通过编程和非编程类工具进行实现,在学习工具之前,需要先对配色设计有基础的审美认知。

图表设计教程: Excel图表图形

图表配色参考地址: 图表配色

2、数据分析软件

  • excel:

入门数据分析师都绕不开excel的魔掌。基础公式与常用函数、高级函数、VBA、SmartArt图形、数据透视表、交互图表、宏开发……

excel教程不要太多,如何快速学习excel,我之前也回答过,反正就是逮住一本教程,照着练:

图表制作上,可以使用一些excel插件,拯救配色: EasyCharts、Data Chart

  • 专业报表软件:

不得不说,使用专业级的报表软件,才能让你的数据会“说话”。国外有tableau、Power BI,国内有Finereport、FineBI、九数云。这几个都不错,但鉴于我爱国,我更推荐国产的 九数云和 Finereport。就我的使用感受来说,九数云更加适合入门的数据分析需求者,Finereport则更适合有一丢丢基础的人(起码懂个MySQL)。

以上。

别纸上谈兵、也别仗“式”欺人,有血有肉才叫数据分析。

----12月更新-------

上传了自己之前的读书笔记,后续会把一些我觉得值得看的都搬上来,大家可关注留意下

----2021.1更新------

甘特图的几种绘制办法:

----2021.3更新-----

关于简道云的更多用法,其实他家的帮助文档,教程已经很详密了: 帮助中心 - 简道云,所以教程我就不作分享了,可能后面会分享一些我的实际用法,感兴趣可以关注下

检查原文,发现Data Chart链接无效了,但easycharts也够用了,大家有其他替代的也欢迎推荐

-----2021.3更新-----

有点意思,低代码最近大热,分享一些想法:

以及我的经验:

编辑于 2023-04-24 19:31

16年我决定:以数据分析为核心技能,到风口所在的行业去工作。目前我在互联网公司从事数据工作。

之前写过一篇回答: 如何快速成为数据分析师?

这篇回答作为“如何快速成为数据分析师”的补充,列举一下数据分析各个模块的学习路径。

数据分析是啥?我将数据分析分成了三种境界:

  1. 招式花哨:招式就是分析工具。会 Excel、会 SQL、会 Python、会 Tableau、会 PowerBI 等等,很重要,但是完全不够。换一种说法:掌握分析工具的使用方法,只是成为一名数据分析师的底线。
  2. 内力雄厚:内力是指数学基础和分析思路。数学基础包括统计概率,机器学习知识等。分析思路是指拿到一个问题,有没有结构化的思维模式。往细了说,熟练使用对比分析、下钻分析、各种分析方法论(漏斗、相关分析、逻辑树、RFM等)。内力是否雄厚决定了你针对一个问题是否有 insight。但是,这还是不够。
  3. 业务是核心:离开了业务 KPI 和 业务逻辑,你的分析只是空洞的数字,不能给公司带来任何价值。所以,在有招式和内力的前提上,还得拥有业务 sense。或者说,你的数据报告能够打动业务方,才是最关键的。如果你只能告诉业务方本月销售额周同比下降20%,业务人员只会跟你“呵呵哒~”销售额跟他们的薪资息息相关,他能不知道下降的程度。你得告诉他们:下降多少(what)、下降在哪里、为什么下降(why)、哪里可以上升、怎么做大概率可以上升(so what and how)。

1 - 学招式

  • 招式1:Excel

很多数据分析的简历里是不写 Excel 的,但是这不代表 Excel 不要用。实际上在工作中,数据量不大时,临时分析下数据或者画个折线图,Excel 是非常能够提高效率的。

有一定 Excel 使用经验的同学,其实完全可以在工作中遇到问题直接百度或者Google的。如果你时间充裕,也可以看下下面的两本书:

Excel应用技巧宝典 (豆瓣)

Excel实战技巧精粹 (豆瓣)

这两本书除了 Excel 技巧的讲解,还会有一些案例,以及如何逻辑严谨的去看数。

但是,这两本书内容很多很杂,时间不充裕可以挑重点先看。

重点学会使用:各类函数(IF、Countif、Countifs、SUMIF、SUMIFS、VLOOKUP 等)、透视表、基础绘图(折线图、柱状图、饼图 等)。

其次,也可以听这个课程:

跟王佩丰学Excel视频教程:Excel实战1800分钟 - 网易云课堂


  • 招式2:SQL

SQL 语言在数据分析工作中非常重要。目前大部分公司都是将数据存储在数据库中,尤其是互联网公司,每天产生大量数据,数据分析师就从数据库中直接获取自己想要的任何数据(经过授权)来进行分析工作。

SQL 语言在数据分析工作中有多重要?

学习 SQL 我推荐的方式是刷题,但是刷题也不是盲目的刷,毫无经验的同学最好先静下心来全面学习下基础知识。这就不得不提经典入门书籍:

SQL必知必会(第3版) (豆瓣)

MySQL必知必会 (豆瓣)

这两本书很入门,也很适合入门。没有很深奥难理解的理论知识,就是教你如何看懂 SQL 语言。

网络教程我一般就看下面这个:

SQL 教程 | 菜鸟教程

没有繁琐的讲解,只有每个语句如何写,以及案例的例举。

然后,你就可以尝试着开始刷题了,从简单的题型开始,给自己一些信心先。

SQL 刷题网站有:

SQLZOO

刷题当然少不了大名鼎鼎的 Leetcode:

题库 - 力扣 (LeetCode)

我之前也写过一些刷题攻略,供参考:

如何学习 SQL 语言?刷题!!!

佰初:面试数据分析会遇到的SQL题


  • 招式3:Python
Python 连续3年成为开发者最想要学习的语言。
2018年起,Python 进入浙江省信息技术高考,山东省最新版的小学教材也加入了 Python 内容。

Python 的火爆程度可能大家都有所耳闻。Python 对于数据分析工作者来说,是非常能够提高工作效率的,写一段代码,可以把一些重复的数据报表工作变成敲一遍回车键就完事。

而且,学会了 Python,后面你也可以在分析工作中做一些机器学习算法的开发。

经常有人问我,学习 Python 还是 R语言,很纠结。我是这么回答的:

废话不多说,先上一个大神的教程:

Python教程:廖雪峰的官方网站

再来一个菜鸟教程:

Python 基础教程 | 菜鸟教程

书籍类的资料也很多,推荐几本:

Python语言入门 (豆瓣)

Python编程 : 从入门到实践 (豆瓣)

利用Python进行数据分析 (豆瓣)

下面的回答是我当时学习 Python 的过程,可以获取一个 Python 的实战项目代码:

你是如何自学 Python 的?

点赞、评论留邮箱地址,我发送一些珍藏资料给你~

  • 招式4:可视化类工具

市面上有很多可视化的工具,Excel、Python 也可以用来做数据可视化的工作。

一般公司使用的第三方的可视化工具有:Tableau、PowerBI 等,也有很多公司是用的自己开发的可视化工具,比如阿里巴巴就是自主研发的。(说实话这方面我的经验不是很多,只是用过一段时间 PowerBI)

这方面没有搜集到特别好的学习资料,不过有一个经验,就是这类第三方的软件工具,官网都会有很完善的培训教程,也可以加一个对方的销售或者客服人员,拿到一些资料。

2 - 修内力

  • 内力1:数学基础

统计概率是数据分析的绝对基础。很多分析方法模型都是建立在统计概率学的基础上的。这也可能是已经工作的你,最难静下心来学习的。

所以,跟之前一样,先给一个入门级别的书,其实里面很多知识都是高中就学过的,帮你复习一遍:

深入浅出统计学 (豆瓣)

进一步的,可以看一些难一点的书:

统计学习方法 (豆瓣)

这本书是从统计开始向机器学习的知识过渡了。不过对于小白来说,确实有一些难度,阅读顺序可以往后面放放。

出除了蓝宝书,西瓜书也是很出名的:

机器学习 (豆瓣)

也有更深奥一些的:

数据挖掘导论 (豆瓣)

嗯,看不看就随缘吧。

网络课程也有很多讲数学的,墙裂推荐B站上的 3Blue1Brown,用动画讲述数学专业知识,生动形象,有时间可以看看。

哔哩哔哩:3Blue1Brown

还有可汗学院的统计学公开课:

可汗学院公开课:统计学_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

复旦陈纪修老师的数据分析课程:

数学分析 复旦 陈纪修_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

清华大学的数学建模课程:

清华大学 数学建模 课程_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili

清华大学出版社出品的在线学习平台:清华大学的文泉课堂免费开放,有很多高质量资源,有兴趣可以去翻翻:

文泉学堂

里面有很多计算机类和数学类的学习资源。

  • 内力2:分析思路

Head first 打头阵,这个系列很适合小白入门:

深入浅出数据分析 (豆瓣)

用差评来证明下这本书有多基础(笑cry~)。

如果你不认为自己是“毫无基础的中学生”,那就看这个:

精益数据分析 (豆瓣)

打造你的数据驱动思维模式,此书案例较多,涉及业务范畴比较广。

如果你准备找前端用户增长相关的工作:

增长黑客 (豆瓣)

这本书是国内的,整本书的框架就是漏斗分析模型,讲的是创业公司的增长之路。

“AARRR”转化漏斗模型,即: Acquisition(获取用户)、Activation(激发活跃)、 Retention(提高留存)、 Revenue(增加收入)、 Referral(传播推荐)

也有国外的版本:

增长黑客 (豆瓣)

增长黑客的理念是这本书最早提出来的,有空也可以看看。

还有关于网站的分析:

网站分析实战

最后在推荐一本麦肯锡分析师的经典书籍:

金字塔原理

这本书除了讲解了很经典的金字塔分析方式,还对“演绎”和“归纳”两种分析逻辑有很详细的讲解。

3 - 业务 sense

业务 sense 这一部分太大了。每个人从事的行业不一样,业务模式也都有区别。我就推荐两本我看过的书:

数据化管理 (豆瓣)

这本书通过小白进入零售企业从0开始学习的视角,讲解了各种数据分析方法如何融入到具体的业务场景中,最终形成数据化管理模型,从而帮助企业提高运营管理能力。教你如何量化目标,如何形成逻辑缜密的说服力。

如何用数据解决实际问题 (豆瓣)

该书作者在日产公司工作十余载,专门负责为高端决策层提供参考和支持,书中的很多案例都很接地气,适合小白阅读。

这两本书都是零售领域的,主要我一直在这个领域工作。其他行业我暂时没有特别好的建议和经验分享。

4 - 结语

如果看到这一堆书,一堆资料,佷懵。那对于小白来说正常。

可以先点赞、收藏(嘿嘿嘿~~),目前只挑每个模块入门级别的书和资料来看。

而且最好是结合: 3个月拿到数据分析offer~ 里的节奏来学习,给你规划好了应该先学什么,后学什么,怎么找数据来实战。

最后说一句:

数据分析是一门跨学科的学科。对于小白来说,这是机遇也是挑战。机遇是说:就算对于科班(数学类专业)出生的朋友来说,也还是要学习IT、所在行业的业务逻辑、分析思路等很多知识;而且数据分析的岗位也会越来越多( 数据分析师的前景怎么样?),数据分析(数据分析日常工作做什么: 分析+监控+沟通~)的技能在其他岗位上也会越来越被重视。挑战就不多说了,要学习的内容真的多,保持学习的状态很重要。


最后,一如既往的,附上我的数据分析大礼包:

  • 希望投身数据浪潮的盆友,可以看这篇回答: 3个月拿到数据分析offer~
  • 数据分析师学习清单: 超级菜鸟怎么学习数据分析?
  • 转行时如何做出下一步选择: 如何知道自己喜欢做什么职业?
  • 数据分析师日常工作是什么?
  • SQL系列:
  • 6000赞实战题目分享:如何学习 SQL 语言?刷题!!!
  • 新整理的 SQL 面试题: 面试数据分析会遇到的SQL题~不定时更新~
  • PYTHON系列:
  • 做到这些就可以精通Python:编程零基础应当如何开始学习 Python?
  • 我的零基础 Python 学习经验分享: 你是如何自学 Python 的?
  • Python入门案例: 什么因素最影响房价?
  • 数据分析实战技巧一:如何进行A/B测试
  • 数据分析实战技巧二:假设检验入门
  • 数据分析实战技巧三:Python 可视化

祝大家能够在大数据的浪潮里淘到金子~

5万收藏,只有1万赞~希望大家能够帮忙点赞~给我持续更新数据分析干货的动力~谢谢~

s.zhihu.com/B2C4r (二维码自动识别)

编辑于 2020-12-25 22:30

作为互联网营销从业者的我,在开始什么也不太懂,当然也是一个超级菜鸟了。直到我有一天在网上看到了它: 数据分析篇2:数据分析帮你实际解决的10个问题,我才知道原来数据分析对于网站的运营,乃至是对于整个营销流程来说,都是非常关键的一环。没有数据分析,就没有反馈,营销效果就不能得到评估,当然也就更加无法知道这次的营销好在哪,差在哪,也就没有任何可以对整个营销流程做进一步调整优化的可能了。

那么,作为一个超级菜鸟,该怎么学习数据分析呢?

既然是学习,那当然是先掌握基本的数据分析知识。我是互联网营销从业者。就以互联网营销当中要用到的数据分析来为题主解答一下。

首先,我们先来认识一下最常见的数据分析工具。基本上很多企业做常用的就两种:国内百度的百度统计,以及国外Google的Google Analytics(GA)。而通过对比使用,我们发现GA的数据统计更加的准确,而且实现的功能也更加齐全。

因此,接下来,我就以GA作为讲解,按以下讲解的步骤,大家就可以一边学习,一边自己练习,然后就可以直接用在自己的工作中,这样更有实际意义一些。这样也算是不会浪费大家的时间来看我的这篇文章。

好了,大家可以先去喝口水,下面就进入我们的干货环节。

学习分成3个阶段:0基础水平(毛都不会)、略懂皮毛(能监测到转化率)、初级水平(会制作你自己的自定义报告)。

知道你只看文字理解起来费尽,往后翻,每个知识点都给你做截图示例了,我现在有一种深深的老妈子赶脚。


第一阶段:零基础水平

你至少得需要了解GA的工作原理,如果你的网站,没有设置过监测链接,你至少知道如何跟你的工程师说“帮我把监测代码部署到前端页面”,以及如何设置一个你自己的监测链接,涉及到的知识点如下:

【1】了解GA的工作原理

很简单,一个网站是由N多个页面组成的,一个页面是由N多行代码写出来的,当用户访问你的网站时,浏览器就在:加-载-代-码!所以GA会给你的网站生成一段代码,当工程师同学把这段代码放到你的网站页面时,用户来浏览你的网站,先加载了你的监测代码,这时候用户的信息就留下了,你开始可以看到数据了。

找到网站的跟踪代码,如图:

【2】学会设置一条监测链接

设置检测链接不用多解释了,就是把一条正常的链接,加上可被GA识别的监测。

比如踏浪实操教学网站中的一个课程页面作为我的监测目标链接,原来的链接是这样的:

这就是一个正常的、没有加监测的网址。

而对这个目标链接加了监测就是酱紫的,如下图所示:

大家看到了,这里面source,也就是来源,是ZhiHu,因为我选择在知乎上进行推广,这里面medium,也就是媒介,是HuiDa,就是我设置的,意思就是通过回答知乎网友的问题进行推广,这里面广告系列名称campaign,你需要写一个你能看懂的规则,我在这儿写的是zhihu0529hq,后面那个0529就是日期,hq是本人的名字首字母,便于以后方便做自定义报表进行数据分析。

至于在哪里制作你的监测链接,附上网址构建器地址 support.google.com/anal

(注意,因为是Google的数据分析工具,所以需要翻墙后才能使用):

再给大家找个例子,借一下 苏文阁同学的数据给大家看一下:

【3】查看监测报告

阅读数据报告不多说,提3点吧。

第一,在GA里面的菜单栏,选择查看【来源/媒介】,再加上你的时间维度,可以看到一段时间内的全部流量来源。

第二,你设置过的监测链接的这些数据,比如,你在微博发布了一条内容,附上了加了监测的链接,你要查看这次微博的引流效果,这时候你需要在【广告系列】查看你的数据。

第三,GA提供了很多数据筛选器,比如你要看一天内各个时段的用户行为,就是用对用的数据筛选器。

从广告系列里面看设置了监测的数据,如图:


ok,到这里你已经学会制作监测链接,并且能看到数据了。

这意味着你可以开始算真实流量的获取成本了。

之前总是关注微博转发评论数,微信阅读数的同学,可以醒醒了。现在你可以看到真实的渠道引流效果,然后做一个小学除法,你就知道你花钱了多少钱,带来了多少个真实流量,每个流量你花了多少钱。

零基础水平的你,这下终于有一点料去跟别人吹吹牛逼了对吧。

第二阶段:略懂皮毛

ok,你现在已经学会怎么设置监测链接,但是你还不知道流量来了之后,转化率到底怎么样,第二阶段你要学会这些,包括对提高转化率有帮助的一些功能。


【4】监测目标达成结果(goal)

举例,当用户付款成功后,会来到一个/success的页面,你可以把这个页面作为目标(goal)。这样你就能知道,【有多少人】,【通过什么广告】,【最终完成了付款】,你在百度通过竞价排名投放了一个广告,花了200块钱,带来100个流量,带来一个转化,也就是1%的转化率,你的产品单价是2000,也就是说,你花了200块,挣到2000块(没刨除成本,仅仅举例),所以你才知道,对应的这个SEM百度创意,是划算的,所以你继续增加投放。这就是goal给你带来的数据意义。

如图:


【5】知道用户用什么浏览器或设备浏览你的网站,用户是什么地区

你可以通过GA知道网站访客使用什么设备,以此来调整宣传内容,举例,你在微博投放了一个广告,你放上了一条链接,这条链接来到了一个制作精美的网页。但是一直用户停留时间很短。你巨费解,这时候你用上了GA,你吃惊的发现,70%的用户是手机访问你的网站,而是你的网站,在移动端根本没有适配,你现在整个人都不好了对不对。

还要注意的是,不管你投放百度竞价,还是其他媒体,在投放过程中,都涉及到一个【投放维度】的选择,地域是一个重要的维度,一个适合一线城市的产品,投放到农村,这事儿就不好玩了,所以你需要通过数据,清楚地知道你的访客都是什么地方的人。

浏览器:

城市:


【6】实时了解用户行为

这个很容易理解,就是实时看到你的网站有多少访客,有多少是新访客,多少是老访客,大家都在分别看什么页面,这个功能对于一个大的营销活动来说,实时观察用户行为,很有必要。

如图:


【7】了解用户喜欢在你的网站上做什么

了解用户行为,既属于营销问题,也属于产品问题。针对营销人员,当制作了一个营销的着陆页面时,需要根据数据调优页面,针对产品人员,就需要对整个网站、或者APP产品进行基于用户行为的产品调整。

如图:


【8】知道用户达到你的网站目标之前,都做了什么(行为流)

这个相当重要。不管你是做一个电商网站,还是做一个社区网站,都有自己的目标。以电商网站为例,显然目标是付费,那么这时候,清楚的了解付费用户在付费之前都做了什么,非常重要,因为这意味着你可以在网站产品、营销内容上做调整,把用户最希望看到的页面呈现给他。

如图:


第三阶段:初级水平

这时候GA给到你的模板工具已经满足不了你的需求了,随着数据量越来越大,你开始需要自定义数据报表,简单理解,就是你在微博天天都发内容,回收了很多数据,但是你总不能每天数据自己去做加法来看整个渠道的数据情况吧,所以我们制作自定义报表,通过正则表达式,来把自己需要的数据筛选出来。

【9】制作自定义报表

举例,你分别在2天,发布了3条微博链接,分别设置的监测规则为:1008weibo1、1008weibo2和 1009weibo1。我们发现这些监测规则的格式是统一的,所以我们可以把统一的规则,通过正则表达式筛选出来,在计算机的眼里,这个规则是【4位数字】+【weibo全拼】+【1位数字】

如图:

OK,希望通过我以上的讲解,你能够边学边用,掌握以上九点之后,你就已经算是一个初级的数据分析人员了。相信会对你的网站运营工作带去很多帮助。

另外,你想详细学习数据分析,并且希望还有经验丰富的老师在实战中指导你,让你零基础都能掌握的话,良心推荐踏浪100【 专注互联网营销知识】,它让我系统性的认识到了互联网营销,而数据分析又是互联网营销中的重要一环,你可以了解下,它帮助了我,我想它也能帮助到你。

编辑于 2020-03-22 17:54

讲一个不懂编程也能入门的路线。


说到超级菜鸟:女生,二本,市场营销专业,别说vlookup连sum是啥都不知道,代码一个字母都不会,平时工作连电脑都不咋敲,这个应该够超级菜了。(确实是个小姐姐,没有性别歧视的意思哈)。唯一的优势就是颜值还行。小姐姐毕业后去了某个银行信用卡中心做业务员。某段时候我在做银行项目,广泛体验各个银行的信用卡,于是就这么机缘巧合的认识了。100%出于想了解银行发卡模式,而不是被小姐姐颜值吸引的原因,我很认真的和她聊了平时的工作情况。得知这个小姐姐业绩非常的好,团队Ace,每月激活卡100张以上,个人收入估算接2w以上了。


有意思的是,小姐姐对我的工作也很感兴趣。她问我:“如何能转行到后台做工作?”我很惊讶,为什么收入这么好还想转数据分析呢?不觉得没钱途吗?要知道很多号称“数据分析师”都没有一年25万的。小姐姐表示:因为跑业务太辛苦了,风吹日晒,而且一天不做一天没收入,这日子没法过下去了。“还是你们后台好,对着电脑敲敲就有钱拿,为啥不做”。100%出于分享知识的考虑,我和小姐姐做了深度沟通。发现对于已经工作的同学而言,转行有着至少三大难关。


第一,曰:没精力。作为一个Ace销售,小姐姐性格非常独立坚强。想要她放下工作,关门谢客,再交上几万块培训费去读个培训班是非常不现实的。人家已经习惯了照顾家人而不是被人照顾。而且处于工作敏感性,她也不信任那些培训机构的销售:“还交一万九年薪五十万就业,他自己怎么不交一万九还在这卖课?”好吧,这个逻辑简直无懈可击


第二,曰:没基础。我也试着向小姐姐介绍sas,不过真的是一个字都看不懂。“我在学校都没搞懂,现在咋可能搞懂”好吧,又是一个无懈可击的逻辑。那试着介绍一下spss吧,可视化戳戳戳总行了吧。结果发现光安装就卡了好久。而且一点统计基础都没有的话,也不知道戳出来是个啥。


第三,曰:没记性。我转了一些文章让小姐姐看,基本上前脚看后脚忘。因为工作中用不到。实际上,我自己也有这种感觉。工作中用不到的东西,即使对着学了忘的也特别快。因为平时不用啊,就靠对着课本练,脱离书就是个呆子。


咋办?我认真思考了问题的关键:如果能找到一个工作中就能用到的例子开始训练就好了。真是完全没有基础的话,一上来就列一堆信息、公式、概念只会把人绕晕。如果能找个简单的方法让她理解到:什么是数据、什么是分析,后续如何做数据分析就是水到渠成的事。刚好我当时正在做相关的项目,优秀的销售和死蠢的销售都接触过,这一点极大的启发了我后来的思路。


我试着启发小姐姐的思路,从一个简单的问题开始:什么样的顾客容易成功?小姐姐瞬间打开了话匣子,列举一堆例子。OK,这里先不急着讲完所有故事,我拿出了银行信用卡申请表,问道:假设把刚才故事里的顾客特征对应到表上需要填的这些空格,该如何填?小姐姐愣了一下,然后开始笑话这些申请表能记录的信息太少,很多信息需要销售直观判断。OK,我继续引导:所以这里就有两类信息:一类容易记录的、客观的、格式化的数据,一类难记录的、主观的、个性化的数据。然而,后台的工作人员远在千里之外,他们无法直面顾客,他们只能通过能记录的数据来判断,考虑做什么样的政策,出什么样产品。所以,如果你真想转到后台去的话,你就得想办法:要么从现有的有限的数据中得出结论,要么把主观的数据合理记录下来。


小姐姐似乎想到了什么,然后开始说:那样的话,这里哪几个字段可能最有用处,这里哪些字段其实都是销售们瞎填的。如果真需要添加的话,能不能添加1,2,3,4个维度,而且为了防止一线的销售们瞎搞,还可以配合比如工牌照片、人车合照等等办法。我们边聊,边拿出一张值,把可以用的、有问题的、需要添加的字段都记录下来,并且标上数据格式,填写规范等等。完成以后,我开始介绍:这就是后台部门面临的数据库的简单样式,有字段、字段属性、数据来源、数据真实性、数据清理等等等问题。小姐姐似乎一下恍然大悟,这样讲比一上来讲什么数据仓储容易理解多了。


于是我趁胜追击,开始引导一下阶段问题:你看,你一个月能做100多张卡,有没有计算过办哪些卡,总收入更高?(不同信用卡对应的提成,是否伴随贷款,是否开自动还款业务都会影响提成收入)。小姐姐开始认真考虑不同产品组合下自己的收入。之前也有考虑过,但从没有认真计算过数据,都是自己粗略估算或者听营销中心的日报。有了之前的基础,我们开始分解日报。利用一张最基础的含用户、卡信息的excel表,开始试着做数据统计,计算收入。因为和收入有关,所以小姐姐计算起来格外起劲。并且数据透视表、求和、平均值、if等公式用几次就会了。


于是我趁胜追击*2,开始引导一下阶段问题:你看,这些卡片销售数据和顾客特征结合起来,是不是可以看出来哪些顾客容易办哪种卡?(不是所有的申请表都会被批准的,多多少少都会退一批,填写规范下,过审率一般六成左右)。小姐姐一下兴趣被调了起来,因为被退卡是一线销售非常深恶痛绝的事,因此我们继续拿基础excel表练习,这次是练习交叉表。开始交叉分类看用户特征,试着用不同维度交叉,看哪些类型用户更容易被pass。尝试几次后,竟然发现销售们日常总结的审批规律,有一些还真有道理,甚至还反推出一些审批的潜规则。


于是我趁胜追击*3,开始引导一下阶段问题:你看,你作为这么厉害的销售,肯定有些人会比你差。你和他们比,他们差在哪里。小姐姐又一下兴趣大开,讲了一堆很具体的行为差异。OK,我们回归一下,把这些具体事件中的可以用数据量化的部分截取出来,把那些不能用数据量化的部分,看看是否能有字段记录。这样再归纳以后,就找出来衡量销售行为的基本指标,进而导出了分析团队业绩的基本思路。(实际上,我直接分享了部分项目结论给她。自己解读数据是个很好的尝试思路,但是一个0基础自学者,自己总结结论还是太难了)。


完成这几步以后,小姐姐已经基本具备了数据分析的初级能力,还差临门一脚:简历要怎么投?因为数据分析范围实在太宽泛了,即使做了训练,以小姐姐的能力投开发类岗位也实在是天方夜谭。好在银行里各个分行、营销中心都有数据专员的岗位,这些岗位主要任务就是做销售数据分解和解读,小姐姐的能力非常适合。最后临门一脚,帮小姐姐包装一下简历,一顿饭的功夫,突出一下在分析问题上的经验和能力,之后便一投即中。虽然薪资降低了不少,但是还是如愿做了不用风吹日晒的后台工作。


后来,听说小姐姐嫁了人。俺也在太太的监督下,清空了所有这种100%出于学习分享目的讲过一大堆话的小姐姐的联系方式。后续的情况不得而知。但这确实是我指导过的,最有挑战性、最0基础、也最快速实现转行的例子了。前后用了没俩月。回想起来,小姐姐虽然数学和代码基础差,但有几个优势:


第一,业务能力强。对业务流程非常熟悉,有丰富实战经验。这样很容易找出业务中的问题,就容易找到分析问题的思路,看到数据也容易明白含义。第二,思维逻辑性好。比如第一步总结顾客特征,她可以很快理解我的用意,把那些一个个具体的人,归纳成:39岁、小企业主、500万经营收入、本地人等等字段。数据分析是以字段为基础的,这一步如果理解不了,就真的深入不下去了。我也见过很多思维方式特别感性的人,就是卡在这一步,始终无法把一个具体事情抽象成一组数据,后边的分析也就无法基于数据进行了。他们更多是基于感情、直觉做判断,把数据分析的过程视为一个黑箱,等着听结论。第三,动手能力强。Excel操作几次就会了,没有耽搁很多时间反复练习。第四,公关能力强。营销中心、卡中心她认识不少人,直接拿到了内部一些数据表做练习,进步非常快。这个真的是用模拟数据无法比拟的优势了。


而我只是起到一个穿针引线的作用。找了一个好的切入点,吊起来她的兴趣,让她能坚持思考下去,而不是半途而废。或者装着一脑袋和工作完全不相关的东西,完全不知道学了有什么用。其实数据分析,是数据+分析组成的。技术上如何生成数据是一个切入点。业务上如何做分析也是一个切入点。能从问题出发的好处,就是能以始为终,很快找到思路。当然,这是以能理解数据字段、数据来源为前提的。


当然,这是极特别的个案,其实但凡有一些excel、sql基础,上路都不会这么艰难,也不需要那么强公关能力或者颜值什么的。即使看起来行业差的特别远,即使岗位看起来特别奇怪也没有关系。因为数据分析其实是职场的一项基本技能,在哪里都有用,在哪里都能练习。


比如我遇到过一个三线城市做拖拉机设计的男同学。他想转数据分析,但满眼望去,都是“互联网数据分析XXX”。感觉自己的工作跟数据分析,跟互联网很遥远。然而我不这么认为。我提示他:你做设计,也分创新设计和改良设计。如果改良,你要改哪些款?为什么选这些款?是销量不好,还是故障率高,还是用户口碑差?如果是销量不好,怎么判定好?数据从哪里来?标准怎么定?


拖拉机哥认真想想,忽然觉得恍然大悟:是哦!平时会走访市场,会看不同省市区的销量,还会看售后服务的数据,就是从来没认真思考过这些。平时工作都是拍脑袋,看着哪个月问题多了就做个市场走访,收集收集问题回来写报告,从来没认真思考过到底什么数据算好!这么一说还真的有挺多东西可以挖的!


我继续鼓励他:是滴,这就是一个项目了!因为有明确的目标:改良产品,有明确的时间限制。如果你再主动跟踪下,你们改良后的产品批次是否故障率下降,这就是成果。这就是标标准准的一个数据驱动产品迭代升级的例子。谁说传统企业没有数据思维了,只是大家都习以为常了。


还是拖拉机哥,在整理了思路后,觉得自己有信心了。但他想面试的互联网公司大部分都要求python,SQL一类经验,在现有岗位上确实没得练习。还是得练爬虫。我又提示他:做产品研发,你们肯定会参照竞品是不是?以前的竞品信息八成是手动更新的吧。你可以把爬虫技能拿来练习爬竞品产品信息啊,从官网上、从阿里巴巴,反正只要能找到信息的都可以爬。这些可是货真价实对你工作有用的呢,不比爬什么拉勾网管用。


拖拉机哥恍然大悟:是啊,这样还能显得利用爬虫提高了工作效率,还能进一步分析,自学的也与工作结合了。这个例子敢拿出来讲,当然是happy ending,拖拉机哥如愿离开内地三线城市到了魔都成为一名互联网数据分析师,薪酬翻了1.5倍。虽然在陈老师看来,他那个薪酬在三线城市不少了,但是人各有志,达到自己的目标就好。


类似的例子还有很多,比如财务的同学可以练习ROI分析、做经营分析;比如运维的同学可以练习项目开发资源管理的分析;比如做销售的同学可以练习目标客户与销量分析;比如做开发的同学至少接触过数据可视化。其实,数据早已渗透进工作方方面面,对转行的同学来说,最大的敌人是:“习以为常”四个字。太多的固定思维,导致对数据不敏感,导致分析能力下降。导致看不到自己工作中的数据应用,导致过份依赖网上所谓“干货”。然而收藏的东西固然多,买的书本固然厚,能看完吸收的又有多少?


写sql,python是一种技能,数据分析是一种能力。技能可以照抄,能力需要锻炼。不练,永远不会。与大家共勉。


更多分享,可关注公众号:接地气学堂

扩展阅读: 如何在业余时学数据分析?

编辑于 2018-04-10 23:30

我是一枚做过产品运营,策划,数据分析,数据挖掘,在游戏行业浸淫多年的最老的90后。

之前在刚毕业加入互联网这行的时候,也很焦虑也很着急,那会儿特别想做互联网产品序列的工作,但是脑袋里一片浆糊,不知道从何入手。

我先说说我的经历,然后再顺着我的经历讲数据分析这块的学习和提升的方法论,避免大家少走弯路,能用正确的方法快速成长。

我刚毕业那会儿是13年,面了很多网络游戏公司,因为从小特别热爱游戏,也面了很多互联网公司,因为那会儿移动互联网刚起步没多久是一个风口,自己也挺喜欢,最终还是选择了游戏行业,因为还是遵循内心最真实的想法,选择自己热爱的领域作为未来的事业,这个选择一直到现在我都觉得很正确。

13年那会开始以管理培训生的身份到北京的一家知名游戏公司实习,机缘巧合,被选拔到了上海分公司做产品运营,负责一个moba+rpg项目的商业化和产品调优模块,刚去那会儿哪儿会这些专业的东西啊,去的时候甚至连封闭测试的目的都不知道,后来也是一个个问在工作中打磨出了方法论。说实话当时负责的是商业化和产品调优模块,如果你没有数据,你怎么去给研发提调优建议,怎么去设计商业化活动,如果商业化活动有问题你连调整的依据都没有,所以从那儿开始就开始接触数据分析的工作。

最开始的时候,我们内部对于用户流失的指标定义有很大的歧义,但是如果这个指标不确定下来,我们接下来的分析的结论会出现很大的偏差,最终会影响我们的调优决策,从而影响最终的业务,当时因为年轻也没有考虑太多就按照公司统一标准来,但现在转过头发现,真的很坑,当年的很多结论都是不对的,严重影响了大家的决策和判断。这里提到第一个点,叫做:业务数据指标的定义。这个东西至关重要!!!

当我们有了业务指标的定义的时候,需要去确定很多东西,比如说观测数据的维度,统计的周期等,比如拿一个最简单的流失分析来说,可能我的分析思路是抽丝剥茧,从大到小,逐项缩小范围的分析方式,那么具体分析的时候怎么分析呢?很多人都知道是看流失时的等级,如果等级看不出具体问题,还得到任务,如果任务还看不出来要到具体的客户端点击,当然这些都只是常规的操作,甚至如果有足够的经验和积累,不用做分析都大概知道哪里有问题,我们需要的分析不仅仅只局限于此,而是要更加的深入,深入的玩家背后的动机。这里提到第二个点,叫做:数据观测的维度,和统计的周期。这个东西同样直观重要!!!

在上海做了一年的产品运营之后,后续我调回北京总部,担任数据分析师,我是从普通数据分析师一步步走上管理岗位的,现在是公司业务数据部门的负责人,当然在15-19年这四年的过程中,对于产品设计,产品运营,数据分析,机器学习等相关领域均有比较深度的涉猎,所以在数据驱动业务这个事务上还算处理得比较得心应手,也推动了公司往“数据驱动”和“精细化运营”的方向发展,公司在这块的投入也逐步加大。

在这里,对于新人而言,我不会只推荐一些没啥卵用的书籍给你,比如《深入浅出数据分析》,这种书一点用都没有,我会给你推荐有用的书籍和实用的学习方法,看不好的书,看无用的书,往往感动了自己,却感动不了他人(你的上司和合作伙伴),你的能力并没有得到提升。

对于数据分析的小白而言,对于我现在培养的应届生而言,我有如下几个要求:

第一,技术需要过硬:

1)sql语句,你必须要给我学精通了,增删改查,以及存储过程你都需要样样精通,这块的话,给大家推荐一个学习地址,如果大家感兴趣或者有问题可以私信我要我之前整理学习文档资料

2)python,python的学习是为了让你后续处理繁杂庞大的数据集时更高效更方便更快速,以及后续有很多机器学习也好,或者深度学习也好的应用项目你能上手。这里推荐一个学习地址,大家可以多看,如果有问题可以私信我要我之前整理的学习文档资料

第二,掌握或精通一部分常用的数学原理:

1)基本数学原理,统计相关的原理,比如平均值,方差,标准差,导数,反函数,拉格朗日等等,这里大家可以去csdn也好或者淘宝也好买一本相关的书籍就够用。

2)机器学习算法原理:回归算法,分类算法,聚类算法等等,比如最简单的分类算法:决策树,他的数学原理你真的掌握吗?信息熵和条件熵是啥意思,怎么计算的知道么?如果你只能调包,那么解决简单的问题ok,涉及到很多复杂的情形,比如样本不均衡,比如特征过少时,你就无从下手。这块的话,推荐大家多去逛逛csdn这个论坛,很有用,能学到不少东西。如下链接大家可以翻译成中文好好看,如果需要详细的算法原理资料,可以私信找我

3)动手做一些虚拟案例,或者参与组里同事的一些项目,比如一个游戏内广告聊天拉人识别的项目,其本质是通过分类算法达成文本识别,这块涉及到的知识点可能有:文本处理,分类算法应用等,这块可以多去github上转转,有一些也许是已经运营过的案例能够给你启发的。

第三,不断加强自己对产品的感知力:

1)如果是游戏行业的:

  • 多玩不同品类的产品,每个品类选择1-2款精品深度体验,注意是深度体验,而非浅尝辄止
  • 随着版本迭代深入体验,并且需要思考每一次的版本迭代和周更新的原因,反推业务需要解决什么问题
  • 带着问题去玩游戏,边玩边记录自己的感受,有经济能力就充点小钱,后续商业化分析部分会用得着
  • 做个有心人,记得多游戏横向之间做对比
  • 不要看gamelook等媒体上的测评稿,那些大多数是枪稿,要自己去体验,用心去体验,不要人云亦云
  • 多跟制作人层面的人交流宏观的设计理念(如果有机会的话),多跟数值策划学习数值规划的流程(职业,属性,战斗公式,属性配比放出,商品定价,游戏内经济流转设计等),多跟系统策划学习系统架构的知识(做一个系统目的是啥,是为了解决什么问题?),多跟产品运营学习运营知识(比如商业化设计,活动设计等等),多跟市场发行的同学学习相关知识(营销方法论,买量等),还有很多,不一而足...
  • 这里推荐几个有用的资讯门户或者app:腾讯GAD,游资网,机核网
  • 另外推荐一本书:《游戏设计的艺术》,这本书能带你进入一个前所未有的世界,并且从入门到精通都可以随手翻的工具书,注意是“设计的艺术”,而非“分析的艺术”

2)传统互联网(非游戏):

  • 多体验互联网产品,要多而广,因为互联网产品跟游戏产品还不一样,他的体验成本(时间和精力)比具体游戏产品小很多,所以尽可能多而广,我现在仍然保持着每周至少体验5个新互联网产品的习惯,比如社交类的,可以多体验体验陌生人社交的,熟人社交的,多思考产品之间有什么共性和不同点
  • 带着问题去体验产品,主要反推产品做成这样有什么好,有什么不好,产品主要为了解决什么问题,他的业务目标有可能是什么样
  • 经常跟圈内人去探讨和交流,跟游戏不一样的是,互联网有很多的沙龙,可以多参加这种沙龙,但是不要杂而广,要专而精,现在有很多的沙龙就是为了做而做,为了感动自己而做,这种没有必要参加
  • 时刻关注竞品,比如你是社交产品公司的,那么微信也好,陌陌也好,每一次版本迭代,你都需要去思考他为了解决什么问题,然后结合具体的内容去评估他的目的是否达到。
  • 这里推荐1个能获取到较新互联网资讯的app:36kr,用这个基本上就足够了

第四,多做数据积累,多思考,多提问:

我们在做具体的数据分析的时候,有时候需要快速响应业务,有时候通过传统分析方法很难找到问题点,这个时候积累就至关重要,游戏行业的产品决策,40%依靠数据,30%依靠用户反馈,还有30%依靠经验,这个经验就是积累。

积累是什么?积累是过往的产品调整,活动设计,跟数据之间的关系,我们只有在每一项工作都认真严谨对待的基础上,这个积累工作才能做好,这样你的产品和数据敏锐度会越来越高,后续你可以跨界成为产品专家。

第五,给自己的定位不光是数据分析师,而是半个产品或运营负责人

我们有很多的数据分析师,一直都处于很被动的状态,业务提什么需求你照做,久而久之就变成一个机械式地接需求完成需求的人员,毫无存在感。怎么改变这个现状呢?第一是要多做积累就如同上述第四点所说,这块急不得需要时间,第二是需要主动,把自己当作半个产品或运营负责人来对待,这样面对日常数据的时候,你会主动去完善日常监控指标,你会每日去盯着数据的异常和变化,你会根据这些异常和变化往下去进行深度的挖掘,或者数据没有异常时,按照经验这个阶段该做什么分析了,赶紧做,发现了问题或者潜在风险赶紧跟业务聊解决方案,这样才能将数据分析师的价值发挥到最大

以上五点,我认为是针对小白学习数据分析必备的方法和心理建设,职业道路漫漫,希望各位一切顺利,这是我第一次发这么长的回复,还希望各位支持,后续我会陆陆续续开通个人专栏和订阅号,争取多跟大家分享数据分析,数据挖掘,机器学习应用的一些案例,大家一起提升。

如有问题,随时私信我。谢谢大家。

编辑于 2019-08-26 14:33

在数据分析一线,工作多年。也曾经指导过数据部门建设,培养过数据分析产品经理,这个问题我从商业分析角度,答一下。

商业数据分析,并不神秘,和其它工作领域入门一样。

纸上得来终觉浅,绝知此事要躬行,重要的只有一条,多动手,实践。

我反对入门学习,大量的知识,理论,图表。

数据分析和数据运营入门非常容易,只要从案例分析开始,经过程而得结果,自然可熟悉而上手

数据分析方法,并不像做产品经理,或者做程序设计,涉及知识面广,需要练习时间很长。

掌握核心方法,并不难。在实际项目中多锻炼即可。

对于数学也无须担心,基本,以及进阶商业分析,一般都是用到小学数学已然足够,并不需要高深数学知识和理论。

总之,实践最重要。

从最近的疫情举例,讲几个基本方法,进阶商业分析,这些也是基本且重要的分析方法。
大家可以尝试着,从案例入手,做个小练习。(主要是为了易于理解)

下面,是数据分析的几个过程与重点项:

第一:排除异常数据

异常数据

2.12日,疫情数据暴增,如果这是一张普通的商业数据表格,这一天的数据可以排除掉。
仅做为部分参考。因为2.12号增加临床诊断,放在商业实战中,数据定义发生改变。所以一般,当天确定为异常数据。暂不作为分析,否则单看趋势,已经吓死人。

作为疫情数据,大家要看,因为这太重要了。如果这里是业务数据,这个数据暂不用做分析而导出结果。
商业分析中,也会出现数据突变,数据分析的第一步,是先排除异常数据。

切莫直接切入分析中,会出现大量误判。

(异常数据处理不当,是初中级数据分析,产品经理,运营经理常犯的错误,初期数据分析岗位,运营经理,产品经理,在出现异常数据,强为之分析时,经常会掉进去无法自拔。)

这几个方向都可以是发展,晋升方向。


第二:数据采样

数据采样,最少要达到一定量级。
否则一般波动,变动无法分清。无法做为分析依据。

以武汉疫情举例,
起初,数例,以及几十例,上百例,如果以天,画出折线图,会极端上下摆动,图表呈现无秩序状。

作为疫情数据,是民生,是科学,需要集中去观察,以及后续结果。

作为商业分析,采样数据,在几个,数十个,样本量太低,无法呈现出趋势性,此时也先放着看看,暂不分析。


第三:观察波动还是变动

波动的数据无意义,仍然不用作分析,只有变动的数据才具备分析价值。

作以1.27至,1.30,数据呈现起伏波动,暂时没有方向。
作为疫情是民生,是大事,需要观察。

作为商业数据分析,波动数据,暂时只是看一看,仍然不作为结论依据。
在31号,之后,数据逐日提升,是明显的数据变动,可以做为预测未来的依据了。

数据分析重点,是找出变动数据。

第四 观察增减变化趋势

根据数字变化,观察增减变化趋势。

自1.31号之后,趋势明显,逐日抬升,数字变化,是必然波动变化,趋势始终向上。

这条线,就是商业分析中,需要找到的趋势线。



第五:找到导致增减变化的原因,改进产品和业务。

在这里疫情和商业分析方式是一致的。疫情分析,数据始终向上,已导致国内恐慌之极,已然是一场大难来临,于是,关城之后,纷纷,社区防控,两天一出门,层层加码。
甚至武汉更严,所有人闭户不动。

在商业上面,所有的互联网企业,毕尽全员资金,技术,人力,无非在寻找一条昂扬向上数据,导致它的原因,究竟是什么,产品的,推广的,运营等等。

放在业务功能上,可能是运营做了推送,产品增加了功能,商务做了新的推广。

第六:变量锁定:

如果影响结果有5个因素,想知道某个因素带来影响是什么,注意要锁定其它4个,让其中一个变化,这样才可以得出结果。

再重复一下以上几个过程和重点项:

第一:排除异常数据
第二:注意数据采样
第三:观察波动还是变动
第四 观察增减变化趋势
第五:找到导致增减变化的原因,改进产品和业务。
第六:变量锁定:

作为菜鸟,可以试着从这几个地方学习入手一下。重要的仍然不在于理论(比如还有漏斗分析,数据定义,少即是多等等),多去实践。

我的一个数据实践经历:

我初在企业工作的时,恰好有机会负责一个主要业务,数据量特别大,整个公司上下均非常重视。
当时还不流行分时数据分析,但是业务数据会10分钟一更新。

在长达1个多月的时间,我把这个核心数据,每10分钟,纪录一次,放入EXCEL,这样最早的互联网分时数据,已然出炉。

在超过2千次纪录数据,刷新变化,观察变动,练习过程,让我收获巨大。

天下事大多如卖油翁一样,只是手熟而已。

我甚至比技术部负责人更清楚,何时服务器重启,何时后台进行切换。
更不用说何时业务做了修改,每一次产品上线

上线前后10分钟,发生了怎样的突变,导致这些变化的原因又是什么。

根本无须问他人,所有的变动都反映在小小的数字之中,趋势线会非常敏感感知出所有变化。
并且我用10分钟线,反映极其灵敏。

也是从侧面说明,菜鸟的数据分析,不建议看大量理论,真的的核心分析理论和大牛的简历一样,只需要一页纸。

初期入门学太多理论,没有什么用。更重要的是,在数据项目中,大量观察,大量实践,得出结论。

时间久了,你可能会发现,数据分析,可能是一件很有意思的事情呢。数据分析,做好了,成就感是满满的。

产品设计可能存在大量主观思想,数据分析,只分析客观结果。

数据能力,也是互联网企业核心能力之一,比如金融企业,金融大数据,数据能力更是重中之重。业务推动,核心风控,均和数据强相关。

当然,很多其它类型企业也会如此,比如ai,大数据,云计算,相关领域,数据也是重中之重。

数据分析,越久,会觉得越有意思,祝大家早日入门

大家在学习,职业上面需要一些指导,也可以在知乎上,通过音频,图文问答和我互动,我会尽力帮助大家答疑解惑,相信会对你有帮助。包括但不限于产品经理,数据分析,以及职业相关的一些问题。



如果对大家有帮助,也请你帮我几个忙:

1 请帮忙点赞,更多人能看到

2 关注我的专栏,会定期更新

3 如果有问题,评论区留言,我会协助回答

编辑于 2022-06-08 21:50

真!超级菜鸟入门必知——数据的一生

在开始学习数据分析之前,可以先来了解下从数据的产生到应用的全过程,这样才能好的理解数据,做好数据分析。

第一步:数据的产生

数据分析里面的数据是怎么产生的?用我们熟悉的APP来举例:

用户在使用图书类APP的时候,可能会先打开应用,把一本喜欢的书加入书架,然后开始看书,最后把书关掉。

这个过程中用数据表达怎么说?

一个北京的用户使用了一台iPhone11手机,下午17:55的时候,打开了一个图书应用,并且加入了一本书,阅读了5分钟,结束关闭。

这一连串的过程中都会被记录在日志当中,这些日志记录的内容就是数据的基础。

第二步:数据入库和储存

APP日志的内容会通过信号发射塔上传到服务器里面,形成一个数据库。

在数据库中我们需要做三件事:

  • 需要对数据做整理
  • 需要对数据做分类
  • 需要对数据做存储

经过这样处理后,所有的日志数据就会形成一个个不同的板块。

第三步,数据加工和计算

有了这些存储的日志数据,下一步就要开始做数据加工和计算,把日志数据转换成运营能看懂的业务数据。

简单的来说就是用计算服务器把这些数据算成我们需要的一些内容和格式。

比如把APP下午5点的一次启动,转换成我们常见的DAU这样一些指标。

第四步:得到业务数据,进行初步分析

通过计算加工后会得到一些数字,但这个时候我们还是不能用来分析。因为单个数字不能体现出规律,这个时候就需要用一些表格或者是图形来展示这些数据。

比如说我们常见的DAU图形,它可能是一个折线图,它的纵轴是DAU的高低,横轴可能是个时间。

得到这些数据后我们就可以开始数据分析的工作,比如分析DAU趋势体现的问题。

当然,数据的应用到这一步还没完,随着业务的进一步发展,运营人员经常需要去找到一些潜在的业务问题,这个时候就需要对数据进行深入的分析。

比如我们想知道北京地区的 iPhone客户的数据变化,这种情况下就需要多类数据交叉结合其起来进行分析。


除了常规的业务分析之外,数据还有更多的玩法,这里举两个例子。

例子1:数据可视化展示

第一个例子是把数据进行可视化展示,PPTer必备技能。比如说我们经常会看到一张大的地图,这张地图上可能会分省份标识,这个地区上涨了,这个地区下降了,甚至有一些不同的色块来表示大大小小的增加或者降低或者维持不变,这样可以清晰得看到业务变化的情况。

例子2:数据挖掘

数据挖掘这个用法也很常见,在业务发展到一定规模之后,我们会很难从浅显的数据中发现新的业务机会或者问题,但它们会隐藏在很多平时看起来没什么关联的数据当中, 如果我们想从这些潜藏、零散的数据当中挖掘出有效的信息,这就会涉及到数据挖掘的过程。比如说我们常见的个性化推荐,它就是数据挖掘的后应用的成果。

关于数据的产生和应用我就说到这了,友盟学院也给大家准备了免费的数据分析课程,可以去看看。

参考资料:

1、 数据的一生——数据应用的场景梳理


以上,感谢阅读!

如果你想获取更多运营知识,还可以看看这些问答。↓↓↓

  • 数据埋点: 移动应用如何埋点收集什么数据以便于统计分析?
  • 消息推送: 消息推送(push)对app运营的影响有哪些?
  • 用户增长: 有哪些通过产品上的精妙设计实现用户增长的例子?
  • 小程序推广: 小程序怎么做运营推广?营销该怎么玩?

❤看后三件事❤

如果你觉得这篇文章对你挺有启发,希望你可以帮我三个小忙:

1、关注 @友盟全域数据, 让我们成为长期关系;

2、点赞,让更多的人也能看到这篇内容(收藏不点赞,都是耍流氓 -_-);

3、评论,让我第一时间了解你的真实想法;

谢谢你的支持!

编辑于 2020-07-12 10:27

作为一名数据分析的新手,学习数据分析重要的一点是要建立数据分析的知识体系和方法论。

这两年,随着大数据、精益化运营、增长黑客等概念的传播,数据分析的思维越来越深入人心。人人都知道数据的重要性,但是却一直困扰于如何做好数据分析工作。

那么该如何搭建自己的数据分析知识体系?数据分析的价值又在哪里?做数据分析有哪些具体的方法?又如何学习数据分析?本文将和大家分享一下这些问题。


Part 1 | 数据分析体系:道、术、器

「道」是指价值观。要想做好数据分析,首先就要认同数据的意义和价值。一个不认同数据分析、对数据分析的意义缺乏理解的人是很难做好这个工作的。

「术」是指正确的方法论。现在新兴的「Growth Hacker」(增长黑客)概念,从 AARRR 框架 ( 获取、激活、留存、变现与推荐五个环节)入手进行产品分析,这是一个非常好的分析方法。

「器」则是指数据分析工具。一个好的数据分析工具应该能帮助大家进行数据采集、数据分析、数据可视化等工作,节省时间和精力,帮助更好理解用户、更好优化产品。



Part 2 | 数据分析的价值

数据分析不能为了分析而分析,而要将落脚点放到业务、产品和用户上。以产品经理为例,数据分析应该帮助产品经理不断优化产品设计和迭代,驱动产品和用户增长。


当我们上线了一个新的产品(product)或者功能时,需要对其进行数据监控和衡量(measure)。然后从监控中采集到产品的用户行为数据(data),并对这些数据进行分析和总结(learn)。最后从分析中得出结论和观点(idea),如果数据证明我们的新产品/功能是优秀的,那么可以大力推广;如果数据说明我们的产品还存在问题,就需要对产品进行新一轮的优化(build)。

在「产品——数据——结论」的不断循环中,我们不断用数据来优化我们的产品,加快产品迭代的步伐、提升用户体验。



Part 3 | 数据分析的方法

1. 流量分析

a. 访问 / 下载来源,搜索词

网站的访问来源,App 的下载渠道,以及各搜索引擎的搜索关键词,通过数据分析平台都可以很方便的进行统计和分析,分析平台通过归因模型判断流量来源,产品经理在分析这些流量时,只需要用自建或者第三方的数据平台追踪流量变化即可,第三方平台如 Google Analytics 、

GrowingIO

等;

b. 自主投放追踪

平时我们在微信等外部渠道投放文章、H5 等,许多产品都会很苦恼无法追踪数据。

分析不同获客渠道流量的数量和质量,进而优化投放渠道。常见的办法有 UTM 代码追踪,分析新用户的广告来源、广告内容、广告媒介、广告项目、广告名称和广告关键字。

c. 实时流量分析

实时监测产品的访问走势,尤其要关心流量异常值。举个例子,某互联网金融平台因为一个产品 Bug 导致用户疯狂抢购造成的流量峰值,产品经理发现实时数据异常后迅速下线该产品修复 Bug,避免了损失扩大。



2. 转化分析

无论是做网站还是 App,产品里面有很多地方需要做转化分析:注册转化、购买转化、激活转化等等。一般我们借助漏斗来衡量用户的转化过程。


影响转化率的因素很多,我们总结了三个大的方面:渠道流量、用户营销、网站 / APP 体验。以渠道流量为例,通过优选渠道并且量化分配我们的投放资源,可以有效提升总体的转化率。

更详细的转化分析方法,可以参考我之前的这篇回答

如何提升转化率? - 张溪梦的回答


3. 留存分析

在互联网行业里,通常我们会通过拉新把客户引过来,但是经过一段时间可能就会有一部分客户逐渐流失了。那些留下来的人或者是经常回访我们公司网站 / App 的人就称为留存。

在一段时间内,对某个网站 / App 等有过任意行为的用户,称之为这个网站 / App 这段时间的活跃用户,这个任意行为可以是访问网站、打开 App 等等。

现在大家经常会用到所谓的「日活」 (日活跃用户量,DAU)、「周活」 (周活跃用户量,WAU)来监测我们的网站,有的时候会看到我们的「日活」在一段时期内都是逐渐地增加的,以为是非常好的现象,但是如果没有做留存分析的话,这个结果很可能是一个错误。

留存是产品增长的核心,用户只有留下来,你的产品才能不断增长。一条留存曲线,如果产品经理不做什么的话,那么用户就慢慢流失了。



这是一个常见的留存曲线,我把它分成了三个部分:第一部分是振荡期,第二部分是选择期,第三部分是平稳期。

从产品设计的角度出发,找到触发留存的关键行为,帮助用户尽快找到产品留存的关键节点。之前我们发现我们产品里面,使用过“新建”功能用户的留存度非常高;于是我们做了产品改进,将“新建”按钮置于首页顶部刺激用户使用,效果非常好。

硅谷流行的 Magic Number(魔法数字)也是留存分析的一部分,比如 Facebook 发现「在第一周里加 10 个好友」的新用户留存度非常高。作为产品经理,我们也需要通过数据分析来不断探索我们产品里面的魔法数字,不断提高用户留存度和活跃度。

更详细的留存分析方法,可以参考这篇文章

你能找到的最深入的留存分析文章 - 留存 · 增长 · Magic Number


4. 可视化分析

用户体验,是一个非常抽象的概念,我们可以对其进行形象化。目前一个普遍的方法就是对用户的数据进行可视化,以热图的形式呈现。


借助热图,产品经理可以非常直观了解用户在产品上的点击偏好,检验我们的产品设计或者布局是否合理。

热图的概念、原理、类型和应用,可以参考这个回答

热力图是什么原理? - 张溪梦的回答


5. 群组分析 & 挖掘用户需求、改进及优化产品

千人千面,产品经理对用户精细化的分析必不可少。不同区域、不同来源、不同平台甚至不同手机型号的用户,他们对产品的使用和感知都可能存在巨大的差异。产品经理可以对不同属性的用户进行分群,观察不同群组用户的行为差异,进而优化产品。


之前我们做过一次分析,网站的总体注册转化率是 6%;但是使用 Chrome 浏览器的新用户注册转化率高达 12%,使用 IE 浏览器的新用户注册转化率才 1%。这样一分的话,问题就很明显了,极有可能是浏览器兼容性的问题,产品经理应该关注一下这个问题。

详细的群组分析操作流程,可以参考这个回答

产品经理一般是怎么搜集产品不好用之处的? - 张溪梦的回答



Part 4 | 数据分析的书籍

做好数据分析,不是一朝一日就可以的,需要在产品规划设计、产品升级迭代中不断实践。下面的这些书籍对于产品经理学习数据分析都有一定的帮助:

推荐 1:

@范冰XDash

的《增长黑客》

这是国内对于增长黑客的第一本详细介绍,作者从AARRR的视角切入,描述了大量产品优化、产品增长的案例,对于产品经理非常有益。

推荐 2:埃里克·莱斯的《精益数据分析》

在这本书里面,作者介绍数据分析的相关指标、不同行业的数据分析要点,并且有大量的数据分析案例和翔实数据。如果想要把数据分析落地,这本书对产品经理是非常有帮助的。

推荐 3:我们一直在做互联网行业数据分析知识的普及,目前我们已经做了 14 期「

GrowingIO

数据分析公开课」,面向产品经理、运营等等,这里是

GrowingIO

的产品和分析师写的《互联网增长第一本数据分析手册》

这里面汇编了我们一年多来数据分析、产品优化的实战案例,里面不少文章被被大号转过,例如《如何成为一个优秀的数据产品经理》等等。

下载电子版的分析手册,请参考这里

互联网增长的第一本数据分析手册

推荐 4:埃里克·莱斯的《精益创业》

作者提出了最小可行性产品(MVP)、小步快跑,快速迭代等产品设计和优化的理念,影响深远。


| 结语

数据分析是一门多学科、多领域的交叉学问,涉及到的东西非常多。要想做好数据分析,应该有一套完整的思维体系,在价值观、方法论和工具三个层面上储备相关知识。同时立足于产品和用户,用数据来打磨产品,用数据来检验迭代,不断提升用户体验。


注:本文中热图、实时等产品功能均来自

GrowingIO 官网 硅谷新一代数据分析产品

编辑于 2016-08-25 21:01

我说下自己经历:本人2015年入职某央企,随着互联网公司发展,公司利润一度被挤压,行业前景黯淡,刚好python正是火的时候,于是开启了自己的转型之路。

进入正题之前,为了让大家有个参考对照,我简单介绍一下自己的历程,由于研究生的时候需要处理大量数据和科学计算,所有有一定的MATLAB编程经验。

接触python之前,一直认matlab是最好的科学计算软件。

工作之后,用的最多的就是PPT和EXCEL,所以头两年进步最快的就是PPT和EXCEL水平。

有了以上的基础,我数据分析转型之路还算比较顺畅,也算摸到一点门道,希望我的学习经历能帮助大家快速提升。

我将重点从一下四个方面分享:

  • 数据分析基础
  • 分析工具
  • 分析方法
  • 数据来源

其中会讲一下学习方法和穿插一些书籍的推荐,先上一张学习路径脑图:

一、数据分析基础

1、统计学

毫不夸张的说统计学是整个数据分析的灵魂。判别一个数据分析师强弱的一个重要方法就是,看他对统计规律的敏感度。很多理工科学校都会开《概率与统计》这一门课,这算一个很好的基础。我当时学习过程是先后顾了一下当时大学时候的《概率与统计》课件后半部分(是的,当年的课件我都放在移动硬盘里面了),如果你之前学过可以再捡起来回顾一下。下面推荐一下我的学习用书:

①《深入浅出数据分析》

这本书非常推荐作为小白的入门书籍,特别是之前没有接触过数据分析的。特点和书名一样深入浅出,而且图多。里面没有那么多公式和理论,但其中对于统计的基本原理以及统计问题的来源场景介绍的非常通透,非常符合深入浅出系列定位。我自己读了以后收获还是不错的,如果有之前有一定基础,建议略过。

②《商务与经济统计》

这本书给我的感觉最大的特点就是把统计知识和业务知识联系起来了,对比那些单纯讲理论的统计学书籍,多了一些趣味性和可读性。可以作为掌握统计学脉络和基本知识的入门书。

2、高等数学

这部分我就不细说了,如果要成为高级数据分析师,那高等数学知识必须的,对于一般的数据分析师来说,大学时候的高等数学知识就足够,没必要特意再去学习,需要的时候查阅就可以。

3、可视化

对于我来说,EXCEL数据可视化已经足够,绝大部分的直方图、折线图,饼图等等都可以用EXCEL画出来,因为前期自己工作和EXCEL打交道比较多,所以这一部分学习起来也比较快,一周就完成学习了。在分析工具篇里面我会介绍我学习EXCEl可视化用的书籍。

当然如果你需要制作比较高大上的图,那我推荐Power BI,无论你的数据是简单的 Excel电子表格,还是基于云和数据仓库的集合,Power BI 都可让你轻松地连接到数据源,特点是可以和他人共享。

4、机器学习

作为高级进阶者,机器学习是可以让你从大数据中发现规律的重要方法,目前我还没达到这一步,但是也可以推荐一本书作为进阶学习。后续我有了相关经验以后再继续分享。

①《机器学习系统设计》

本书展示如何从原始数据中发现模式,首先从Python与机器学习的关系讲起,再介绍一些库,然后就开始基于数据集进行比较正式的项目开发了,涉及建模、推荐及改进,以及声音与图像处理。通过流行的开源库,我们可以掌握如何高效处理文本、图片和声音。

二、分析工具

俗话说工欲善其事,必先利其器,下面来聊聊分析工具学习路径:

1、PPT

为什么把PPT放在第一,原因很简单,我们做数据分析的目的是什么?当然是为了展示给客户、上级,供他们做决策。所以PPT作为主流汇报、展示工具,是将分析关键结果传递给其他的重要手段。学好PPT可以提升沟通和消息传递效率,也是数据分析师必备的技能,具体学习书目我就不做推荐了。

2、EXCEL

EXCEL应该是数据分析师最常用的统计分析工具了,原因是因为方便,所见即所得,而且具有方便的可视化功能。应该说只有学会了Vlookup,数据透视和基本公式才算EXCEL入门,其次EXCEL最大的惊喜是数据可视化,拥有大量的图表模板,可以减轻我们很多工作。这里我推荐《谁说菜鸟不会数据分析》这本书作为EXCEL入门。这本书如果作为数据分析入门书籍是不合格的,因为它有太多内容是关于EXCEL基本操作的,关于数据分析的内容反而很少。我当年读完这本书感觉像被书名骗了一样呢,但是实事求是的讲这本书里面关于EXCEL数据分析常用公式、数据可视化的内容还是不错的,可以当成一本入门书籍。

3、ACCESS

为什么把ACCESS作为中级数据分析师必备技能,原因很简单,当数据太大,EXCEL又处理不了,又没有很强的编程基础怎么办?ACCESS的优势就体现出来了,它可以在不用掌握很高深编程语言的条件下,处理Excel所不能承载的大存储量的数据原始文件,速度奇快,且易学易用。作为入门,我推荐《表哥的Access入门》这本书。通过一个简单的小饭馆数据库管理程序的开发过程,对理解数据库和学习一些基本的ACCESS很有帮助。

4、SQL

SQL基本操作作为学习数据库的关键一步,是必须掌握的。我的学习方式是网上找教程照着一步一步来,其实SQL本身不难,关键是要熟练,照着教程差不多两周可以过一遍,后面真遇到用的时候再去查具体使用方法就可以。这里推荐《SQL必知必会》作为工具书,遇到问题查阅使用。

5、MATLAB

MATLAB强项在科学计算,所以如果你需要大量的数据处理和计算,特别是矩阵计算,那我强烈推荐掌握一下MATLAB。上学的时候周围的人都喜欢用MATLAB处理数据,毕业以后周围基本没人用,或许是因为正版软件很贵吧。

6、Python

Python作为目前最火的编程软件之一,确实在数据分析、数据挖掘上有着独特优势。可以说python开启的我的数据分析之路,精通python不仅可以提高我们数据分析的效率,还可以在其他方面减少重复劳动,节约时间。我结合自己感受谈谈python的优势和学习方法。python最大的优势就是语言简约,非常易于读写。

如果之前有一定的编程基础,上手很快。我就是按照《Python编程快速上手》这书面的内容一步步跟着做,花了大概三个月的时间把里面每一个项目做完,差不多就入门了,所以这里学习的关键就是码代码、debug,这样才有实质的进步。

①《Python编程快速上手》

这本书是带我入门的第一本书,强烈推荐,里面的实操案例很有针对性,只要按照里面的内容扎实地练,我想你也基本入了Python之门了。

②《利用Python进行数据分析》

这本书是作为Python进行数据分析必读之书。内容安排上我觉得还不错,作者是pandas的作者,所以对pandas的讲解和设计思路都讲得很清楚。

③《Python Cookbook 中文版》

这本书我买回来以后基本是当做工具书,遇到问题时候翻一下,基本都能得到答案,所以也建议有时间的时候翻一翻,提升对python的熟悉。

三、分析方法

关于分析方法值得一说的就是一定要结合行业特点,特别是对业务的掌握,这样才能事半功倍,下面说说比较通用的分析方法:

1、VRIO

从经济价值(Value)、稀缺性(Rarity)、难以模仿性(Inimitability)和组织(Organization)4个视角出发,分析资源和应用能力。

2、3C模型

从顾客(Customer)、竞争对手(Competition)、公司自身(Corporation)3个视角分析获得成功的关键因素(KFS),构建企业经营战略。

3、SWOT

明确资源优势(Strengths)、竞争劣势(Weaknesses)、外部环境变化带来的机会(Opportunities)和威胁(Threats)等,将这些因素有机结合起来,以此确定企业经营战略。

4、PEST

从政治(Politics)、经济(Economics)、社会(Society)、技术(Technology)4个视角分析外部环境。

5、杜邦分析法

杜邦分析法是一种用来评价公司盈利能力和股东权益回报水平,从财务角度评价企业绩效的一种经典方法。其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积,这样有助于深入分析比较企业经营业绩。

四、数据来源

数据是数据分析的基础,所以获取大而全的数据就至关重要,以下是我经常获取数据的几个渠道:

1、国家统计局: http://www.stats.gov.cn/,国家统计局网站上的数据量之齐全,内容之丰富,简直让人咂舌,可以作为你宏观数据分析的来源。

2、工信部: http://www.miit.gov.cn/,主要针对的是工业、信息类数据,上面还有一些行业运行情况分析,可以作为参考。

3、中国信通院: 中国信息通信研究院针对互联网多个行业的发展趋势,会有很多行业白皮书发布,研究内容较为前沿。

4、艾瑞: https://www.iresearch.cn/,主要针对互联网行业,数据比较单一,亮点是会发布一些艾瑞研究报告,是开阔分析思路的好帮手。

5、网易、新浪等门户网站。这些网站的数据较为分散,需要进行整合,最好的方式就是配合爬虫筛选自己想要的数据。

以上,所有学习路径推荐就分享完了,最后我的感受就是学习过程多沟通、多练习,千万不要认为要把所有知识学完再动手,记住在学中练,在练中学。

收藏了的同学,请随意点个赞吧

编辑于 2022-12-11 19:58

之前在合作企业里做过一些内部分享课,这里拿出来与诸位知友们分享。


本文主要分为三个章节:

  • 一、哪些公司和行业最需要数据分析人才?(数据分析常见的应用场景)
  • 二、数据分析师必须掌握的技能和工具(基础能力+工具掌握)
  • 三、超级菜鸟应该如何学好数据分析?(数据分析如何快速上手?)

一、哪些公司和行业最需要数据分析人才?

随着海量数据的出现,数据分析技术已经出现诸多应用场景,这里列举几个实际工作中最常见的:

  • 1.情感舆情分析(Public Sentiment Analysis)
  • 2.风险识别评估(Risk identification and Assessment)
  • 3.欺诈检测分析(Fraud detection Analysis)
  • 4.客户流失分析(Customer churn Analysis)


  • 1.情感舆情分析(Public Sentiment Analysis)

举个栗子:今天主流网络上又新增了多少企业负面信息?

这个很多人不知道,但是做的好的公司已经在A股上市了。基本原理是利用微博、微信、知乎、头条等社交网络中发布海量结构化or非结构化的文本进行情感舆情数据分析,从而判断出用户对于特定公司、品牌或产品的情绪是正面还是负面(喜欢还是讨厌,真粉丝还是黑粉),提前对企业口碑和网络风向进行舆情预警(宏观层面)。情感舆情分析也可以具体到分析某一个用户的情绪,比如剑桥分析公司利用脸书获取的核心用户的问卷调查数据来影响美国大选结果。

  • 2.风险识别评估(Risk identification and Assessment)

举个栗子:看似完美无瑕的企业里存在哪些隐藏的风险点?

这个目前在银行、证券、税务等领域应用广泛。在很久很久以前,金融机构的授信审批决策主要依赖于信贷人员的主观经验和判断,金融机构整体内控风险性漏洞很多且不可控制。随着大数据的出现,通过将用户画像数据分析技术与内部评级体系建设的深度融合,让金融机构能够准确根据用户的风险偏好和可承受风险预测进行授信审批,为下一步放贷or授信决策提供参考和打分支持,从而将未知风险降到最低。

  • 3.欺诈检测分析(Fraud detection Analysis)

举个栗子:哪些客户未来某一时间段内最有可能违约或者欠贷不还?

这个目前于银行、保险、网贷、电子支付等领域应用较多。将用户行为与历史交易数据信息进行整合分析来检测欺诈行为。例如,银行使用运用定量和定性分析相结合的方法建模,从而发现授信客户的风险征兆,准确识别信用卡盗刷交易;阿里通过购物模式和用户喜好来判断用户可贷款额度,最大限度排除掉高风险客户,减小支付宝花呗用户逾期的可能性。

  • 4.客户流失分析(Customer churn Analysis)

举个栗子哪些客户未来某一时间段内最有可能流向竞争对手?

这个是三大运营商、各大互联网公司等最喜欢做的数据分析之一,但其实只要是存储有大量客户数据的公司都在做。一般会针对客户流失的特点进行分类,分别定义用户流失特征值和参数以便未来建立客户流失预测模型,判断出哪些客户在未来的某一时间段内(一周or一个月)流失概率较大,以便第一时间为前台业务运营部门和销售部门提供有流失倾向的用户名单,敦促其马上制定最有效最恰当的营销策略进行客户挽留措施。

二、数据分析师必须掌握的技能和工具

数据分析师经常用到的工具有很多,比如 R, Python, SAS,Weka, Rapid Miner, SSIS, SSAS, Tableau & Echarts等等,你可以挑选自己最喜欢or熟悉的,如果以上觉得难,建议先把最基础额Excel用的烂熟于心,至少先弄清楚各种公式的写法和透视表怎么用(笑)数据库的话先学MySQL,简单易于上手。

如果你不只满足于成为一名普通DA(Data Analytist),而是想更进一步成为DS(Data Scientist),建议你收藏下面这张表格,这里面我为你列出了成为DS必须具备和学习的技能。

成为数据科学家要点满的技能树

三、超级菜鸟应该如何学好数据分析?

最后回到问题:超级菜鸟应该如何快速上手?

据我观察,大部人新人进入到数据分析领域开始学习后,大体可以分为两种情况:

第一种人:自学能力和动手能力很强

那么建议你参考我之前推荐过的书籍,找一些行业中的经典案例数据直接开始做实验,逢山开路遇水搭桥,万事不决Google解决;

当然,这种人还是少数,而且自学一方面是费时间,另一方面是不能很好的结合业务场景,而数据分析师的分析肯定要建立在业务实际上的,所以我更建议大部分人选择以下这种。


第二种人:自学能力较弱且动力不足。

那么建议你找一位前辈作为你的学习导师,或者报一门数据分析课程督促你学习,比如拉勾网的《数据分析实战训练营》,里面有曾任职于Google、Microsoft等国内外一线大厂的技术专家亲自授课,结合实际业务场景操作,学完即可轻松上手。我看了他们的内容,可以说是从工具到思维到业务全部囊括了,而且还能给你内推进大公司。

PS. 如果现在填写下方表单,可以立即领取课程大纲和项目介绍。

结语,借用《黑客与画家》里的一句名言:

人们真正注意到你的时候,不是第一眼看到你站在那里,而是发现过了这么久,你居然还在那里。

祝学习愉快~

编辑于 2020-12-29 11:59

“我是一个生物狗怎么学习数据分析?”

“我既不会Python也不知道R,入行数据分析还有希望嘛”

首先给你一些信心,我本科四大天坑之一:生物,说一句比较尴尬的话直到毕业什么这些编程语言是数据类型我还弄不清,计算机二级考office都没过。甚至刚开始找工作有一份工作测打字速度,33个字/分钟,一指禅。我一个电脑空白也开始入门做生信数据分析了,还有什么理由说不能做。超级菜鸟名副其实了吧~

还有朋友觉得自己年纪比较大了,或者没有时间。其实,大家不要觉得数据分析多么难,至少入门还是有很多套路而言的。

如果自己从事了自己的岗位很久了,有一定的业务能力,最好去做自己行业相关的数据分析工作,数据分析的尽头还是业务,懂业务的数据分析会发挥越来越重要的作用。

这段时间在整理自己做生物信息数据分析的一些经验,仔细的筹划改怎么避免一些坑,很好的掌握数据分析的入门知识,为了便于更多的人理解,我会用普适的语言少一些本专业的业务知识来讲解。

入门数据分析:

  1. linux基础
  2. 数据分析思维
  3. 数据分析模型
  4. 函数
  5. 统计学
  6. 数据分析软件
  7. Python/R
  8. 项目实战
  9. 证书背书


一、linux基础

生信行业的数据分析是以Linux系统为基础的,因此常用的Linux命令就必不可少,Linux主要还是多练习。

看完这篇Linux基本的操作就会了 - Java3y的文章

Linux 命令大全:尤其是awk、sed、grep常用

二、数据分析思维

你想做的是什么样的科学问题,你对于问题的规划和思路是怎样的,你需要用到什么样的方法。这些是你在接触一套数据前首先应该想到的,也是应该长期去练习的。有些人会说拿个流程直接跑起来就好了呀,为什么要去了解这些分析问题的思路呢?

其实不然,这类似于打地基一样,方法和思维决定底盘的大小,要想家大业大首先有个又大又牢固的地基。

假使我们在拿到一个科学问题前,没有一套自己的思路体系。往往不知道问题从哪里下手,数据是宝,但是你啃不下。

因此我们必须有意识的培养自己数据分析的思维,比如拿到转录组数据先整体分析得到表达量,再局部分析有差异的基因,富集到人体的相应通路,在由面到点,具体找到一个或者几个关键基因,再谋取其他下游分析的套路,这在任何一个数据分析领域我想都是重中之重的部分。

生信中的数据分析思路常常需要阅读科学文献来自己进行总结。而这些总结出来的思路往往都是很多套路的,和我们常用的思维方式很像。因此就生物信息来讲就会有一些捷径可走,挖掘文章思路,提取数据分析思维。但这对于大多数人来讲难度很大,远不如从上到下,先知道有哪些思维,然后用已有文章中的数据进行验证。举例如下:

1、结构化思维(我推荐看一遍金字塔原理)


首先判断问题的类型,然后从不同大的方向里面来选择,从宏观整体上把握。然后层层递进,整理归纳成金字塔模型。比如我在思考一篇文章之前会先写一下思维导图,这对于我的结构化思维的训练是非常有益的。


2、逻辑推理思维

面对问题,你怎么思路,你要用什么样的一个思路:假说演绎法、归纳推理还是类比推理,这些思维都是前人通过一次次的实验证明过可行的思路,尤其宝贵。

假说演绎法:

归纳推理和演绎推理:

图片来源于简书:塘东


三、数据分析模型

什么叫数据分析模型,这和具体的业务紧密相关,比如一些机器学习模型,电商中常用的RFM模型,还有一些波士顿模型、二八法,你做什么业务就需要对自己的业务中常用的模型有所了解,比如对于生信来讲就是数据挖掘的model原理。数据挖掘的算法:SVM、 贝叶斯、 EM算法等等。这一部分可以先了解原理,然后在有一定的编程语言的基础再来进行学习。

十大数据挖掘算法(上)

四、函数

函数的理解在数据分析中占了很大的一部分,如果是作为入门,excel的函数的了解也就很必要了

excel中常用函数:

查找和引用:choose,match,index,column,row,vlookup,lookup

关于排序:rand,randbetween,round,sum,sumif,sumifs,sumproduct

文本处理:find,search,text,value,concatenate,left,right,mid,len。做文本的处理经常用到。

关于统计:large,small,max,min,median,mode,rank,count,countif,countifs,average,averageif,averageifs。均值、最大最小值啊


五、统计学

无统计无数据分析啊,从描述性统计开始学起,这里我推荐用医学统计学这本书

  1. 生物信息学必备入门级统计学概念:错过不知道再等多久
  2. 我要自学生信之统计学:跳出假设检验的逻辑坑
  3. 我要自学生信之统计学:总体均数的估计
  4. 我要自学生信之统计学:如何选择假设检验的方法(t检验、U检验、卡方检验、F检验等)
  5. 我要自学生信之统计学:t检验
  6. 我要自学生信之统计学:方差分析
  7. 我要自学生信之统计学:多重比较
  8. 我要自学生信之统计学:二项分布和Poisson
  9. 我要自学生信之统计学:\chi^{2} 检验
  10. 我要自学生信之统计学:模型预测的评价(准确度、精确度、敏感度、特异性)


六、数据分析软件

当你了解了一些数据分析的思维了,也有了一定的Linux基础、统计学和数据挖掘的基础,这个时候你上手来做项目最大的障碍可能就是软件的操作了。

生信来讲入门的软件:

生物信息学一些基本的常用软件有哪些?

从数据分析本身来说,还有一些通用的软件,比如需要对数据进行简单的处理:excel、SPSS、R、Python还有可视化的Tableau。从数据清洗开始一步步的进行。


七、Python/R语言掌握


在我认为R和Python承担着不同的功能,R是统计学家编写的绘图能力一流,Python主要的优势在于其丰富的库,其中Numpy、Pandas、Matplotlib更是数据分析中的佼佼者,做机器学习等也必不可少。

1、python

如果要学习python。我个人觉得还是从实战出发:

这一部分我建议看一下这个回答: 你们都是怎么学 Python 的? - 量子位的回答

上面我提到的Numpy、Pandas、Matplotlib绝对是必备品

Numpy:利用Python科学计算的基础包,对Numpy的掌握将会帮助你有效地使用Pandas等

Pandas:结构和操作工具,能够使Python数据分析更加快速和容易

Matplotlib和seaborn:Python可视化库。散点图、箱线图、小提琴图等都是手到擒来。

自学生信-机器学习python数据可视化:一节课入门seaborn

2、R

如何学习R语言

  1. R语言基础
  2. 数据结构
  3. 数据类型
  4. ggplot绘图原理
  5. 科研绘图主题与颜色搭配
  6. PCA
  7. 火山图
  8. 散点图
  9. 折线图+配对折线图
  10. 条形图、棒棒糖图、条形图、柱状图、饼图、甜甜圈图
  11. 多维饼图、直方图、密度图
  12. 分面、相关系数图
  13. 热图
  14. Circos 绘图


八、项目实战

对于不同的行业实战的内容是不一样的,生信行业最好是用已有的文章进行复现,自己独立思考,看能不能和作者的思维产生共鸣。其间Linux、统计学、软件使用、R等都会用的到,能够独立完成一个项目,基本就算入门了。其他行业的话利用本行业的业务进行一次分析,熟悉业务指标,建立业务体系,在github上面也可以寻找一些实战。

生信的一篇实战: 我要自学生信之生信基础-转录组:分析流程大全解,看这一篇就够了

随着项目的增多,你面临的数据也一定是参差不齐,如何做数据清洗,如何排除异常值、用什么变量来做判定、用什么方式方法进行可视化等等就需要你不断的实战进行总结。

九、证书背书

不得不说现在找工作仍然是个“看脸”的时代,在你掌握了数据分析技能后,如果想要顺利转行,最好加个助攻,来个临门一脚,做助攻最关键的是什么:匹配和权威。而证书背书恰好可以做到这一点,尤其是权威认证。

我举一个例子:就像你想从事金融行业,你拿到CFA证书将给你增色不少,就像一个从业资格证一样,但是你拿一个四六级证书虽然有用但是几乎可以忽略。因此我们要着眼于数据分析行业中优质的认证。

我以前是做认证的,就业市场中什么样的认证才是对求职者而言有用的认证呢?权威部门认可+优质企业认可,这两点缺一不可

目前在数据分析行业能够满足这一点的不多,去年考了 CDA数据分析师的认证,CDA数据分析师的权威性就不多说了吧,帮大家试了试水,对于工具类和数据分析思维的考察比较到位,推荐一下。需要的可以直接进入 报考网站~

注:高校在校生考试半价,通过学生通道认证报考就可以

入门数据分析易,深入数据分析难!加油!

编辑于 2021-05-11 20:05

时隔3年+,202209再次更新。

回答是在2019年初,用了断断续续一个月的时间更新的,那时候我的小孩也刚刚出生,自己在小米搬砖,部门不卷,有点时间,后来无意间更了这篇回答,一不小心得到更多人认可。

2019年初,从国企转行马上4年,水平还是很挫,且比较偏数据工程和挖掘,但因为转行过程中,踩了很多坑,也遇到不少前辈帮忙填坑,加上自己是一个极度喜欢分享的人,本着利他的思维,建立了一个小目标: 帮助小白建立对数据分析岗位的认知。

现在看,这个目标还算成功,200w+的阅读,1.3万点赞,近6万收藏,霸屏了这个回答。

这里要感谢贡献万赞和收藏的同学,你们是经哥后来坚持更新的动力。

虽然已经是3年前的回答,但数据分析基础底层的技能和思维这些年没有太大变化,变化的是自己对数据分析岗位和行业的认知,可能这些对于大家未来就业、职业规划更重要。

行业的认知更多元化,一时间并没有迭代更新到这篇回答里,需要了解更新的行业或职业信息,大胆建立跟类似于我这样的数据民工的连接,多咨询,多问,破圈,借势,借前浪作为杠杆,跳出同圈层。

一定要建立ROI思维,投入产出比,只要减少时间成本>付出的咨询成本,那么就是值得的。

对了,2021年熬了几个周末,更新数据分析小白入门的视频,不想踩坑的小白强烈推荐了解,大牛直接跳过就好。

初级入门数分知识库,目的是了解数据分析如何赋能业务,如果是圈里有经验的人,请绕行,如果是想入门数据、业务知识,建议查收。

总结一下,如果要快速转行,请做到下面几点。

--------

以下是原回答:

我是毕业后在国企工作3年后, 转行互联网数据分析,现在已经7年了, 数据行业算是有了一点点认知。2019年的目标之一, 多写文章,多回答问题,帮助入门和转行数据分析的同学,对自己也是另外一种沉淀,下面是转自我另外一个类似问题的回答。

入门数分知识库,目的是了解数据分析如何赋能业务,如果是圈里有经验的人,请绕行,如果是想入门数据、业务知识,建议查收。

总结一下,如果要快速转行,请做到下面几点。

首先, 数据分析是做啥的: 数据民工来取经儿:数据分析师干啥活儿

下面, 讲下如何入门数据分析

很多小伙伴留言时都会提到不知道自己是否适合数据分析,害怕自己零基础入门难,或者文科生学不会,其实最好的办法就是去尝试。

数据分析师必要条件

  • 数据处理能力
  • 数据分析思维

数据分析入门, 可以很简单。

最初级的分析师,Excel + 细分/对比的基本思维

这么简单, 岂不是太没竞争力了?别慌!看完..再决定慌不慌

第一, 数据处理, Excel只是最基础的能力, 当然也是必备的。必备是因为使用频率真的很高,很多同学可能觉得只有code才代表能力,千万别有这个不成熟的想法,比如飞机火车出现后,自行车依然是一种极大提升人类出行效率的交通工具。Excel的熟练程度,也会极大提升数据分析过程中的效率,大量的时间成本就是这样被节省的。

第二,Excel功能太多,出版的书都好几本新华字典的厚度,我们不能也完全没必要学习所有的功能,则需而取。下面几个关键词(排名不分先后),你如果一看会心一笑那说明就够了,如果懵逼,就说明你还需要学习下它们: 透视表 ,刷选, 多列排序,折线图,直方图,双坐标图,数据导入分隔符设置, vlookup, count, sum, 冻结首行

第三,细分和对比的思维。数据进行分析,基本、必用的方法,是否能用好,跟自己数据敏感度和业务熟练度强相关。如果你觉得这个也很简单,我不认为你错,但是请把它用好。同样,下面我提几个问题,你看看是不是胸里竹子成林:

  1. 今天,煎饼卖出去50张, 评价卖的怎么样?
  2. 今天,知乎App活跃1000万, 评价是否正常?
  3. 今天,煎饼出摊时间也是3小时,为啥收入少了100元, 为什么?
  4. 今天,知乎App活跃用户跟昨天一样多,知乎盐会员比昨天少买了100万, 为什么?

以上,问题,第一步,绝对是细分和对比。煎饼摊主,知乎数据分析师,会针对自己业务展开大扫除的分析。

  • 我是煎饼摊老板:
  1. 数据敏感度: 今天跟昨天比下降比例?今天出摊时间多久,与往常降低多少小时?
  2. 业务熟悉度: 今天是周末吗? 对面多了个卖肉夹馍的?
  • 我是知乎数据分析师:
  1. 数据敏感度: 下降了多少?昨天是周几?
  2. 业务熟悉度: 昨天有活动吗?这段时间新增高质量live数量怎么样?

数据分析能力进阶: SQL + 业务指标 + 常用分析方法

第一、SQL语言

SQL学习起来,比其他编程语言容易入手,不过精通也需要一个过程。

入门,看下W3School-SQL教程, 然后自己练习下,了解基本的语法,剩下的在工作中慢慢提升就中,简单的查询,之前整理的一个特别简单的用sql进行统计分析的案例,10分钟了解一下?

经哥之前也给小白搭建了一个网站+练习的数据,具体见:

也可以去牛客网练习SQL,新出了很多题单,难度划分的很细致,有非技术快速入门、SQL基础进阶、SQL必知必会、SQL进阶挑战、SQL大厂面试真题,适合各个阶段的SQL学习者。

牛客网-找工作神奇丨笔试题库丨面试经验丨实习招聘内推丨求职就业一站解决-牛客网

所以,针对不同知识背景的同学,输入不同的学习目标。

关于初学SQL学习一些常见问题,见经哥下面的回答:


第二、业务指标

  1. PV/UV
  2. 日活/月活
  3. 次日留存(一般分析新用户次日留存)
  4. ARPU
  5. 转化率(某动作的转化率, 如点击转化率, 下单转化率, 充值转化率等)

第三、常用分析方法

  1. 对比: 大法宝, 关键要知道怎么对比和谁对比
  2. 细分: 分地点,分人群,分时间,分产品,分渠道
  3. 漏斗: 每一步的转化率, 清晰有层次
  4. RFM: R最近消费日期, F消费频次, M消费金额. 这个可用来粗暴的进行用户分层,已经被广泛用在各个行业
  5. TGI: 衡量某类人群某个特征与整体人群该特征平均值进行比较, 量化该人群该特征是否强大或弱小
  6. AARRR: Acquisition用户获取,Activation活跃,Retention留存, Revenue收入, Refer传播

经哥数据课程

如果你想节省学习成本,对数据分析感兴趣,下面则需而取:

数据分析能力再进阶: Python + Shell + SQL + 业务指标 + 常用统计指标 + 数据挖掘常用算法

对于Python学习,相比SQL要话点时间,但是要说难,真的太不上。基本和常用的python,文科生是可以hold住的,所以如果你学的不是理科,完全不要气馁。我最喜欢做的事情就是教会文科生做理科生的工作。

很多小伙伴留言时都会提到不知道自己是否适合数据分析,害怕自己零基础入门难,或者文科生学不会。

202110更新一个转行咨询的问题视频。

python入门,推荐:

廖雪峰老师的python教程, 你要问多久学会?我还是习惯分人群回答

Python数据分析的相关书籍,我推荐自己入门阅读:

《利用python进行数据分析》

了解基本语法

  1. 零编程基础: 每天1小时,大概2周?
  2. 有任何计算机语言基础, 写过100行完整代码: 每天2小时, 大概1周?
  3. 熟悉其他计算机语言: 每天2小时, 1-3天?

上面也只是了解,要熟练,那肯定要花时间,一定要动手敲!

python数据分析包学习: pandas+numpy+matplotlib

pandas等熟悉python基本语法后,下一步要学习的。这个要熟悉,花的时间要久一些,因为功能实在太多,但没关系,我们可以用到哪儿学习哪,你后来会发现,常用的就那些。

matplotlib, 主要用来绘图, 之前有整理python绘图的入门文章, 都一两行代码画一张图的实例, 嗯嗯, 这个每篇10分钟应该可以学会(如果没有本地python环境, 我到时自己搭了个简易的云端环境, 你想用不, 哈哈)

  • 大白话Python绘图系列: Matplotlib篇
  • 大白话Python绘图系列: Pandas篇
  • 大白话Python绘图系列: Seaborn篇
Shell

Linux系统的Terminal, 通过shell命令大大提升程序员的工作效率, 对于数据分析师来说, 也是一样。

shell常用命令入手也是特别容易的, 但静态shell脚本编程就另外需要时间积累。而满足数据分析师90%使用场景的shell命令,下面列几个:

  1. cat
  2. wc
  3. grep
  4. sed
  5. sort
  6. uniq
  7. awk (这个算是一门语言, 但很强大, 建议入门学习)

---------Shell部分更新 20190409 08:15---begin--------

紧急写了三篇Shell入门级文章

阅读对象: 没有任何经验,或者内心抵触技术的文科同学看

阅读时间: 每篇文章大约5-15分钟

阅读预期: 恩.. 看完怕有种体验, 貌似Shell也没辣么恐怖? 好像还挺有趣?

数据民工来取经儿:大白话shell命令系列:文件查看篇

数据民工来取经儿:大白话shell命令系列:数据统计篇(一)

数据民工来取经儿:大白话shell命令awk:数据统计(二)

鸟哥的书,对于入门Shell是再好不过,建议入手《鸟哥的Linux私房菜》。

友情提示:

awk数据统计(二)这篇需要有点Shell基础,不过因为我工作中常用,所以也放这里

---------Shell部分更新 20190409 08:15---end--------

常用统计指标
  • 平均值: 不解释
  • 中位数: 假如小明班级30人, 成绩排名15的成绩分数值就是小明班级成绩分数的中位数
  • p值: 一句话粗暴解释, 用于假设检验, 其值反映某一事件发生的可能性大小. 假设A成立,然后找出支持A不成立的概率总和, 如果该值小于0.05(一般是这个阈值, 当然可以自己定义), 说明小概率事件发生, 我们认为A不成立
数据挖掘常用算法
  • 线性回归
  • kmean聚类
  • 逻辑回归
  • 贝叶斯

以上算法, 不同阶段的同学可以采样不同的使用方式:

  1. 学会如何调用, 灌入数据, 输出结果, 简单解析
  2. 了解不同算法的使用场景, 优缺点, 调用并解释数据
  3. 理解其计算方法, 并尝试自己写代码失效, 并结合业务场景, 提取和筛选有效特征, 进行模型训练和预测

数据分析再再升级: 思维的升级
思想有多远,就能摸爬滚打多远!

关于如何锻炼自己数据思维, 其实我也有一大坨大白话要分享!

场景化思维习惯

数据背后对应的是人与事的场景。用户在什么场景下购买?为什么用户不付费?有些可能数据上看不到,但我们可以按照认知推断。

拿自己来说,上班从回龙观到西三期6公里,公交和地铁都不太方便,所以会选择骑车,这是使用场景。另外,自己比较注重时间成本,能提升自己效率缩短时间的服务,自己乐于付费,所以不会因为充值小黄车后,就不购买摩拜月卡,相反,连小蓝、哈罗的月卡也都会购买,因为不希望花费时间找车(都是趁运营MM搞活动的时候大肆购买,哈哈)。然而,老婆是典型的羊毛党,坚持贯彻将互联网服务免费到底,享受着烧钱大战期间的各种赠送,坚决不买会员,但是当优惠消失,自己又确实需要时,才会临时付费,这就是背后的场景。我和朋友代表的就是两大类用户群体,因为不同的价值观,自然对应不同的用户行为。

数据分析要学会分析和拆解问题的思维,这一点麦肯锡咨询资深顾问,巴巴拉·明托写的《金字塔原理》已经成为数分每位同学必读书籍。

--------------20190509 08:15 更新------begin-------

昨天夜里新写的一篇文章,比较应景儿, 放这里

数据民工来取经儿:场景思维,咱要有这个习惯

--------------20190509 08:15 更新------end-------

观察并思考生活中的营销
  1. 为什么我收到电信运营商赠送15GB流量?因为我两个手机号,电信号基本没有,运营商要激活我这个沉默已久的用户
  2. 为什么滴滴打车你的价格高?可能你周围叫车用户多而司机少,也可能"其他原因"
  3. 为什么有了淘宝京东,还会再出现拼多多?因为存在生产低端产品的商家群体和不太在乎质量的降级消费群体,但缺少鼓励这样电商平台
  4. 为什么每个超市都鼓励办会员卡?因为要留住你,增加你选择去他们消费的机会,减少去竞争对手消费的机会
  5. 为什么品牌加盟店费用那么高?因为用户相信背书,用户想降低试错成本,用户有消费习惯,而品牌在一定程度上满足这点,而这就是品牌价值
  6. 为什么地铁里会遇到乞讨者?因为获客成本低,几块钱可以坐一天,遇到几千名乘客,哪有这么便宜的流量!
  7. 为什么乞讨会自带音响?为了提高转化率,一天遇到几千名乘客,专业乞讨者早已深谙其道


入行数据分析后,从数据中发现了更多样更真实的世界,很有趣:

  1. 人是个性化的,不同价值观的人,进而产生差异的网上行为,数据分析的工作让我从数据上观察到这些差异,也让自己能更客观的看待不同性格和不同价值观的人
  2. 机器学习,分类预测,不同特征输入,得到不同结果,人生也是一样。更认同: 你想要什么样的生活,决定于和你关联的因素。这些因素包括:家庭背景,教育背景,周围朋友,居住城市,公司,行业,性格,习惯,价值观,选择。这里面有不可变的客观因素,也有可变因素。不要抱怨客观因素,而要发挥可变因素,因为它才是最重要的因子。

----------------20190328,下班回家,于晚上23:33更新-------

-----------------20190328,下班回家,于晚上23:33更新----------

有些同学,看完上面的建议,会私信我,描述一下自己的情况,咨询如何进行提升

首先,非常感谢留言或私信的同学,说明自己真的说了一些大白话,大家听了,认可了,才会花时间咨询。我简单归类下大家的问题,看是否对应你,如果情况不同,欢迎告诉我,我再更新到这里,这样大家一起把自己的情况汇聚起来,也是一种知识众筹和共享。

类型1:转行的同学

问题:

不喜欢现在职业,收入不高 | 非朝阳行业 | 过于稳定 | 年龄大 | 焦虑未来, 自己有点工科基础, 问能不能入行, 晚不晚?

回复:

如果真的决心放弃原来行业, 进入数据分析, 问能不能,晚不晚,我会说"能", 对以后来说"不晚"。

但,我一般会问,对方是否是在北上广深,或者杭州,武汉等城市工作, 因为城市的势能,真的不能忽视。

再说说自己转行,我是在硕士毕业3年,28岁决定转行的。不怕笑话,我进入第一家大数据公司做数据分析,当时连sql也不怎么会写,也是感谢公司收了我,给了自己学习和成长的平台,而自己刚入门也很努力,在不断试错中,sql几周下来就很熟悉了。所以,换行,开始如果能遇到好的平台,那是自己幸运,如果没有特别合适的公司,而自己由决心走这条路,那就放低自己要求。

之前做的一张图,就想说明,当发现机会比较少的时候,请尝试降低期望值试试,大把的机会袭来!

类型2:入行工作后希望提升的同学

问题:

Sql和Python学过,但是用的不多,大部分Excel就可以搞定,分析也比较简单,深度也不够,面试都要求Python或R或SPSS,想问下一步如何提升, 是否再多学几门其他语言?

回答:

我自己从写sql和ppt开始,在第一家公司也写了一年ppt,收获还是很大的,在自己能熟练驾驭sql和ppt工具之前,千万不要小看它们。

入行4年,到现在shell,python,java,hive,spark,scala,竟然也都可以写写了,但并不深入,都是在围绕数据处理和分析使用,只是多了几种数据处理工具而已。像我这样学习这么多语言确实也没必要!纯粹是因为现在的业务数据存储平台,必须用到这些才可以开展,而我知道的大部分公司的数据分析岗位,包括头条,滴滴,快手,美团,bat,也包括我米的其他业务线,数据处理技能上只要熟练sql,excel,略懂些shell和python就可以胜任了,真遇到处理不了的数据也有专门的数据攻城狮帮忙。而作为数据分析师的你,剩下的主要工作,是针对业务数据,展开你的脑洞,恢复用户行为的场景,从不同角度,加深数据挖掘,而随着你对业务数据的不断熟悉,你的提升也会很大。

类型3:未毕业想入行的同学

问题:

毕业后对做研发不感兴趣,但又希望进入互联网行业, 自己比较喜欢分析,想问下在学校期间怎么准备?

回答:

多看知乎前辈的建议,如果不嫌弃,就把我上面的回答再看一遍,O(∩_∩)O哈哈~

先学数据处理的技能, 再找公司实习,找实习要比正式员工要求低很多,另外,实习能让你看到真正的业务是怎么运转的,数据是怎么流动的,甚至工作流程是什么样的,邮件是怎么发送的,以后你工作的内容是什么样的,这也会让你更加清楚"数据分析"是不是你想要的。

切记,实习中,不要眼高手低,不要嫌活重复没挑战。比如提数和Excel处理数据等,我进入第一家大数据公司做数据分析,当时连sql也写的很不熟练,也是从提数开始的,而且提数是数据分析第一步,也是对业务熟悉的必须必须经历的,对于数据分析,说夸张点,它就是空气和水,滋养自己数据分析整个生涯,所以不要排斥它。

------------------------以下更新于20190331晚-------------

------------------------以下更新于20190331晚-------------

关于场景,我再补充一种: 焦虑的场景

因为从最近关注和互动的同学身上,发现这种场景!!

一些希望入门学习又不知如何下手的焦虑

说年龄大,转行面临的焦虑

入行一段时间,成长瓶颈的焦虑

新语言或复杂公式难以驾驭的焦虑

职业未来发展和薪资的焦虑

... ...

其实,这个话题各位前辈的回答,可能从某种程度上,缓解了这种焦虑的心里。我自己也没想到,通过一篇简单的分享,能释放大家内心里那一点点焦虑感。既然今年自己的目标是输出,那以后尽可能站在"你们"阅读的这些场景去写一些大白话,希望能有点点用

感觉,今天这些更新貌似和数据没什么关系?不过,也算是一种人群的场景分析

"你们"可能也会站在我的角度思考我写作的场景?

但你绝对想不到,就在刚刚, 才把我家娃哄睡,而今年想要写点东西的想法,有一半竟然是因为他: 这个刚满3个月的臭小子~ 听起来简直逻辑不通,但事实就是这样~

又要睡觉了.. 回头, 如果有好的想法,我会再更新

也欢迎更多同学描述自己的困惑,我尽自己所知,认真回复。

下次更新前,你抽空也可以去我专栏先转悠会儿??

不过..简直不能忍受我专栏竟然快2周没更新了..

知乎专栏: 大数据那些儿大白话

-----------入门书籍推荐: 更新于20190414 02:38-------begin------

-----------入门书籍推荐: 更新于20190414 02:38-------begin------

好的同学,最高频问的一个问题就是,有没有推荐的书籍,可能上面写的不足够仔细,这里专门写一下 数据分析师的极简入门书籍

实战

  • 配合以上我提供的数据学习环境,数据分析破冰任务,有时间可以尝试下:
    • SQL提数练习
    • 大白话shell命令系列:文件查看篇
    • 大白话shell命令系列:数据统计(一)
    • 大白话shell命令awk:数据统计(二)

-----------入门书籍推荐: 更新于20190414 02:38-------end------

-----------入门书籍推荐: 更新于20190414 02:38-------end------

关于经哥

帝都北五环外,码农集聚村,回龙观的一位数据老民工,欢迎加v唠嗑、吐槽(v: ITlooker)

  • 微信公众号: workindata
  • 个人微信号: ITlooker
  • 经哥数据教程: SQL|思维
  • 自建数据小白SQL学习网站(用户名: hi-zhihu, 密码: justdoit)

强大自我,拒绝躺平,持续学习,长期主义。

职业咨询

只回复付费咨询的同学,相信经哥,这是最高效的沟通方式,欢迎有付费认知的同学来撩。

可以选择知乎付费咨询,也可以加我微信私聊。

建议后者,原因是可以围观老民工朋友圈,日常所思所想。

热门文章推荐

入门篇

快速入坑数据分析师? | 超级菜鸟学习数据分析?

数据分析师干啥活儿 | 数据分析师极简入门书籍

SQL练习网站 | sql学到什么程度?

技能篇

数据处理技巧 | 设计和评估 ABTest

数据分析师的类型 | 公司从0搭建BI系统

SQL刷题, 完爆牛客网 | SQL提数: 数据分析第一步

shell命令篇:文件查看 | 数据统计 | awk:数据统计

Python绘图篇: Matplotlib | Pandas | Seaborn

案例篇

短视频留存分析 | 社区内容生态建设分析 | 付费自习室的收入预估 | 相亲问题的数据量化

优惠券发放背后的逻辑 | 因果分析: 双重差分模型

网站日志数据分析实战 | 网站被攻击的数据分析!| 大白话Kaggle入门 : Titanic篇

思维篇

数据波动的异常分析 | 订单下降该如何排查 | 场景思维,咱要有这个习惯 | 数据需求处理场景

求职篇

写简历,看这篇就够 | 数据面试,这样准备就可

互联网10大岗位 | 互联网就业大盘 | 没数据经验别慌

数据分析师岗位分类 | 数据分析岗的迷茫?

1400位同学的数据分析入坑问答 | 求职咨询的数据小白 | 前端工程师转行数据分析的咨询 | 关于数据分析找工作咨询回复

资料篇

最全数据分析学习资料 | 行业报告数据源大全

编辑于 2023-02-22 16:38

一、通关的利器

1、行动力

我是8月加入的猴子群,过完第一关后,中间因为很多事情被耽误了很久,期间总感觉挪不出学习时间,荒废了两个月。一次看了吴军他是如讲何忙里偷闲,每天在“得到”上发文章的文章,让我获益良多。吴军博士是个大忙人:google的资深工程师,在数学、计算机科学、IT行业都有研究,不仅好摄影,古典音乐,还出版过《浪潮之巅》《文明之光》《数学之美》基本颇受欢迎的书。

他讲到其实他不是每天腾出一段时间来才写,而是,只要能在任何时间里想到某个观点,就会尽快记下来,在任何休息的夹缝中就开始写文章,如在会议休息时,在接送孩子上学的时,像串珠子一样完成整篇文章。我突然想时间是海绵里的水,挤一挤就有。

其实猴子在第一关就已经教给了我方法,只是当初没有身体力行的做,而真正开始履行时间之后,每次完成一关,我都很开心,也很期待下次的闯关!

2、学习伙伴

我是编程小白,刚开始学习,运行程序特别容易出错,有点泄气,·后来看了群里一篇小姑娘的文章,讲她是怎么“先蠢,蠢完了就成熟”的故事,给我了鼓励,其实编程没想象中那么复杂,初级阶段遇到的问题知乎,google,网易云课堂就可以,或者也可以查阅队友的业。我比较喜欢知乎,因为下面还有相似的知识点链接。在学习过程中,还交了个小伙伴,特别聪明,每一关的文章,写的很清晰,而且闯关进度很快,我书还没看明白,他就已经提交作业了,还真让我有压力······几个月下来,发现猴子群里更是藏龙卧虎,有了他们,更得督促自己要进步,还真是要去的远方和同行的人一样重要!

3、学习方法

学习中,Titanic案例分析,是花费我时间,精力最多的,也让我收获最大,一下从懵懵懂懂的状态找到到数据分析师感觉,猴子的方法论里也讲到,初学项技能时,不要先纠细节,而是先搭框架,对这件事的流程从头到尾有个了解,再往框架里面填东西,遇到不会的先空着,继续下一项;然后找来那些高质量的模板效仿,再找到自己搞不懂的难点,逐个攻破;这个案例我也是按照这样的方式来学习的,的确很有效!

a、搭建分析所需的流程框架:数据导入—text,train数据合并—查看数据—数据处理(缺失值,异常值)—特征提取—数据类别转化—建模预测—检验结果的准确率。

b、技能效仿:在选择特征,建模时,参考了很多别人的思路,他们选了哪些特征,自己再一次次尝试。

c、在模仿别人过程中,遇到了很多难点,比如lappy家族,ggplot2绘图;随机森林算法,逻辑回归算法,决策树....然后逐个击破。

4、对自己的文章评价

进入猴子群我才开始在知乎上写文章,这的确是倒闭输出的好方法,每一次的文章都是重新温习一遍知识点的过程,温故而知新,知识点掌握的更牢靠。

因为知乎上的文章,必须要发布出来给别人看,每次只好认真写,内容,排版,思路、细节都得注意,自己的东西拿出去遛,总得展示好的一面吧,的确很锻炼思维和认真度。

文章“ excel数据导入R”,“Titanic数据分析”相对其他文章收藏点赞的多,你看,正如李笑来所说“你的对别人有用,才有意义。”

二、知识点总结

整体分为三个阶段: R语言—SQL——回顾总结

各关学习历程:

第一关:第一关: 厉兵秣马 砥砺前行

第二关: R语言数据结构入门-第二关

第三关: 三、简单数据处理

第四关: 第四关 复杂数据处理; 如何编写业务模块; Model 章节翻译(R for Data Science-Hadley Wickham);

第五关: mysql入门-安装, 常用函数 ; R语言操作数据库; Kaggle-Titanic: Machine Learning from Disaster

写在后面的话:

还有3天就是2018年了,整理自己的学习进度,回看以前的文章,欣慰又感动,加入“数据分析群”,除学习了以上这些数据分析方法以外,更重要的是,我每天都在提醒自己,要如期完成闯关任务,要把自己置身于“时间”这个伙伴旁,认真而精心过好每一天····虽然有时感到约束,但这一刻的幸福超过那些玩耍时的快乐加起来的总和。

喜欢木心的一句话“从前的那个我,如果来找现在的我,会到很好的款待”。

编辑于 2017-12-28 22:48

如果你想看长篇累牍的材料和链接堆积,以及那些没用的凑字数定义,请移步那些高赞回答吧;我这里只会给出最简洁的攻略,你不跟着做,也就是一纸空谈

1. 学数据分析先学会看图说话,学会用基本的工具

接触数据分析,往往就是先从图表和最直接的excel开始;最基本的沟通界面,和最简单常用的工具

很多人忽略了读图表的能力,上来就问这个Sankey图、柱状图、Mekko图怎么画的呀,用什么软件;下载完软件,就一头栽进了如何一周内精通Python、三天内精通Tableau的攻略中。路走岔了

读图表最关键的能力,是变量、公式、行业基本常识的结合;公式并不复杂,加减乘除绝对够用,大部分的图表无非就是总量与份额(加除)增速与渗透(减除);行业基本常识能帮助分析师带着预判看图表,同时能知道各变量的合理值、激进值分别在什么水位

1.1. 最常见的大盘规模与细分市场拆分

麦肯锡分析过中国乘用车市场的2.0时代,开篇的概览图非常典型;乘用车市场过去近二十年几乎保持正向增长,18年出现拐点,连续两年负增长;如果你从乘联会拿到这个大盘数据,你会怎么考虑这个问题,会不会认为中国乘用车市场开始下行或者进入存量阶段?

  • 乘用车销量 = 首购 + 增购 + 换购;从消费者的角度出发会有一些猜想,比如总体销量在下行,但其实消费者的增购或换购其实在增加,只是汽车首购量在减少了;说明有可能乘用车对消费者的渗透到顶了,未来市场需要更关注消费者的增购或换购,也就是乘用车消费的不断升级汰换
  • 乘用车销量 = 豪华车合资品牌 + 国产性价比品牌 + 其他
  • 乘用车销量 = 传统燃油车销量 + 新能源汽车销量 + 其他(如混动等)
  • 乘用车销量 = 新车销量 + 二手车销量

所以结合行业常识,我们看到市场大盘的变化后,需要公式化,归根结底是将整体大盘拆分为市场细分,能帮助我们判断行业下行究竟是整体所趋,还是细分市场发生一些迁移,消费者购买习惯在变化等

能够发现,所谓的公式大部分就是最简单的加法;引导思路从整体行业规模下拆到不同行业细分,找对标的方法最基础的,也就是环比/ 同比/ 找成熟市场对标;环比就是看所在周期与毗邻的上一周期的变化,同比就是所在时间与去年同期的表现变化

如果目前为止,觉得上面的内容有一定理解成本,我推荐可以参加一些短小精美的官方特训课程,能很快帮助大家理解最基本的数据分析概念和常见场景,快速上手数据分析


1.2. 业务的考核指标与过程指标

考核指标往往对应业绩,过程指标对应动作监控

一个最常用的公式,业绩 = ARPU × 客户数.

C端的生意这里就是用户,B端生意就是对应商家或者客户

这个公式逃不掉的,战略和商业分析的人每天都要面对;业绩掉了涨了,都得归因到用户或客户的规模,以及单个用户/客户带来的价值

除了日常工作,这个公式我也经常拿来考应聘者。一家公司的收入在涨,但利润率出现下降甚至亏损现象,需要战略和经营分析团队(应聘者Cosplay)找出原因,并给出解决方案

我通常会拿这张图给到应聘者,横轴是用户的数量增长,纵轴是人均金额(用户人均带来的收入或服务每位用户需要的成本);有公式思维的应聘者,马上就能联想起"业绩 = ARPU × 客户数",亦即每条横线往下覆盖的面积,就是指收入或成本的总金额

最常见的做法,利润 = 收入 - 成本;很明显上述这是一个收入增速跟不上成本增速的案例;有了这张图,业务就能发现虽然平台的用户在涨,但带来的都是更低值的用户(如学生、低收入人群等);因为单个用户带给平台的平均收入在跌。当虚线成本线所覆盖的面积超过了实线收入线往下的面积,说明公司在亏损

根据这张图,要么把用户数量控制在5M及以下(即暂停对后来新增的低值用户提供服务),要么提高各项服务的费用(即增加存量高值用户带来的收入,也起到对低值用户的筛选作用)

如果应聘者能根据这张图,马上聊到"业绩 = ARPU × 客户数"的公式,准确描述图表并给出解决方案,基本算合格的应聘者了;如果能主动给出hypo并画出这个公式的草图,根据草图询问公司的财务和用户增长状况,那实属较为优秀的候选人;当然这两者的前提,都是基于应聘者本身对于图标有很好的感知,有底层公式的联想思维;所以非常倡导各位想入门的小伙伴,不用急着学工具,先学会看图说话,建立感知

总结一下,这里给出最基本的五个公式,大家平常拿到图标后,可以有意识地锻炼与公式的结合

  1. 销量 = 首购 + 复购(复购可包括跨购、增购、换购等)
  2. 收入 = ARPU × 客户数
  3. 利润 = 收入 × 利润率 = 收入 - 成本 = 收入 - 固定成本 - 可变成本
  4. 库存 = 采购量 - 出货量
  5. CAGR(复合年均增长率)= (现有收入/基础收入)^ (1/年数) - 1

记住这五个公式,就足够应对分析工作中80%的场景,大家可以根据自己需求继续整理;公式越简单越好,能形成肌肉记忆

当然会有公式变种,如供应链场景下的收入库存比 = 年度销售收入/当年库存平均价值,公式可以拆为收入库存比 = 年度销售收入/年度销售成本 * 年度销售成本/当年库存平均价值,其中

  • 年度销售收入/年度销售成本其实就是ROI(Return of Investment)
  • 年度销售成本/当年库存平均价值就是库存周转率

所以你会看到这样一张图,熟悉的朋友会联想起波士顿矩阵;图里会被分为四个象限,右上角的第一象限就是所谓的甜蜜区,根据上面公式拆解,ROI × 库存周转率 = 收入库存比,第一象限代表着最高的收入库存比;第二和第四象限收入库存比也很高,但要么库存周转率偏低(第二象限),要么ROI偏低(第四象限),所以这两个象限一般是潜力区;左下角的第三象限就是比较滞后了,掉队的产品或者业务部门就会落入第三象限

乍看好像是两个看不出来关系的变量,但其实会有隐变量,这里的隐变量就是年度销售成本;只有插入了隐变量,分析师才会意识到这里在讲收入库存比的事情;这类图既可以用来甄别不同品牌,也可以是不同产品,框架都比较通用

除了公式变种,很多情况并不存在公式;这就需要分析师找到定性的关联;如消费者对于一个品牌的满意度,可能和TA一开始的消费预期、享用到的产品和服务都有关联;或者说分析师需要判断一个功能(如智能化之于马桶)是否是消费者刚需,最聪明的做法就是找到同价格带里销量接近的同类产品做参考,比如油烟机几乎是家居必备,那同价格带的智能马桶销量持平甚至超过油烟机,初步能验证智能功能的必要性

方法就先说到这里吧,总结一下:

a)有公式的情况下,优先找公式

  • 大盘规模与细分市场的拆分
  • 业绩最终指标与过程指标的拆分

b)没公式的情况下,优先找判断

  • 找相关性
  • 找参照物

如果觉得上面内容需要一定时间消化,可以考虑回炉在实战营中积累更多经验和素材;训练营中其他人的表现和实力,都是一种很好的参考;帮助你知道哪些技能是你现阶段必须掌握的,哪些技能是你下一期进阶需要去规划的


再浅谈一下工具。

1.3. 最常用的Excel技巧

很多人搞鄙视链,特别是那帮营销号,配几张数据透视图把Python描绘成业界神器,觉得会Python的分析师永远牛逼,Excel就是低级纺织工。大家还是要加强甄别,甄别这些生意小算盘,毕竟这帮人后面肯定得跟着良莠不齐的Python体验课。珍惜生命,远离营销文

那些华而不实的数据透视图,其实落到实际工作中一点用处都没有。记住最重要的几组基础动作,往往最实用,大道至简

能用好SQL+Excel,让自己的数据跑起来,跑出相对规整的数表和基本统计结果,就OKAY了,分析师要把更重要的精力花在工作流程的梳理和业务分析上;所以数据获取或预处理的过程,怎么简单怎么来

直接上招,Excel最基本的三板斧

  1. vlookup和hlookup实现不同数据文件、跨数表sheets的mapping
  2. sumifs、countifs、maxifs、minifs实现带条件的基本统计
  3. ctrl + H实现批量替换

vlookup和hlookup,每一位分析师,甚至是各类角色都应该知道的应用技巧;通过案例就一目了然了,下图中的映射来源到Output,我们需要将业务分类映射到公司名称中

=vlookup(对象单元格, 映射来源区域, 目标内容列所在列数, 0)
这里公式即"=vlookup(E2, J:L, 3, 0)",E2即为对象单元格,映射来源一般直接选列区域(该简单案例中即J:L),目标内容列("业务分类")从映射来源列("公司名称")数起在第3列,所以填"3",公式最后的"0"与True或False,有关,这里不作赘述

实际工作中会遇到很多变形,例如目标内容列与映射来源列相隔甚远,或者目标内容列在映射来源列的前面;以上述图为例,"品牌或集团"列或"业务分类"列有可能在"公司名称"列前面

遇到这种情况呢,我会习惯在vlookup中内嵌一个if函数,方可任意调取自己想要的目标内容列与映射来源列

=vlookup(对象单元格, if({1,0},映射来源列,目标内容列),2,0)

其他案例类似,掌握上述的三板斧,基本够用了;但用好Excel不单单是指对公式的灵活运用,更重要的是数据表的布局和跨表的逻辑顺序;特别是在战略和咨询公司中,入门分析师或者咨询师见高下,其实不在ppt,反而是在更hands-on的Excel界面上,把事情往简单做,把事情做干净了,比啥都强

2. 开始构建自己的核心竞争力

无论是后面想往数据科学、算法工程师的方向走,还是往更上游的数据基建角色(如数据工程师等)发展,抑或往业务向走,比如做管理和战略咨询、商业分析师,无非就还是基础环节的延申

2.1. 数据科学和算法方向

往数据科学和算法的方向走,需要继续补充自己在数理统计、机器学习和编程(Python/R)等版块的能力提升

  • 概率论与统计学的基本知识:基本变量表征(期望值、方差、协方差、相关系数等);几个基本统计分布如高斯分布, 伯努利分布,二项分布,指数分布和 泊松分布等,以及如何通过这些基本工具去描述事件、解释事件
  • 基本定理与方法:Inclusive and Exclusive Principle, Law of Total Probability, 贝叶斯定理;大数定理, 最大似然估计法,参数估计,置信区间与置信度;假说检验,p-value,Wald-Test and T-statistic
  • 决策相关知识:运筹学相关的约束最优化问题,进阶的凸优化, 拉格朗日对偶问题等
  • 基本机器学习模型:线性回归、 逻辑回归、支持向量机(Support Vector Machine)、因子分析法、随机森林、 聚类算法等

针对具体的算法模型,从纸面上的推导到实际分析中的变形,往往又是一个开支散叶的学习过程,以Suppor Vector Machine为例:

所以数科方向需要较强的数理基础,毕竟偏研究向,需要较大的学习耐心和兴趣驱动

2.2. 业务分析方向

业务分析方向,就是看覆盖面,掌握好我在前面章节提到的基本技能,加上一些实战特训营的训练,基本都能很快入门

但对于进一步的提高,业务分析方向反而是最难的。因为下一步要么是和数科有更紧密的结合,要么需要分析师有更综合的项目管理能力和行业判断力

像我最开始提到的顾客满意度和产品/服务的关系,体系化的解决方案,就是顾客满意度模型,感兴趣的同学可以自行了解美国顾客满意度指数模型(ACSI)、欧洲顾客满意度指数模型(ECSI),其中既有业务上的逻辑关系,也会涉及到因子分析、线性回归等机器学习算法

在我的其他回答中也多次提到,本质上顾客满意度模型,既是我们在最基础统计图表的延申(如相关性等),也是各类高阶算法与业务实况的结合

2.3. 数据基建方向

数据基建方向,就是往数据工程师的方向发展,需要帮业务分析角色或数科角色解决数据上游的获取和预处理工作;这个方向下掌握一门语言的扎实技能就尤为重要,不管是SQL数据库技能还是Python

基建方向的进阶之路,最核心就是不断找到自己要解决的具体问题,你的进步不是体现在你掌握了哪些代码或者函数,而是体现在你能解决越来越大、越来越复杂的问题

关于Python入门,我之前也浅写过一些回答,欢迎取阅


先写到这里吧,最近加班频繁没怎么加更,就集中写了比较多内容;欢迎大家关注我的账号和专栏,也欢迎随时讨论

编辑于 2023-02-01 19:03

搬运一个老回答:

高赞回答有个问题。

一上来便是各种教程,二话不说给出一批书单,各种数据处理的方式,讲怎么样用Python挖掘数据,怎么用R进行数据可视化,讲AB测试。

他们给的教程都很好,数据处理的方式也很有借鉴意义。


且不说,有多少人是光收藏,而不去认真学习的,就算是认真去学习的,他们也会遇到这样的问题

为什么这么用,为什么这么做。

比如,前两天在我的这个回答中, 零基础如何学爬虫技术? - 知乎

有很多人都有这样的评论

一开始我是无语,后来想了想,这应该是一个普遍问题


这就是数据分析中最大问题,很多人学习数据分析,更多的是为了数据分析而数据分析,实际上根本不知道自己在做什么,为什么这么做。

或者仅仅是为了在简历上增加一行

鄙人精通数据分析。

估计HR看了是要微笑着,然后把简历放入不予录用的文件夹中。


数据分析,不论使用什么样的工具,使用什么样的方法,不论是Excel,还是Python,还是MySQL,都是工具,目的只有一个——

解决一个问题,或者给一个决策提供依据。

所以,学习数据分析的第一步,是要考虑,我要用数据,解决一个什么样的问题?

这点如果没有考虑清楚,只是跟着网上的教程学习爬虫,学习数据清洗,然后把那些公有的统计数据做成绚烂的图表,又有什么用呢?


1.哪里开店

比如,有这样一个现实的例子,你表嫂跟你说,小明啊,你最喜欢吃我煮的麻辣烫了,我想开麻辣烫店,就在大学城附近,你说哪里好呢?

你是不是会想到以下几个问题呢?

表嫂的麻辣烫真好吃,想想就流下了口水

咳咳,正事要紧,到底应该在哪里开店呢?

所以,你有考虑到了这些可以量化的数据并且对应的你找到了这些数据的获取方式

问题来了,虽然写出来了大致的数据获取方式,但是具体怎么操作?

  • 招生计划怎么获得,学校官网还是相关报道?
  • 如何通过在线地图分析学校面积及相关建筑分布的合理性,最小路径还是顺路路径?
  • 如何获学校食堂评价,爬取微博数据,获得地理位置,并且对提及“食堂”的微博进行词义褒贬分析?或者直接拦路问询?
  • 人流量怎么获得,实地考察的时候,用本子画正字吗?


很好,这些问题你都想到了相应的解决方式,并且很顺利的获得这些数据,尽管有可能不太准确,但是你确确实实比以前更加了解了大学城附近大致的餐饮市场环境,不是么?

这也就是,

数据分析必须紧贴业务本身

获得数据之后,如何分析,人流量/商贩个数?但是每个商贩的服务能力又不一样,是不是得加权,如何加权?

于是你考虑了很多情况,写下来一个公式:

建议推荐开店系数=(人流量*XX/(YY*0.4)+租金*0.5)/ZZ

根据系数,你得出一个结论,建议开店的位置的前三家分别是

  • A大东门
  • A大小西门
  • B大女生宿舍小南门

你表嫂想了下,说,我知道你最喜欢B大的小姑娘们,胸大貌美腿子长。

于是麻辣烫店就开在了B大女生宿舍的小南门。


这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

  • Excel加减乘除,基础函数;
  • 爬虫的基本原理,及操作方式;
  • 正则表达式与数据清洗;
  • 语义分析的一般实现方式;
  • 在线地图API可以获取的数据有哪些;


2.优化数据的应用


一阵时间的忙碌,店终于开起来了,你表嫂的手艺真的很不错,每天都有很多小姑娘过来吃麻辣烫,中午晚上的时候,都忙不过来。

你表嫂感觉很可惜,很多客户就这样被浪费掉了:我多卖一份,少卖一份都无所谓,但是小姑娘本来想吃咱们家的麻辣烫,结果爬不上队饿着肚子走掉了,到别家说不定还要等,看见我都觉得挺过意不去的。

这时候聪明的你,有可能想到了通过获取以下数据,并且进行相关的分析来优化当前这个问题

你连续跟踪了三天这样的数据,运用了相关的统计学的相关知识

等待时间>=13分钟的时候,用户放弃继续等待的概率是78%!,然后你表嫂并不能理解,这78%到底是什么意思

所以你画了一张图,说山峰越高,走的人就越多。


问题找到了,只要将最长等待时间优化到13分钟之内,用户放弃等待的几率有可能下降。

这时候聪明的你,想到了如下的解决方式:

  • 用户抵店之后,才开始点餐,然后烹饪,是不是可以通过互联网的方式进行预点餐呢,所以你给表嫂申请了一个微信号,日经贴就是:“今天你想吃什么”,回复留言及预计到店时间,即可预订。
  • 你发现,用户选完菜之后总是喜欢把菜夹放到最远的地方,每次表嫂都需要把菜夹整理一次,拿到开始的地方。你考虑了一下,将菜筐的布局进行更改,刚好菜夹能够完成一次循环;或者你使用专菜专夹的方式。
  • 优化了店内桌椅布局,行走了最短的距离到达全店
  • ……

数据分析必须落地才是有效的,不是提交统计结果,而且获得统计结论


这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

  • 数据清洗的一般方式,时间函数计算
  • 统计学中分布的相关知识,这里应该是泊松分布
  • 数据可视化,包括不限于Excel 图表,js图表库,或者在线图表工具


3.大数据的处理

生意越做越大,扩充了店面之后,又开了分店,这时候你表嫂已经不亲自上一线熬煮麻辣烫了,但是又不放心那些雇来的人是否认真的在服务,于是制定了相应的店规,动不动还来一个突击检查。感觉比以前还要累了。

这时候,聪明的你,看在眼里,疼在心里,所以,你建议嫂嫂购买专业的餐饮管理软件,来获得相应的店铺运营数据。

在餐饮软件的后台,会有这么些个大致的运营数据,

当前订单量,成交量,客流量,客单价,等等等等,一切看起来那么完美。


等等,不对,为什么这个月以来,C分店的客单价总是这么低呢?事出有异,必定有妖!

还好,这个系统功能还算完善,能够导出一天所有的订单明细,包含以下字段,

下单时间,下单菜品,下单客户,联系电话,消费金额,配餐人,操作人,收银员,等等等


但是,你还是快掀桌子了,一个月,让我导出30次数据,然后在合并么?这个方法简直太土鳖了

你想着,要是能直接读取数据库不就好了么?一看产品介绍,数据库使用MySQL,于是你Google了一下,SQL入门,你发现,WHERE 和SELECT 基本上都满足你的需求了

很顺利的,你把这些数据导出了。

你把这个20W条记录的CSV用Excel打开,风扇疯狂的转了起来,不一会,你表嫂孱弱的笔记本就卡死了。

你感叹,Excel分析小一点的数据还行,数据量稍微大点,就显得力不从心。所以,你拿起了一本书,名字叫《21天学习Python,从入门到放弃》,这不坑爹呢吗?


你想着,反正我是为了处理这批很大的数据,没必要全部了解Python的功能,只需要找到相关的操作方法就好了。


你在Google上分别搜索了以下关键字

  • Python mysql
  • Python 数据分析库


你还找到了一本,用Python进行数据分析的pdf,感觉这本书写的通俗易懂,而且还有元数据示例。

在搜索的过程中,你发现了有好多数据分析是代码示例,有的甚至,只需要改一下文件路径,搬过来就能用。

你会感叹,原来,写程序也是Ctrl+C,Ctrl+V啊


这个过程中,你有可能学会的或者仅仅了解(不一定掌握)数据分析的相关技能包括不限于以下:

  • SQL基础语句
  • Python常见的数据分析库
  • Python数据可视化

聪明的你,捣鼓了三两天,就发现了问题的所在?


那么问题究竟在哪呢

有时间再更


相关Live

* 培养数据分析的思维方式


相关回答

* 怎么培养数据分析的能力? - 知乎

* 业余时间如何学数据分析? - 知乎

* 零基础如何学爬虫技术? - 知乎

* 如何用一个循环语句输出九九乘法表? - 知乎

* Excel 有什么神奇用途? - 知乎

编辑于 2022-06-20 16:24