什么是数据分析呢?数据分析是指基于商业理论,依赖统计工具,洞悉数据背后的规律,从而为企业创造最大价值。其主要运用在:监控异常的数据、建立模型并预测、关键变量分析并预测、预测性分析。
做图表分析数据经验分享
1. 界定问题,明确目标
2. 拆解问题,确定分析框架
3. 数据处理
4. 选择数据分析方法
5. 提出建议
6. 呈现分析结果
01
界定问题,明确目标
不管是在学术研究,还是商业研究中,数据分析的起点始终是问题意识。只有基于问题,分析才有方向、目标,结果才是明确的、有价值的。而明确的研究问题和目标,是后续拆解研究内容、选择研究方法、结果呈现逻辑的基础。没有问题意识和目标的数据分析,就像迷航的船只,失去了航行的意义,最终只能是白忙活一场。
比如老板说今年上半年的利润没有达到目标?我们不能单单只凭这句话就开始行动,而是要将问题中所涉及的所有内容界定清楚,如利润具体构成有哪些要素,与谁比较,达到什么标准算是实现目标。
因此,要想做好数据分析,首先要界定清楚你想要解决的问题是什么,要通过分析实现什么样的目标。
那具体应该如何来界定问题、明确目标呢?我们可以从以下几个方面进行思考:
(一)问题背景
针对提出的分析需求,你要了解清楚问题、需求产生的背后动因,了解为什么会有这样的问题、需求?比如,是基于公司战略、业务规划要求,还是基于市场、客户的实际反馈,或者数据的异常引出的?只有问题背景清楚了,你才能明确你要达到什么样的目标,从哪里切入,要做怎样的投入。
(二)问题内容
了解需求方想要做数据分析的真正意图,具体想要解决什么问题,摆脱什么困境,实现什么目标。但有时候,需求方也不能确定他们存在的问题,或者想要达到什么样的目标,这就需要数据分析师通过调研分析,来帮需求方定位问题、明确目标。
(三)问题的范围
1. 时间
问题是有时限的,需要明确观察哪个时间范围的数据发现的问题?一般需要将不同时间段的数据进行对比,以呈现差距、发现问题。
2. 区域
问题也需要在不同地区之间的对比中出现,所以要清楚问题针对是针对哪些地区。
3. 数据来源
由于数据的分散性特征,不同来源的数据可能是零散的、不全面的,或者是不准确的,所以要了解数据来自哪里,核对数据是否全面、真实。要对所有信息/数据来源时刻保持怀疑的态度,即使是需求方提出的,也要进一步寻找数据加以不断验证
(四)业务指标的理解
需要理清楚问题所涉及的业务指标是如何定义的、以及与谁进行比较。
1. 指标含义
比如“利润”这个指标,不能只看利润一个词,还要与业务部门沟通,明确“利润”是怎么计算的,比如利润=销售收入-销售成本-营业外支出。
2. 比较对象
当问题中提到“高、低”等比较词时,要弄清楚是与什么进行比较,有比较才能知道问题要解决到什么样的程度。比如老板希望你能通过数据分析帮公司找到提高产品销售的方法,这时候你就要跟老板了解清楚,销量要提到到多少,与哪个目标值进行比较?
02
拆解问题,确定分析框架
很多时候,你面对的问题/目标是难以直接回答的大问题、复杂问题,这种时候,你就可以对问题/目标进行拆解,将大问题分解为更具体的、可操作性强的子问题,将研究目标拆解为具体的分析内容,通过回答子问题来回答大问题,通过解决各模块内容来达成最终的研究目标。而这个拆解问题/目标的过程,即是分析思路的结构化过程。那具体怎么做拆解呢?
(一)思维工具——逻辑树
思维工具可以帮助我们将复杂问题条理化、结构化,快速形成分析框架。逻辑树是数据分析工作中最常用的思维工具。
逻辑树即从研究目标出发,以大问题为树干,以拆解出的子问题为树枝,形成一个树状结构的思维框架,目的是要全面厘清整体与部分的框架。使用逻辑树时,要遵循以下原则:
(1)横向的不同层级之间存在逻辑关系,或包含、或相关;
(2)纵向同一层级的不同维度之间,要符合MECE原则,即各部分之间相互独立(Mutually Exclusive),所有部分完全穷尽(Collectively Exhaustive)。
逻辑树的具体使用方法:
1. 【设定起始问题】:将已发生的问题或事实作为逻辑树的起始问题
2. 【列出主要影响因素】:针对起始问题提出“why”,思考可能导致该问题/现象的主要因素
3. 【细分原因】:将步骤B的原因作为二级问题,继续提出“why”,深入探究背后的影响因素
4. 【整理树状图】:将问题全部分解后,要确定每个层级之间的关联是否有逻辑,层级包含关系是否恰当。
对于树枝应该分拆到几个层级,需要根据分析主题的具体情况来界定,但一般分解到三个层级就差不多了。
逻辑树的应用难点在于从树顶端的起始问题往下拆解时,虽然我们都知道要穷尽每个层级中的影响因素,但具体应该从哪些维度进行拆解,这就非常考验分析师对该主题的理解程度。针对这一难点,需要做好两方面的积累:
一是【熟练应用拆解思维】
二是【熟悉经典分析模型】
(二)拆解思维
1. 横向拆解
从横向结构出发,将研究主题由上而下、由粗到细进行分解,找出该主题由哪些要素构成,每个要素有哪些具体特征。比如组织架构图,即是横向拆解最常见的应用场景。
【案例】
企业A上半年的营业利润未达到目标值,若按照目前的营收进度,到年底将无法完成年度总利润目标。现在老板要求你通过数据分析,寻找如何完成年度总利润目标的方案。
这里,要完成年度利润目标,关键是要找出上半年没有完成目标值的原因,后续才能对症下药。因此,我们可以采用结构思维,横向拆解“利润”指标,看看是哪个方面出了问题。
2. 纵向拆解
基于时间维度,将研究主题分解为有先后顺序的多个流程阶段,每个阶段又有哪些具体表现。
【案例】
近期互联网产品A的用户流失率出现了显著的上升趋势,现在领导要求你通过数据分析,来找出用户流失的原因,并针对问题点提出解决方案。
针对该需求,可以采用时间思维,基于用户使用产品的流程,将研究问题纵向拆解为多个流程阶段,然后寻找具体是哪个行为阶段的流失率比较高,用户遇到的主要问题是什么?
3. 综合思维
在实际研究中,经常会将结构思维和时间思维结合使用。
(三)经典分析模型
问题经过拆解,就形成了所研究主题的分析思路、分析框架,而经典分析模型则是经过时间检验、实际应用验证的成熟的分析思路。很多领域都积累了一些经典的分析模型,熟悉这些经典分析模型,可以有助于我们在面临类似的研究主题时,能够进行快速、有效地思考,快速找到问题拆解的切入点。以下为一些常见的分析模型,后续在工作中,可多多留心收集、积累。
03
数据处理
通过不同渠道、不同方式收集上来的数据,会普遍存在格式不一、夹杂脏数据、无序混乱、复杂等问题,因此,在进行数据分析之前,需要对数据进行清洗、加工,以满足分析目标的需要。
(一)清洗数据
原始数据普遍存在的问题是,夹杂很多脏数据,比如在问卷调查中,可能会有误答、乱答的情况,从而使原始数据出现重复值、缺失值、无效问卷等。因此,拿到数据,首先要做的就是对数据进行清洗,以确保所要分析的数据的信度和效度,提高数据分析的准确性。数据清洗主要包括三方面的内容:
1. 查找重复值
2. 处理缺失值
3. 筛查无效数据
(二)加工数据
做好数据清洗好,数据还可能会存在数据格式不统一、量纲差异大、无序等的问题,也会夹杂着很多与此次分析主题无关的内容,因此还需要对数据做进一步的加工处理,包括数据格式的统一化、数据量纲的归一化/标准化、数据的分类汇总/排序/抽取等,以降低原始数据的复杂程度,也让数据更符合分析需求。
04
选择数据分析方法
要想从繁杂的数据中挖出有价值的内容,洞察数据背后隐藏的规律,回答一开始提出的问题,就要懂得使用合适的分析方法对数据进行描述、分析。
根据分析方法的内容,我们可以将常用的数据分析方法分类以下七大类。我们也可以根据应用场景对分析方法进行划分,后面有机会我们再做详细介绍。
(可查看本公众号的“统计学”合集内容详细了解分析方法的原理和操作)
这七大类分析方法没有严格按照相互独立的原则进行划分,比如回归分析被归入了【因果分析】类,但严格来说,回归分析也可以算是【相关分析】、【预测分析】。但我们不必纠结于此,毕竟对分析方法的归类只是方便我们的学习、记忆和检索,没有实际的类型学意义。况且,我们在实际研究分析中,往往不会单独采用某一种方法,而是会根据研究目的,将不同方法结合使用,以实现对分析问题的深层次理解和解释。当然,这里介绍的还只是部分方法,在不同的领域还会发展出切合该领域场景的分析方法,但不管怎么变,其基础的分析逻辑都是基于以下的七种方法类型。
- 对比分析
对比分析,是将不同的数据进行对比,以分析它们的差异,揭示数据背后的发展变化和规律。
对比分析一般分为横向对比和纵向对比。横向对比即同一时间下的不同数据之间的对比,比如第一季度各城市门店的营业额之间的对比,年度实际营业额与目标值的对比等;纵向对比即数据在不同时间点的差异,可揭示数据随时间变化的趋势。
2. 分类分析
所谓物以类聚、人以群分。分类是数据简化的常用方式,我们可以把杂乱无序的总体按照某些特质进行归类,使类别内的个体之间差异尽可能小,各类别间的差异尽可能大,以更便于下一步的深入分析。
3. 分布分析
数据收集上来后,我们最常做的就是描述数据的分布,比如不同性别的个案占比,某一指标的均值是多少,一组数据中的波动程度有多大。这些分析,即是分布分析,可帮助我们了解数据的特定趋势。分布分析的对象不是一个数值,而是一组数值,只有存在多个数值,数据才会存在分布状态。
4. 相关分析
相关,是指变量之间的变化关系。如果一个变量发生变化,另一个变量也跟着变化,那么我们就可以认为这两个变量存在相关关系。相关关系不等于因果关系,一般来说,变量之间的相关关系,主要由于以下三个因素带来:
(1)相关是偶然的
(2)变量之间的相关可能直接受到其他潜在因素的影响
(3)一个变量是另一个变量的原因,即两个变量存在因果关系,但需要注意,该自变量可能只是众多原因的其中一个。
5. 因果分析
因果分析即是要追本溯源,追溯哪些因(称为自变量)导致了这样的果(称为因变量)。相关是因果关系的必要条件,如果因变量的变化与自变量的变化之间存在相关,那么自变量就可能(并不必然是)是因变量的原因。但相关并不意味必然有因果关系,发现了相关性,只是说明在统计学意义上两个变量之间可能存在因果关系,之后还要探讨因果链条。
6. 预测分析
预测分析是通过对现有数据特征的分析来构建统计模型,然后用来对不完整的、未知的或者未来的知识进行判断和预测。其实前面介绍相关分析和因果分析方法也属于预测分析的范围,但为了方便分类,且它们在实际研究中应用得比较多,因此就将它们作为了单独的类别进行介绍。
7. 推断分析
数据收集是有成本的,收集所有数据是不现实的,因此一般会采取抽样的方式,即从总体中抽取样本,收集样本的数据,然后再由样本来推断总体的参数、分布等信息。这种通过样本来认识总体的过程,即是推断分析。
05
提出建议
在企业研究中,数据分析的最终目的是要通过数据来驱动业务发展,改善企业经营状况。但实际上,很多人并没有认识到分析研究的真正价值,甚至觉得企业中的研究只能带来成本,无法真正给企业带来价值,毕竟很多研究的价值难以被衡量。因此,在数据分析的产出中,还应该基于结论提出针对问题、目标的切实可行的建议、解决方案,才能激起需求方的兴趣,才能更好地推动研究成果的落地,最大效用地发挥数据分析在企业研究中的价值。
06
呈现分析结果
- 原则
读者导向、逻辑清晰、简洁易懂、生动形象
2. 目标读者及其需求
理清报告结果会有哪些人群看到,他们有什么需求,为什么要看你的这个结果。在实际研究项目中,可根据项目的情况、重要性、受益人,来决定选择哪种呈现方式。
3. 内容结构
根据目标读者及其需求,理清什么样的呈现逻辑才会让他们更易于理解、才会更容易吸引他们的注意力。一般来说,基于业务或需求方关心的核心问题层层拆解来编排报告内容,这种问题导向的结果汇报更易于读者的理解。
比如,要给某产品做市场定位,数据分析结果就可以从以下方面进行结构编排:
(1)市场空间有多大,值不值得进入:包括市场规模、增长趋势
(2)当前市场可以细分为哪些类型,不同细分市场有哪些特征
(3)应该选择哪个目标市场?后续可以向哪些次要的细分市场进行拓展?
(4)可以采取什么策略来营销推广该产品:
A. 目标用户长什么样,与其他细分市场的目标用户相比,有什么显著特征
B. 目标客户有哪些需求,与其他细分市场的目标用户相比,差异点在哪里
C. 选择适合目标客户的营销方案
4. 呈现形式
尽可能实现数据化、图表化表达,以让目标读者更易理解、更有兴趣阅读。