新闻中心

利用Mysql对数据进行初步分析(mysql分析数据)

2023-11-19
浏览次数:
返回列表

一、数据分析&用户运营经历

随着IT技术和互联网的发展,企业积累的数据量越来越多,通过对数据进行分析和挖掘,可以进一步得到对业务增长有价值的建议。

由于很喜欢数据分析类工作,自己所学专业(管理科学)也和数学、编程相关,所以实习和工作的内容基本都与数据分析或用户运营有一定关系。在学期间,我曾在互联网公司实习并初步接触了用户运营和数据运营的工作。当时就对这类通过对用户及用户行为数据进行分析,得到对业务增长或用户增长建议的工作产生了兴趣,当时主要还是应用Excel进行数据分析,也会结合Weka(一款机器学习应用软件)来做一些分析项目,如流失司机召回分析。毕业后进入民航业从事数据分析支持决策的工作,主要利用SQL提取数据并结合EXCEL等工具对航班效益以及运力监控等方面进行分析并给出建议,有时也会用到SPSS来对用户分类进行分析。

虽然一直从事数据分析类工作,但不同行业数据运营所用到的方法论还是有很大差别的,相对于传统行业仍在努力转型用互联网思维优化改造自身业务,互联网公司应用到用户生命周期管理及漏斗思维等相对新兴的方法论都使我印象深刻,而且互联网公司活泼开放的工作氛围也深深吸引着我。所以我也在不断完善或加强自己数据分析方面的能力(Python、数据库等分析工具的应用能力以及数理统计、机器学习等方法的掌握),以期实现自我转型。

二、未来聚焦领域

目前互联网行业可以细分到多个领域,诸如电商、社交、交通、资讯、游戏等等。接下来我会聚焦在移动资讯领域(诸如今日等),不断进行积累和学习。

根据自身的理解和总结,用户运营可以归纳为用户增长和价值变现两方面,而无论是哪个领域的互联网公司在发展过程中都会遇到这些方面的问题,因此我在接下来的学习和分享中也会尽量偏向这两方面的实例。

三、Mysql数据分析案例

因为实际业务中我们遇到的数据体量会很大,所以必须结合数据库工具才能对数据进行高效处理。虽然平时工作中使用PL/SQL较多,但我在工作之余是利用Mysql这款开源数据库工具来处理数据的。

接下来我会以1995-2014年全球218个国家旅游数据为例,结合Mysql和Excel工具,分析旅客随着时间改变旅行偏好的变化趋势。因为随时间推移,用户的行为偏好也会发生改变,因此及时对用户偏好的趋势进行分析有利于了解市场的变化逻辑,以便更好的留住用户并使用户产生更多价值。

3.1本文将主要分析以下几个问题:

1995-2014年内,全球旅行人数和人均消费水平的变化趋势。自1995年以来,最受旅客青睐的前三个国家以及游客出境游数量最多的前三个国家或地区是哪些?自1995年以来,每年最受旅客青睐的前三个国家以及游客出境游数量最多的前三个国家或地区分别是哪些?自1995年以来,人均出境消费和入境消费最多的前三个国家或地区是哪些?自1995年以来,每年人均出境消费和入境消费最多的前三个国家或地区分别是哪些?

3.2数据概况

数据字段释义数据来源:2017_World_Tourism世界旅游数据pan.baidu.com/s/1iYn7WYby6IxgDvISkkZz6Q数据量:15个字段,4360条

3.3数据分析

3.3.1 1995-2014年内,全球旅行人数和人均消费水平的变化趋势。

#整体来看1995-2014年,每年旅游人数、人均消费情况 select date,round((Tourists+resident)/2,0) Tourists, round((costTotalIn+costTotalOut)/(Tourists+resident),3) cost from( select date, sum(ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists, sum(DeparturesTourists+DeparturesVisitors+Departures) resident, sum(InboundTransportCost+InboundTravelCost) costTotalIn, sum(OutboundTransportCost+OutboundTravelCost) costTotalOut from tourism_data group by date)a

结合数据走势图进行分析:

1)旅行人数逐年增加,说明随着经济全球化人们跨国旅行越来越普遍;

2)人均消费水平在1997年亚洲金融危机及2008年经济危机发生后有下降趋势,随后又逐步回升。

3.3.2 自1995年以来,最受旅客青睐的前三个国家以及游客出境游数量最多的前三个国家或地区是哪些?

#2、自1995年以来,最受旅客青睐的前三个国家以及游客出境游数量最多的前三个国家或地区是哪些? #最受旅客青睐的前三个国家或地区select LocationName,Tourists from( select LocationName, sum(ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists from tourism_data group by locationname) a order by Tourists desc; #游客出境游数量最多的前三个国家或地区 select LocationName,resident from( select LocationName, sum(DeparturesTourists+DeparturesVisitors+Departures) resident from tourism_data group by locationname) a order by resident desc;

最受旅客青睐的前三个国家分别为法国、美国和西班牙,而出境游数量最多的三个国家或地区是德国、香港和美国。其中香港可能是因为航线网络发达,从而吸引了大量中转客源。

3.3.3 自1995年以来,每年最受旅客青睐的前三个国家以及游客出境游数量最多的前三个国家或地区分别是哪些?

#3、自1995年以来,每年最受旅客青睐的前三个国家以及游客出境游数量最多的前三个国家或地区分别是哪些? #每年入境人数前三的国家或地区 select * from( select date,LocationName,Tourists,rank() over(partition by date order by a.Tourists desc) ranking from( select LocationName,date, (ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists, (DeparturesTourists+DeparturesVisitors+Departures) resident from tourism_data) a)b where ranking<=3; #每年出境人数前三的国家或地区 select * from( select date,LocationName,resident,rank() over(partition by date order by a.resident desc) ranking from( select LocationName,date, (ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists, (DeparturesTourists+DeparturesVisitors+Departures) resident from tourism_data) a)b where ranking<=3;

结合数据透视表进行分析:

德国出境旅客一直较多,中国大陆出发的出境旅客越来越多,这可能与大陆居民生活水平的提高以及国内航线网络日益发达相关。

法国一直是旅客青睐旅行地,香港的旅行市场也日益火热。

3.3.4 自1995年以来,人均出境消费和入境消费最多的前三个国家或地区是哪些?

#4、自1995年以来,人均出境消费和入境消费最多的前三个国家或地区是哪些? #人均入境消费最多的前三个国家或地区 select LocationName,round(costTotalIn/Tourists,3) costAvgIn from( select LocationName, sum(InboundTransportCost+InboundTravelCost) costTotalIn, sum(ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists from tourism_data group by locationname) a order by costTotalIn/Tourists desc; #人均出境消费最多的前三个国家或地区 select LocationName,round(costTotalOut/resident,3) costAvgOut from( select LocationName, sum(OutboundTransportCost+OutboundTravelCost) costTotalOut, sum(DeparturesTourists+DeparturesVisitors+Departures) resident from tourism_data group by locationname) a order by costTotalOut/resident desc;

令人感兴趣的是,很多非洲国家在人均出境消费水平上名列前茅。

3.3.5 自1995年以来,每年人均出境消费和入境消费最多的前三个国家或地区分别是哪些?

#5、自1995年以来,每年人均出境消费和入境消费最多的前三个国家或地区分别是哪些? #每年人均入境消费最多的前三个国家或地区 select * from( select date,LocationName,round(costAvgIn,3) costAvgIn, rank() over(partition by date order by b.costAvgIn desc) ranking from( select LocationName,date, case when Tourists=0 then 0 when Tourists !=0 then costTotalIn/Tourists end costAvgIn from ( select LocationName,date, (ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists, (InboundTransportCost+InboundTravelCost) costTotalIn from tourism_data)a)b)c where ranking<=3; #每年人均出境消费最多的前三个国家或地区select * from( select date,LocationName,round(costAvgOut,3) costAvgOut, rank() over(partition by date order by b.costAvgOut desc) ranking from( select LocationName,date, case when resident=0 then 0 when resident !=0 then costTotalOut/resident end costAvgOut from ( select LocationName,date, (DeparturesTourists+DeparturesVisitors+Departures) resident, (OutboundTransportCost+OutboundTravelCost) costTotalOut from tourism_data)a)b)c where ranking<=3;

结合数据透视表进行分析:

在2000年后,到澳洲、卢森堡以及黎巴嫩的旅客人均消费水平开始较为靠前,在2000年前后到摩尔多瓦和美国的旅客人均消费水平也较高。

在分年度进行分析时,澳大利亚出境的旅客人均消费一直较高,而部分非洲国家仅在2000年前排名较为靠前。

3.3.6 中国2000-2013年出入境旅游人数和人均消费水平的情况如何变化?

#6、中国(包含港澳和大陆)2000-2014年出入境旅游人数和消费水平的情况? select date,China,Tourists,resident, case when Tourists=0 then 0 when Tourists !=0 then round(costTotalIn/Tourists,3) end costAvgIn, case when resident=0 then 0 when resident !=0 then round(costTotalOut/resident,3) end costAvgOut from( select date, sum(ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists, sum(DeparturesTourists+DeparturesVisitors+Departures) resident, sum(InboundTransportCost+InboundTravelCost) costTotalIn, sum(OutboundTransportCost+OutboundTravelCost) costTotalOut from tourism_data where locationname like%China% and date between 2000 and 2014 group by date)a;

结合数据走势图进行分析:

中国出/入境游客数量一直保持增长,出境游客在2007年前消费水平一直较稳定,但在2010年后开始迅速增长,也快速拉小了与入境旅客消费水平的差距(2011年和2014年数据有缺失,故不列出)。

接下来对中国出入境游客的增长率进行进一步分析:

#7、对中国出入境游客增长率进一步分析 drop table chinatour; #建表方便调用 create table chinatour as( select date,China,Tourists,resident, case when Tourists=0 then 0 when Tourists !=0 then round(costTotalIn/Tourists,3) end costAvgIn, case when resident=0 then 0 when resident !=0 then round(costTotalOut/resident,3) end costAvgOut from( select date, sum(ArrivalsTouristsBorders+ArrivalsTouristsAccommodation+ArrivalsTouristsHotels+ArrivalsVisitorsBorders) Tourists, sum(DeparturesTourists+DeparturesVisitors+Departures) resident, sum(InboundTransportCost+InboundTravelCost) costTotalIn, sum(OutboundTransportCost+OutboundTravelCost) costTotalOut from tourism_data where locationname like%China% and date between 2000 and 2014 group by date)a); select date, case when tourists_pre is not null then round((tourists_now/tourists_pre-1)*100,1) else 0 end tourists_rate, case when resident_pre is not null then round((resident_now/resident_pre-1)*100,1) else 0 end resident_rate, case when costavgin_pre is not null then round((costavgin_now/costavgin_pre-1)*100,1) else 0 end costavgin_rate, case when costavgout_pre is not null then round((costavgout_now/costavgout_pre-1)*100,1) else 0 end costavgout_rate from( select a.date,a.tourists tourists_now,a.resident resident_now,a.costavgin costavgin_now,a.costavgout costavgout_now, b.tourists tourists_pre,b.resident resident_pre,b.costavgin costavgin_pre,b.costavgout costavgout_pre from (select * from chinatour)a #本年 left join (select * from chinatour)b #前一年 on a.date=(b.date+1))a where date not in(2011,2012) order by date;

结合走势图分析:

2003年出/入境游客增长率均为负值,这可能是因为当时国内爆发“非典”疫情,导致旅游业收到影响,但在2004年疫情结束后,旅行人数呈现报复性增长。

3.4分析结果启示

随着经济全球化发展,出国出境游日益火热,经济危机会影响出境游的热度;航线网络发达,有助于吸引游客来此旅行或中转,促进旅游业发展(如中国香港);某些突发性事件会暂时影响旅客出行意愿,在事件平息后旅游业可能会出现报复性反弹。

四、反思与计划

本文结合“提出问题-解释数据-分析数据-给出建议”的分析思路,分享了利用Mysql和Excel对全球旅游数据进行初步分析的过程。

下一步,我会尽量结合用户增长或其他案例,利用数据库、Python等综合进行分析,希望大家多多交流指导!

搜索