新闻中心

关于某百度贴吧的数据分析(百度贴吧用户群体分析)

2023-11-19
浏览次数:
返回列表
年后我郑重地向家里宣布,为了响应国家的号召积极参与小康社会建设,我不能再在家里蹲着了,我要开始找工作!......后来就面试了某家游戏公司,他们回头还给我布置了一个作业:对他们公司游戏近期做一个舆情分析报告,三天内完成。

舆情分析这东西其实我也是第一次接触,我仔细研究了下发现该公司的对外交流展示平台比较少,他们把微博和QQ群作为和用户主要交流场所。微博搜关键词基本搜不到,QQ群我混进去也拿不到历史消息,所以只能拿百度贴吧来分析。最后捣鼓了三天(总计花了三四个小时),最后弄出了一篇报告。

当然!写这篇文章的目的不是把报告弄出来,而是想分享一下自己对百度贴吧的分析心得,看看大家还有什么好的建议。

数据的获取

本来是想自己用scrapy框架写一个爬虫,但是水平有限,偷懒就去github上找到了这个:

百度贴吧爬虫github.com/Aqua-Dream/Tieba_Spider

这个爬虫是基于scrapy框架+mysql,作者用的是python2的版本,我就稍微改了下让python3也能跑起来。跑出来的数据内容还是很多的,如下:

这个爬虫爬取了该公司主打产品对应的百度贴吧共42547条主题贴和805822条跟帖(没有抓取楼中楼的回复),一共跑了两小时不到,效率还是非常惊人的。

分析的切入角度

发帖数随着时间的变化跟贴数随着时间的变化用户活跃度用户新增情况发帖文本分析(近期高评论帖子,词云,情感分析)

这几个切入角度是我写的报告的主要构成部分,也是我目前能想到几个角度。发帖数和跟贴数比较基础的一个数据描述,用户活跃度和新增情况则是从用户发帖的频率和时间进行合理定义,稍微往下了一点,后文会提到。至于文本分析,就是另外一个维度。

我总觉得从数据层面,应该还能挖掘出更多的内容,希望大家能给我指点。

我最近也发现自己对于数据的分析很多都是止于表面(比如只是描述性),其实很多情况下可以往更深层次去思考(有次面试被一个很厉害的小姐姐也指出来了),还需继续努力!

情感分析API

情感分析是舆情分析中最关键的一部分。以前我在写我分析了王力宏、周杰伦、林俊杰和潘玮柏的32万字歌词:为了找到最伤感的一首歌也有涉及对歌词的情感分析,当时用的Bosonnlp的情感分析接口,一个账户一天之内只能调用500次,这次应用了百度的百度情感倾向分析-NLP,说实话还是蛮良心的,一个账户一天之内可以调用100000次(非广告),用下来感觉效果也不错,大家可以试一试。

附:“游戏XXXXX贴吧”舆情分析报告

本次舆情分析的数据来源于游戏XXXXX的百度贴吧,所有数据截止到2018-03-08 11:16:00(3月新版本推出之前)。利用python爬虫爬取了贴吧的帖子,内容包括主题贴,和每个主题下的回帖。所有的广告主题贴和楼层回帖会被去掉(即右下角有 “广告”两字的楼层)。

本次分析的数据共涉及42547条主题贴和805822条跟帖。(需要注意的是,本次针对贴吧历史舆情的分析,是基于没有大规模人为删除过帖子的前提)

一、贴吧发帖情况

贴吧的主题数和跟贴数是衡量贴吧热度的重要指标之一。首先来看一下主题数的变化趋势。

图1-贴吧每月主题数

由图1可得,贴吧的第一个帖子从2014年4月开始。每月发帖数逐月提高,在2015年的10月,月主题数达到顶峰,随后呈现出波动下降的趋势。最近九个月的主题数如图2所示,2017年6月到2018年2月,每月主题数从931个跌到了558个,虽然在17年7月和12月有短暂的重回高点。

图2-近九个月贴吧每月主题数

贴吧的每月跟贴数的趋势和每月主题数的趋势有所不同(图3),由于受到每个帖子内容的影响,跟贴数的变化较大,比如在2017年12月官方发的一则“【周年庆】三周年,送祝福“的主题帖回帖数高达22334条,而整个12月总回帖数才30605条,所以参考回帖数的时候,不能够参照总体数值,而是参考均值来的更有意义。

图3-贴吧每月回帖数

由于算均值会受到官方活动贴极大值的影响,所以在计算均值的时候,回帖数超过500的主题暂时不纳入,结果可得图4。基本上每月平均每贴的跟贴数在0到20条之间,变化不是特别大。根据图5显示,相比2017年年底,2018年1月和2月,贴吧用户的回帖热情有所高涨。

图4-贴吧每月平均每主题跟贴数图5-贴吧近九个月平均每主题跟贴数

二、贴吧用户情况

月活跃用户数(即MAU: Monthly Active Users),一般指最近一个月(含当日的30天)登录过的用户数,一般按照自然月计算。在这里,将登陆行为替换成发主题或者回帖行为,用于统计贴吧的活跃用户。贴吧的月活跃用户可以从一方面反映出用户对游戏的热情。

图6-贴吧月活跃用户数图7-贴吧近九个月活跃用户数

贴吧月活跃用户数从2014年4月起迅速增长,2015年9月左右开始呈上下波动趋势, 2017年4月开始有较为明显的下降趋势(图6)。

同样的情况也发生在新增用户数上。这里的新增用户指第一次在本贴吧发主题贴或者在某主题帖回帖的用户。可以看到,近9个月来,新增用户数量下降比较明显,2018年2月整月,只有75名新用户第一次发贴或者回帖(图9)。

图8-贴吧每月新增用户数图9-贴吧近九个月新增用户数

贴吧的月活跃人数和新增用户数的明显下降趋势需要引起重视,究竟是玩家真的流失了还是由于提供除贴吧之外的更多其他沟通平台(如qq群,微信公众号)所致?

三、用户(玩家)关注什么?

舆情的分析,除了对发帖回帖数量,用户活跃和新增用户的统计外,同样需要放置关注点在内容上。因此,选取了每个月回帖数位居前7的主题进行分析。由于存在着官方活动贴回帖数一般过高的情况,统计时分了两个版本,一个是正常统计,另一个是除去官方人员(即带有XXXX的用户)发帖后的版本。

图10-18年2月至3月初热门主题(上:正常版,下:除去官方版)图11-18年1月热门主题(上:正常版,下:除去官方版)图12-17年12月热门主题(上:正常版,下:除去官方版)

总的来说,用户对官方的主题活动贴热情一般都比较高,回贴数众多,尤其是前文也提到过的12月的“【周年庆】三周年,送祝福“一贴有22334条回帖。但是更需要关注的,应该是除去官方活动贴之外的热门主题贴,这些主题贴的回复数大都超过了50条回复,说明已经引起了网友用户们的热烈讨论。可以看到,这些热门贴以给官方提建议为主,也有一些求教、吐槽、炫耀的内容,这些帖子值得后续跟进。

词云是一种直观了解用户在说什么,关注什么的工具。本次分析利用jieba分词和wordcloud包,以及自建的词典(中文分词比较特殊,需要对部分名词自建词典,比如球员的中文译名),对近三个月的用户在贴吧发帖和跟帖的内容进行了分词,并制作了词云图。

图13- 2018年2月至3月初词云图 图14- 2018年1月初词云图图15- 2017年12月初词云图

可以清楚的看到,每个月用户的关注点是不同的。由于游戏也是一月一更新,也就说用户对每个版本的关注点都不一样:

1) 在球队位置上,2月份最受关注的是后卫,1月份是门将,17年12月中场门将和后卫均有涉及。

2) 球队关注上,AC米兰的关注度始终较高,1月和2月的高频词都有。其余几个热门的俱乐部有阿森纳,皇马,巴萨曼联等。

3) 每个月用户关注的球星也不一样,比如1月是布冯,菲戈,巴蒂,巴拉克等,2月是菲戈,维埃拉,巴拉克小罗等,17年12月是拉莫斯,梅西,莫德里奇,德赫亚等。

4) 2月份,大家对中立球员的关注度比较高

5) 策划经常在贴吧被提到,用户有很多话想和策划说。

6) 阵容问题也是每月的热门话题

7) 还有一些其他的包括世界杯、碎片、签到等……

除此之外,在高频词中,有一个82(因为非中文无法出现在词云中)频率出现极高,表明82的传奇球员在贴吧中的讨论涉及得比较多。

四、贴吧内容情感分析

情感分析是指根据对带有情感色彩的主观性文本进行分析,识别出用户的态度,是喜欢,讨厌,还是中立。本次舆情分析利用百度自然语言处理API的接口对近三个月的贴吧内容文本(包括主题帖和回帖)进行情感判断。图16是一则情感分析的例子,百度的情感分析系统很好的识别出了这个用户消极情感。

图16- 情感分析单句举例图17- 情感分析结果

由图中的情感分析的结果显示,近三个月来,用户创造的贴吧内容所包含的积极情感比重有所上升,从不足一半,到超过了一半,即便整体还是基本保持中立态度。

此次是对历史情感的分析,只是从整体入手。其实可以建立实时情感分析,对于贴吧内实时出现的帖子进行单句情感分析,一旦消极比重过高,即可触发预警,相关人员可以进行查看并做相关跟进和处理。

五、总结

本次舆情分析以贴吧为切入点,研究了自第一个主题帖以来的贴吧发帖情况,用户增长和用户活跃情况,也进一步的查看了近九个月的数据。除了平均每月每主题跟帖数有所上升之外,每月主题数,每月新增用户、每月活跃用户都有明显的下降趋势,这是一个必须值得注意的问题。

本报告重点关注了用户关心的内容,筛选出近三个月的几个热门话题,除了官方活动帖之外,用户的建议贴热度比较高,建议仔细阅读,看看有没有可取之处。除此之外,词云图揭示了用户在每个版本中关注点的不同,可以根据这些关注点寻找问题或者提升空间,在下一版本做出改变。

最后,用情感分析的方法对贴吧整体内容进行了情感分析,结果较好,最近三个月呈现积极情感增加的趋势,建议建立实时贴吧舆情机制,用于快速定位问题、控制舆论走向以及解决用户问题。

搜索