B站用户行为分析非官方报告

  • 时间:
  • 浏览:0

声明:本文来自于微信公众号 Crossin的编程教室(ID:crossincode),作者:清风小筑,授权站长之家转载发布。

上次,一帮人做了有另一一俩个 多B站/知乎大V排名监控工具(用python爬虫追踪知乎/B站大V排行)。

有读者问,這個初始数据是何如么获取的?你说是来自于有另一一俩个 多分析项目的副产品。

這個项目已经 今天给一帮人展示的内容:

关于 bilibili 上用户行为的统计分析

意味着完成统计意味着有一段时间了,越来太少数据何必 最新的实时数据

本项目由一帮人的实训生兼助教 清风小筑 完成。

获取代码、数据、图片及说明文档见文末

数据来源    

分析数据基于 bilibili 网站上的公开信息,主要分派了以下数据维度:

  1. 2016 年~ 2019 年 5 月,每月各分类视频发布数

  2. 2019 年1~ 5 月,播放量过1w视频的标签、播放数、发布时间

  3. 2019 年1~ 5 月,播放量过10w视频的弹幕数、评论数、收藏数

  4. 2019 年1~ 5 月,播放量过3000w的作者粉丝数、播放总数、视频数

难能可贵其中确定了 1w、10w、3000w 等门槛,意味着B站的视频我我随便说说越来太少了,且一点数据不出列表请求中,需逐个获取。出于研究学习的目标,一帮人没必要删剪抓取所有信息,只针对相对受欢迎的视频进行分析。

相关数据量    

2019 年不到7天 的视频发布量,意味着占到了B站全站视频量的 1/4 以上,可见其最近正进入高速增长时期。

以下分析,如无特殊注明均是针对 2019 年1~ 5 月帕累托图数据做出的统计。

历史趋势    

视频发布量有另一一俩个 多多比较明显的加速上涨趋势。另外,需用看出每年7、 8 月份前会 一波小峰值,意味着放假了……

周期规律    

每日的视频发布量有比较明显的波动,意味着你去看大图(已上传),会发现每一次波动前会 有另一一俩个 多星期。

意味着一帮人按每周一~日来合并统计,就会得到:

周末的发布量明显高于工作日,而周五是发布的高峰。

发布量反映的是作者的行为,而弹幕量则能反映出观众的行为。

对 2019 年1~ 5 月播放量前1w视频的弹幕发布时间进行了分析:

弹幕发布量同样呈现周期性,且比视频发布略滞后一天,峰值在周六周日。说明一帮人还是周末刷B站比较多。

一帮人将有另一一俩个 多曲线归一化对比就比较明显了:

意味着按每天的 24 小时进行合并统计,也会发现很明显的规律:

中午是小高峰,晚上是大高峰;

弹幕依旧滞后于视频

谁才是大佬?    

对于播放量过3000w视频的作者,做有另一一俩个 多排序(非最新数据):

粉丝数前20

视频播放总量前20

视频平均播放量前20

将视频总数/播放总量/粉丝数 3 个维度结合,综合成一张图表:

圈越大代表粉丝太少,越靠近左上说明强度越高(平均播放量高),越靠近右边说明UP主越勤劳。

意味着B站上的“贫富分化”真的很明显,数据量跨度极大,越来太少这张图用了对数坐标。

不何如就看下图上几只比较突出的点的删剪数据:

UP主 - 发布视频数 - 播放总数 - 粉丝数

  1. 暴走漫画 - 65 - 9. 73 亿 466. 61 万

  2. 哔哩哔哩番剧 - 8382 - 112. 89 亿 - 78. 42 万

  3. TAKERA - 18665 - 2. 49 亿 - 32. 14 万

  4. 柚子木字幕组 - 10864 - 9. 97 亿 - 3006. 05 万

哪些内容最受欢迎?    

对于播放量过1w视频的标签,做了一点统计:

相关视频量前20

播放总量前20

平均播放量前20(只统计视频量> 3000 的)

平均收藏前20(基于播放量过10w视频,标签相关视频量> 3000 的)

这是一张针标签平均弹幕量和标签平均播放量的散点图:

总体来说,对于热门标签,播放量和弹幕量前会 非常高;但一般标签,播放量和弹幕量的相关性并前会 不何如大。

把标签按视频总数、播放总量、删剪评论量、删剪弹幕量取Top3000,绘制出词云:

意味着把标准改成 平均播放量、平均评论量、平均弹幕量,则是:

看来有两位同志今年上7天 很火啊!

全站标题高频词云:

高频弹幕词云:

关于项目的一点说明

  1. 使用了哔哩哔哩网页版的视频、作者信息、弹幕、热评 API 进行数据抓取

  2. 使用 MongoDB 存储数据。为了方便学习者使用,另转存了一份 JSON 格式数据可直接导入

  3. 开发环境:python3.7 / Windows / jupyter notebook

  4. 运行依赖包:

  • requests

  • matplotlib

  • numpy

  • pymongo

  • pickle

  • jieba

  • wordcloud

抓取帕累托图并无不何如难度,在 github 项目页面,一帮人附上了具体的文档说明和代码注释。

意味着你上个月参与了一帮人的爬虫学习小组,现在应该也需用参照代码顺利完成抓取帕累托图的工作。

而关于数据可视化的内容,一帮人也调慢会开展相关小组。请留意一帮人公众号和群里的通知。

获取项目代码、数据、图片及说明文档,请在公众号(Crossin的编程教室)里回复关键字:

b站