[返回网际谈兵首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
研究报告 | 微博评论中的水军异常流量分析
送交者: shoppersVIP[★★★悠悠★★★] 于 2021-11-30 15:01 已读 8894 次 6 赞  

shoppersVIP的个人频道

6park.com

https://zhuanlan.zhihu.com/p/436967668 6park.com

研究报告 | 微博评论中的水军异常流量分析
kidyovr.github.io/kidyovr
​关注
572 人赞同了该文章

目录
收起
一、数据来源
二、分析内容
(一)前排热评中的营销号乱象
(二)时间线对比水军乱象
(三)文本分析对比水军话术
(四)评论用户分析(TODO)
三、暂时性的题外话 6park.com

2021.11.24 08:53发布:具体内容是一个通宵写出来的,一些数据和分析还未曾完善。其中粗糙的地方请指正。
2021.11.26 08:56更新:添加摘要,更新图表,标记TODO。
一、数据来源
本报告采集了数十万微博评论数据,并对涉及的舆情热点进行异常流量分析。 6park.com

数据特点有:
发布时间戳精确到秒;
样本覆盖率高;
分析粒度精确到分钟,如每分钟评论数、每分钟评论平均长度等;
注:评论数据不包含楼中楼。
数据来源为:可公开访问的微博评论,包括:人民日报发表于8月13日16:39的微博、央视新闻发表于8月13日18:26的微博、人民日报于8月16日评吴某、8月21日评李某的微博,以下分别简称为微博A1、A2和B1、B2。后两者作为热点舆情事件的baseline,对比可观测到我们所研究的A1和A2两条微博中存在明显的异常流量现象,实质为营销号和水军联动制造的虚假舆情。
以微博A2和B1为例,采集到的数据分布与真实的数据分布图如下: 6park.com

二、分析内容
(一)前排热评中的营销号乱象
本节分析内容:在人民日报的微博A1发表前60秒中,存在营销号异常评论现象。此微博发表于16:39:58,被营销号迅速占据热评高位,受到大量水军控评冲击,最终编辑于17:14:27——删去了其中「人民微评:要道歉,更要"补课"」字样。 6park.com

什么是假舆情假民意?什么是营销号乱象?
变量解释:下述表格中第一列floor_number为该评论是严格意义上的第几个评论,缺失值可能是对应评论已被删除。第二列diff_seconds为评论时间与微博发布时间之差,单位为秒。第三列created_at为评论发表的时间戳,精确到秒。第四列len_text为所发表评论的文本长度。第五列text为对应评论内容。第六列like_count为点赞数。第七列folloers_count为评论用户的粉丝数,大于一万者取整。 6park.com

一、数个营销号在几秒之内复制粘贴大段文字,甚至不曾删去其中的复制标记[/cp]? 6park.com

截取前25层,15秒之内存在数个营销号发布的百余字评论,并且这些评论都被大量点赞(or 买赞),从10w至50w不等。
某营销号连续发表两条相同内容,甚至有一条忘记删除复制标记[/cp]。
营销号怎么有时间研读清楚人民日报的社评呢?他们是不管官方进行怎样的引导,都会重复同一套话术,并且通过水军+买赞牢牢占据热评高位,从而影响舆论走向。 6park.com

二、一个营销号一分钟内连续发布7条,总计近八百字小作文? 6park.com

数条评论涉及各个方面,应为事先准备的攻讦文案。
您这八百字小作文是不是应当起一个标题,叫做《在官媒下刷屏控评引导舆论是门大生意》?还是《操纵群众朴素的爱国情绪是门大生意》? 6park.com

(二)时间线对比水军乱象 6park.com

一、A1人民日报:发博的第一个小时显著异常,评论热度始终不退。 6park.com

正常的新闻每分钟评论量变化应当如B1(吴某)一样,呈现近似随时间指数递减的状态。
作为对比的baseline中,吴某与李某的评论热度呈现出了相同的衰减曲线。(李某曲线暂时未放。)
A1人民日报的评论量却呈现了一种异常状态,即每分钟评论数始终维持在高位,是水军进行不断评论冲击造成的。从发博到17:45,经过一个小时后,随着水军离场,热度才渐渐降下来,并且是近似线性而非指数下降。
二、A2央视新闻:每分钟评论量曲线就更加异常,明显呈现出几个不同的阶段。 6park.com

20:25之前,该微博的评论曲线同B1一样,呈现出正常的衰减。理论上,如果没有水军持续冲击的话,A1也应当服从这一规律。此外,注意到A2的峰值和流量都远小于A1,这可能才是所谓的脱水数据。
20:25,在该微博热度基本退去的时候,相关词条突然登上热搜,导致其评论数迅速增加。(编者个人主观质疑该热搜是买的。)
21:17,该新闻的每分钟评论量再次骤涨,新一波水军到达战场。我们注意到如下图虚线,如果没有这波水军的存在,是不是原有曲线应按照虚线所示平滑地进行衰减呢?
22:38,为何该新闻中的水军热度突然飞快褪去,以至于出现了一个明显的"坑"?
初步猜想可能是由于一部分水军被新的任务吸引,于是编者check了当晚的热搜数据,发现几乎同一时刻#张哲瀚坐苏小小墓上拍照#热搜热度开始迅速攀升。
具体相关内容还有待进一步仔细采集分析。 6park.com

(三)文本分析对比水军话术 6park.com

本节目前完成了基础分析,其余部分TODO。 6park.com

人民日报评论的平均文本长度高于央视新闻中的评论长度,并且显著高于其他作为baseline的微博平均文本长度。(该数据需进一步处理。)
波动较大的区域是由于评论样本量较少。一是到了深夜,二是如央视新闻于发博后60-120min时热度其实已经退去,每分钟评论数已小于100。真实评论和采样评论的分布图如第一节数据分布中所示。
采样率基本均高于80%,即如果该分钟有1000条评论至少采集到了800条。可以认为用采样到的评论来估计真实评论区的状态是有效的。
根据编者观察,人民日报下的水军话术明显带有【小作文】特点,也因此导致其文本长度显著不同于常规微博评论。
水军密集的地方,「封杀」、「退圈」及一些侮辱性词汇和不实信息的密集度明显增高,数据分布显著不同于常规路人发声。(TODO)
(四)评论用户分析(TODO)
因为可能出现一人多号、披皮黑等问题,查IP是最简单直接的解决方式,理论上真实数据应当由平台提交给国家相关部门进行处理。囿于条件,我们只能对每个账号进行分析。 6park.com

1. 是否为水军账户? 6park.com

纯水军账户的判断相对容易,我们可以将互关数、沉寂关注数、发博频率、粉丝分布、转发关系等作为特征进行训练,得到正确率较高的水军判断模型。
如,纯水军账户一般很少有互关、存在大量僵尸粉、发博集中在某一时间段、粉丝分布及其分散、转发关系异常不存在好友互动。
相关特征工程及模型可以参考^1。
2. 兼职水军比较难以判断。 6park.com

许多评论明显能看出来引导痕迹,但是确实不是那种廉价的5毛一条的评论。
即使5元一条,10w条评论也才多少钱呢?却可以操控舆论风向,甚至倒逼官媒改口,这才是让资本掌控了话语权!
3. 哪些是带着明显粉籍在控评? 6park.com

如果不能客观、公正地参与事件讨论,而是挟私控评,那就是粉圈思维对人行为的异化。
三、暂时性的题外话
还是那句话,永远坚定立场,不要因为任何可能的原因冲击任何组织。
张先生的粉丝群体要表现出素养与理智,应远不同于"粉圈行为"。
乱带节奏和线下上访的人属性不明,至少绝不是张先生粉丝。我方从不曾与其联络,从不赞同其做法,从未参与其行动。
喜欢shoppersVIP朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ shoppersVIP的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回网际谈兵首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

手机扫描进入,浏览分享更畅快!

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]