研究报告 | 微博评论中的水军异常流量分析
6park.comhttps://zhuanlan.zhihu.com/p/436967668 6park.com研究报告 | 微博评论中的水军异常流量分析 kidyovr.github.io/kidyovr 关注 572 人赞同了该文章 目录 收起 一、数据来源 二、分析内容 (一)前排热评中的营销号乱象 (二)时间线对比水军乱象 (三)文本分析对比水军话术 (四)评论用户分析(TODO) 三、暂时性的题外话 6park.com2021.11.24 08:53发布:具体内容是一个通宵写出来的,一些数据和分析还未曾完善。其中粗糙的地方请指正。 2021.11.26 08:56更新:添加摘要,更新图表,标记TODO。 一、数据来源 本报告采集了数十万微博评论数据,并对涉及的舆情热点进行异常流量分析。 6park.com数据特点有: 发布时间戳精确到秒; 样本覆盖率高; 分析粒度精确到分钟,如每分钟评论数、每分钟评论平均长度等; 注:评论数据不包含楼中楼。 数据来源为:可公开访问的微博评论,包括:人民日报发表于8月13日16:39的微博、央视新闻发表于8月13日18:26的微博、人民日报于8月16日评吴某、8月21日评李某的微博,以下分别简称为微博A1、A2和B1、B2。后两者作为热点舆情事件的baseline,对比可观测到我们所研究的A1和A2两条微博中存在明显的异常流量现象,实质为营销号和水军联动制造的虚假舆情。 以微博A2和B1为例,采集到的数据分布与真实的数据分布图如下: 6park.com二、分析内容 (一)前排热评中的营销号乱象 本节分析内容:在人民日报的微博A1发表前60秒中,存在营销号异常评论现象。此微博发表于16:39:58,被营销号迅速占据热评高位,受到大量水军控评冲击,最终编辑于17:14:27——删去了其中「人民微评:要道歉,更要"补课"」字样。 6park.com什么是假舆情假民意?什么是营销号乱象? 变量解释:下述表格中第一列floor_number为该评论是严格意义上的第几个评论,缺失值可能是对应评论已被删除。第二列diff_seconds为评论时间与微博发布时间之差,单位为秒。第三列created_at为评论发表的时间戳,精确到秒。第四列len_text为所发表评论的文本长度。第五列text为对应评论内容。第六列like_count为点赞数。第七列folloers_count为评论用户的粉丝数,大于一万者取整。 6park.com一、数个营销号在几秒之内复制粘贴大段文字,甚至不曾删去其中的复制标记[/cp]? 6park.com截取前25层,15秒之内存在数个营销号发布的百余字评论,并且这些评论都被大量点赞(or 买赞),从10w至50w不等。 某营销号连续发表两条相同内容,甚至有一条忘记删除复制标记[/cp]。 营销号怎么有时间研读清楚人民日报的社评呢?他们是不管官方进行怎样的引导,都会重复同一套话术,并且通过水军+买赞牢牢占据热评高位,从而影响舆论走向。 6park.com二、一个营销号一分钟内连续发布7条,总计近八百字小作文? 6park.com数条评论涉及各个方面,应为事先准备的攻讦文案。 您这八百字小作文是不是应当起一个标题,叫做《在官媒下刷屏控评引导舆论是门大生意》?还是《操纵群众朴素的爱国情绪是门大生意》? 6park.com(二)时间线对比水军乱象 6park.com一、A1人民日报:发博的第一个小时显著异常,评论热度始终不退。 6park.com正常的新闻每分钟评论量变化应当如B1(吴某)一样,呈现近似随时间指数递减的状态。 作为对比的baseline中,吴某与李某的评论热度呈现出了相同的衰减曲线。(李某曲线暂时未放。) A1人民日报的评论量却呈现了一种异常状态,即每分钟评论数始终维持在高位,是水军进行不断评论冲击造成的。从发博到17:45,经过一个小时后,随着水军离场,热度才渐渐降下来,并且是近似线性而非指数下降。 二、A2央视新闻:每分钟评论量曲线就更加异常,明显呈现出几个不同的阶段。 6park.com20:25之前,该微博的评论曲线同B1一样,呈现出正常的衰减。理论上,如果没有水军持续冲击的话,A1也应当服从这一规律。此外,注意到A2的峰值和流量都远小于A1,这可能才是所谓的脱水数据。 20:25,在该微博热度基本退去的时候,相关词条突然登上热搜,导致其评论数迅速增加。(编者个人主观质疑该热搜是买的。) 21:17,该新闻的每分钟评论量再次骤涨,新一波水军到达战场。我们注意到如下图虚线,如果没有这波水军的存在,是不是原有曲线应按照虚线所示平滑地进行衰减呢? 22:38,为何该新闻中的水军热度突然飞快褪去,以至于出现了一个明显的"坑"? 初步猜想可能是由于一部分水军被新的任务吸引,于是编者check了当晚的热搜数据,发现几乎同一时刻#张哲瀚坐苏小小墓上拍照#热搜热度开始迅速攀升。 具体相关内容还有待进一步仔细采集分析。 6park.com(三)文本分析对比水军话术 6park.com本节目前完成了基础分析,其余部分TODO。 6park.com人民日报评论的平均文本长度高于央视新闻中的评论长度,并且显著高于其他作为baseline的微博平均文本长度。(该数据需进一步处理。) 波动较大的区域是由于评论样本量较少。一是到了深夜,二是如央视新闻于发博后60-120min时热度其实已经退去,每分钟评论数已小于100。真实评论和采样评论的分布图如第一节数据分布中所示。 采样率基本均高于80%,即如果该分钟有1000条评论至少采集到了800条。可以认为用采样到的评论来估计真实评论区的状态是有效的。 根据编者观察,人民日报下的水军话术明显带有【小作文】特点,也因此导致其文本长度显著不同于常规微博评论。 水军密集的地方,「封杀」、「退圈」及一些侮辱性词汇和不实信息的密集度明显增高,数据分布显著不同于常规路人发声。(TODO) (四)评论用户分析(TODO) 因为可能出现一人多号、披皮黑等问题,查IP是最简单直接的解决方式,理论上真实数据应当由平台提交给国家相关部门进行处理。囿于条件,我们只能对每个账号进行分析。 6park.com1. 是否为水军账户? 6park.com纯水军账户的判断相对容易,我们可以将互关数、沉寂关注数、发博频率、粉丝分布、转发关系等作为特征进行训练,得到正确率较高的水军判断模型。 如,纯水军账户一般很少有互关、存在大量僵尸粉、发博集中在某一时间段、粉丝分布及其分散、转发关系异常不存在好友互动。 相关特征工程及模型可以参考^1。 2. 兼职水军比较难以判断。 6park.com许多评论明显能看出来引导痕迹,但是确实不是那种廉价的5毛一条的评论。 即使5元一条,10w条评论也才多少钱呢?却可以操控舆论风向,甚至倒逼官媒改口,这才是让资本掌控了话语权! 3. 哪些是带着明显粉籍在控评? 6park.com如果不能客观、公正地参与事件讨论,而是挟私控评,那就是粉圈思维对人行为的异化。 三、暂时性的题外话 还是那句话,永远坚定立场,不要因为任何可能的原因冲击任何组织。 张先生的粉丝群体要表现出素养与理智,应远不同于"粉圈行为"。 乱带节奏和线下上访的人属性不明,至少绝不是张先生粉丝。我方从不曾与其联络,从不赞同其做法,从未参与其行动。
|