【深度】谁在互联网上生产垃圾?
垃圾信息的生产已有成熟的流水线,而与其的对抗与纵容,也成为互联网世界中的常态。
记者 |佘晓晨
编辑 |文姝琪
超过6成的中国人在网络平台消费内容,同时,其中一部分人也扮演着生产者的角色。
随着Twitter、微博的出现,UGC(User Generated Content,用户生产内容)开始成为网民在互联网上浏览的重要信息。根据中国网络视听节目服务协会发布的报告,截至2020年12月,我国网络视听用户规模达9.44亿,其中短视频用户已达8.73亿。
UGC平台随着移动互联网的扩张愈加普及和通用,而它的副作用也随之而来——首先是注意力被占用,紧接着是迅速消逝的时间和被放大的情绪。而在海量内容当中,能找出真正称得上是“有用信息”的东西,无异于在沙里淘金。
很多用户都有过这样的经历,抖音里经常能刷到不同的博主念着一模一样的文案,煞有介事地给观众说教或者科普,实际上他们也不懂自己说的是什么。这些都是做号团队在背后操纵批量生产。
垃圾信息的生产已有成熟的流水线,而与其的对抗与纵容,也成为互联网世界中的常态。
流水线
有生产者毫不讳言自己产出的内容就是“垃圾”。
2018年后,抖音快手迅速崛起,信息流广告成为极为热门的投放方式。于梦在一家教育公司上班,她的工作是做出适合“混在”抖音里的广告。这些广告会被投放到“目标用户”的终端里,吸引他们点开,再引流到自家的教育课程APP上。
这份工作肯定谈不上是创作。
“首先是分析数据,从广告上线到用户触达,都有一系列的硬性指标去衡量。”捆住于梦的KPI包括且不限于点击率、转化率、3秒播放、5秒播放等等数据。教育行业的特殊性让她觉得工作多少有点意义,但她还是觉得,这些视频“99%都是垃圾”。
做信息流广告,没有量,一切都是空谈。在于梦的团队里,一个人一个月可以做出150条左右的视频。这意味着每天每个人需要产出7条内容。每条视频有自己的去处——它们对应着不同的抖音ID,一个ID就是一个广告“点位”。
上传好一条视频后,于梦会在后台设置出对应的“点位”。地理位置、年龄、手机类型甚至职业,都能成为“点位”的区分点。
公司业务增长确实也从中获益,但那些点击量极高的视频在哪一个环节起了作用,并没有一个确定的原因。
于梦说,爆款短视频广告的成功有运气成分,而制作投放只是基础动作。在视频内容同质化竞争越来越强的情况下,后续的效果还需要市场检验。总而言之,量是有用的。于梦和她的同事只能周而复始地生产内容。
另一部分流水线的搭建则源于甲方对“流量”的需求。评论、点赞、转发——所有的可量化指标都会变成“数据”,没人在意数据之下,100字的内容到底从何而来。
“冲热搜”是李晖工作中最重要的部分。客户有需要的时候,李晖负责找水军、找大V发帖。从素人号到KOL,所有的内容发布都是明码标价的。
负面舆情处理是最典型的例子。一两个小时之内,李晖和他的团队就能完成几十个内容模板,然后通过“水军供应商”发布出去。
做出阅读量和热度是最基本的操作,属于供应商们的“数据维护”业务。而在所有“水军”中,素人号是最多的,“随手点开一个热门微博的评论就有”;预算足够的话,就可以买到更高级的僵尸粉,他们的账号权重更高,评论会排在前面。
李晖比任何人都清楚哪些东西是假的。他对水军的文案“套路”烂熟于心,点开微博热搜,李晖基本上可以判断出哪些词条是买上去的。
对抗“垃圾”
更多的“垃圾”躲在暗处。
它们像是内容广场里的蛀虫:一旦野蛮生长,整个广场都会被腐蚀。在QQ群搜索“知乎批量评论”、“小红书笔记代发”,组织者用2元的低廉价格获取一条垃圾信息,一条条黑灰产业链就此延伸。
和垃圾对抗是魏宁的日常工作。作为一家国内安全服务公司的产品负责人,他和团队为很多知名互联网公司提供内容安全服务。涉黄、涉政和暴恐内容,都属于他们监测的范围。
算法和模型是其中的关键。首先加入战斗的是负责人工打标的员工,他们熟知哪些网站有“垃圾内容”的素材,这是他们搜集样本的来源。一个样本里通常只有1-2处可以标注出来的垃圾内容特征,被标注的样本进入模型侧,再进行后续的机器学习和训练。
最近一两年,黑灰产中的垃圾内容是内容安全产品重点监测的领域,例如杀猪盘。发布这些内容的人往往来自于同一个团伙。魏宁称,在检测出发布者的设备后,他们会将此设备上登录的账号都定义为违规,然后直接封禁该设备。这样一来,垃圾内容的发布者就需要换个账号甚至换个手机来去进行下一次发布,成本就会大幅提高。
“这些发布者往往有一些共性的行为特征,例如注册登陆的行为、使用的头像以及对自己的描述和聊天内容。”总结下来,魏宁认为,最好的办法是将业务安全和内容安全相结合,提高垃圾内容的发布成本。
大公司逐渐完善自己研发的内容审核平台,而不少中等规模的内容平台则会选择和魏宁的团队合作。审核的技术思路大多类似,但大厂配备的审核人员更多,用“人工+AI”完成整个检测过程。
不过与此同时,垃圾生产者们也会学着“进步”,想尽办法绕过平台监管。
从平台角度看,生产与清理也是一个持续对抗的过程。
一位从2014年开始从事内容安全服务的产品总监告诉界面新闻,他们研发的产品人工复审率在3%以内。如果一个平台一天有1万个内容数据,内容审核员只需要重点审核处理其中的300多个,相比人工的效率提升将近30倍。
但算法亦有其存在的弊病。正因为平台过于依赖算法,内容生产者往往会思考如何“踩中”算法的推荐点,优先级甚至高于取悦用户。在今日头条工作过的一位运营看来,这也会导致内容的畸形。比如一些文章标题堆砌着容易得到流量推荐的关键词,但连文本通顺都难以做到。
这也是为什么互联网公司需要大量“运营”岗位——人必须和技术一起对抗垃圾,“和算法做斗争”也存在必要性。
纵容
“垃圾”一定是不必要的吗?对于大公司来说,未必能给出肯定的答复。
在某个头部手机厂商实习的经历,颠覆了姜玲玲对“内容运营”这个岗位的认知。她的工作职责是给公司的新产品拉新促活。再细化一下工作任务,则是每天逛豆瓣和贴吧,找到合适的内容“搬运”到新的APP。
新产品面向下沉用户,足够“下沉”的内容才受欢迎,越是“震碎三观”的故事越有阅读量,比如家长里短、婚恋相亲、美女八卦。找到这些内容之后,姜玲玲需要快速改写,在公司开发的APP里批量发布,“不停灌水”。
在某个文娱互联网公司工作过的刘燕有相似的经历。在公司开发的音乐类APP上线之初,刘燕的工作是在各大音乐播放软件中翻找评论,通过搬运和改写,为每一首歌“匹配”5-6条人工评论。每天下班之前,100多首歌曲和评论被汇总在excel表格里,显示她的工作成果。
即使过了早期发展的阶段,平台对于垃圾内容的态度也不是非黑即白。在这里,定义“价值”需要另一套衡量标准:在不违规的情况下,内容本身能够吸引用户,就是最大的价值。
对于那些重复的、没有什么营养的垃圾信息,上述今日头条的运营能感受到平台的某种包容。作为一个信息聚合类的平台,今日头条缺少原生热点,因此需要大量的内容支撑整个平台的运作。信息量足够大,用户才能搜索到想要的东西,算法的精确性才能得以验证和提升。一位业务领导曾在开会的时候对他们说,运营的工作就像是“在大海里捞鱼”。
事实也证明了这种“包容”的作用。公开信息显示,今日头条上线一年后,用户数突破5000万;上线4年时间,累积6亿的激活用户;2021年Q1,Trustmobile数据显示,今日头条的月活超过2.8亿。
一些犹豫是否要创造大海的产品也消失了。几年前,一个新闻资讯产品在今日头条的迅猛攻势下出现危机感。一位参与该产品运作的人士告诉界面新闻,她明显感觉到,对于是否“包容”垃圾信息,团队内部始终没有达成一致。在APP上线很久之后,内容编辑还在各种会议上探讨,“是否要给下沉市场的人群传送垃圾内容?”如今,该APP已经关停。
在用户增长和高质量内容面前,平台方始终保持着一种微妙的博弈态度。但随着竞争和监管的加强,平台也意识到,一个想要长远发展下去的产品,必须提供更干净的海洋。
据Tech星球报道,今年今日头条成立了两个新业务团队,其中一个团队将去做定位高端的资讯平台和智能阅读工具“识区”。早期以“土味视频”为增长引擎的快手,今年也频繁发力知识类视频和直播内容。一位创业者决定在今年投身知识内容的孵化,原因是“平台不会永远给用户喂垃圾。”
但商业公司的天性是追逐利益,人的天性则是寻求不费力的趣味和刺激。在技术之外,和垃圾信息的对抗,更像是人性与人性之间的永恒战争。
(应采访对象要求,文中所涉人名均为化名)
关键词: 谁在互联网上生产垃圾?