谁还在说中国病毒?科学家追踪1700万人 曝光真相

今日头条
Toutiao
最新回复:2020年4月27日 14点1分 PT
  返回列表
67201 阅读
50 评论
机器之心

病毒影响了人们的身体,也在改变着人与人之间的关系。美国罗切斯特大学的计算机科学家正从推特舆情中分析新型冠状病毒大流行带来的社会影响,其结果令人深思。

自今年 1 月底以来,新冠肺炎(COVID-19)逐渐呈现全球范围流行趋势,成为国内外人们议论的中心。虽然早在 2 月世界卫生组织(WHO)就将该病毒命名为 2019 冠状病毒病(COVID-19),但在国外社交网络上仍有不少用户使用「武汉肺炎」、「中国病毒」这类完全错误的说法。

但使用这些词汇的人到底有多少?他们是什么样的人?使用这些词汇的心理动机是什么?近日,罗切斯特大学的研究人员对此进行了一系列研究。

根据 GDELT 数据,全球线上媒体报道范围内,提到「中国流感」一词的新闻报道量从 1 月 18 日开始上升,而世界卫生组织 WHO 的官方标准名词是 COVID-19。同时,与 COVID-19 有关的种族袭击事件的报道量也在增加。

随着新冠病毒的全球大流行,新冠病毒成为社交平台上用户讨论的热点。这些用户在提到 COVID-19 的时候,主要有两种提法,一种是使用「中国病毒」(Chinese Virus)或者「武汉病毒」(Wuhan Virus)这类词汇,另一种是使用「新冠病毒」(Coronavirus)这类词汇。

罗切斯特大学的研究团队使用 Tweepy API 抓取大量数据,并对选择这两种用词的人群从年龄、性别、政治倾向、地理位置以及更深层的心理层面进行了分析。

社交媒体上说「中国病毒」的都是什么人

该研究团队于 4 月中旬发表了系列研究的第一篇论文《Sense and Sensibility: Characterizing Social Media Users Regarding the Use of Controversial Terms for COVID-19》,作者为罗切斯特大学 Goergen 数据科学中心 Hanjia Lyu、计算机科学系 Long Chen 和罗杰波,以及政治学系 Yu Wang。

该研究团队使用 Tweepy API 抓取了一千七百万条推特及其作者信息,试图研究选择这两种用词的人群在年龄、性别、用户层面特征(如粉丝数量、是否为大 V 用户)、政治倾向(在推特上粉了哪些重要的两党人物),以及地理位置上的区别。在研究中,团队还设计了分类器用于预测哪些推特用户更倾向于使用如「中国病毒」这类词汇。

根据对上百万条推特的分析,研究人员得出了很多值得关注的结论:

使用「中国病毒」这类表述的男性占比 61%;

使用新冠病毒这类表述的男性占比 56.2%;

使用新冠病毒这类表述的人里面,一半以上年龄在 35 岁以下;

来自乡村地区和城郊的推特用户更具有使用「中国病毒」这类表述的倾向;

在可确定政治倾向的人群中,唐纳德·特朗普的支持者最倾向于使用「中国病毒」这类表述,伊丽莎白·沃伦、皮特·布特吉(均为 2020 民主党前总统候选人)的支持者最倾向于使用中立词汇 ;

推特账户建立时间越长的用户越倾向于使用新冠病毒这类表述。

图 1 是全球有关「中国流感」以及 COVID-19 相关的种族袭击新闻报道的体量时间线。与 COVID-19 有关的种族袭击事件的新闻报道量仍在不断上升。已有研究发现部分媒体将 COVID-19 与「中国病毒」直接挂钩的报道对在全球范围内旅行的中国人精神健康造成了负面影响。除此之外,社交平台上「中国病毒」或「中国流感」的使用量也在增加。3 月 16 日,美国总统唐纳德·特朗普使用其推特账户明确将 COVID-19 称作「中国病毒」。尽管他在之后声称这种用法并没有种族含义,但针对在美亚裔的种族主义与歧视仍在美国社会蔓延。

图 1:「中国流感」与 COVID-19 相关种族袭击新闻报道的密度。

Matamoros-Fernandez 曾提出「平台种族主义」(platformed racism)的概念,如推特这样的社交平台其实是种族主义的放大器。使用有「中国病毒」这类表述指向 COVID-19 的时候可能是在发布仇恨言论,仇恨言论反映了存在于社会内的矛盾。在社交平台上,仇恨言论的传播极度迅速,甚至可以跨平台,并且留存较长的时间。即便事后被有意识删除,人们仍旧可以在互联网的其他地方甚至线下找到痕迹。

罗切斯特大学的研究聚焦于分析使用「中国病毒」词汇或「新冠病毒」词汇的人群在年龄、性别、用户层面特征(如粉丝数量、是否为大 V 用户)、政治倾向(在推特上粉了哪些重要的两党人物),以及地理位置上的区别。

为了找到这样的用户,该研究以「中国病毒」和「新冠病毒」为关键词,抓取使用了这两类词汇的推特及其发布者,将推特里有「中国病毒」的划分为CD组,将推特里有「新冠病毒」的划分为ND组。经过分析,该研究得到了以下发现。

年轻人更倾向于使用 ND 词汇

图 2 展示了两组人的年龄分布。在两组内,25-34 岁是用户数量最多的年龄段,这也与全体推特用户的年龄分布一致。然而两个组的各年龄段占比却显著不同(p

图 2:CD 与 ND 组用户的年龄分布。

该研究进而发现,ND 组里女性用户占比比 CD 组里女性占比更高。而在比较了用户的粉丝数(#followers)、好友数(#friends)、状态数(#statuses)、点赞数(#favourites)、小组数(#listed_membership)这 5 个用户特征(推特上的「社会资本」)后可知,社会资本(social capital)更高的用户使用「中国病毒」这类词汇的比例更低。

对于这一点观察原因的推测是,这些用户有更多的观众,所以会在发布内容时更加谨慎。有发现表明,推特用户认为自己的状态(哪怕不是自己原创的)是自己的「财产」,所以在发布状态时会格外谨慎,在好友之间分享时也更加小心。

另一方面,研究发现 ND 组的用户账号成立时间中位数为 74 个月,而 CD 组里的账号成立时间中位数为 63 个月,差距几乎是一年。

此外,还有一些统计结果:倾向于共和党和支持唐纳德·特朗普的用户更加倾向于使用「中国病毒」这类词汇;居住在乡村的用户更加倾向于使用「中国病毒」这类表述。

在使用这类词汇时,他们在想些什么?

喜欢说「中国病毒」的人通常关注共和党,进入社交网络时间较短比较莽撞?如果你觉得这些结论看起来比较浅显,该团队在第二篇论文的进一步研究中,给出了对推特用户更深层次的分析。

论文 2:《In the Eyes of the Beholder: Sentiment and Topic Analyses on Social Media Use of Neutral and Controversial Terms for COVID-19》

该团队这次获取了更多数据。通过 Tweepy API,研究人员共获取 2,607,753 条 CD 推特文本,69,627,062 条 ND 推特文本,从两个组中分别抽样两百万条作为最终的研究数据集。研究人员使用 Latent Dirichlet Allocation (LDA) 提取文本话题信息,最终在 CD 和 ND 组中分别提取出最重要的 5 个话题,每个话题包含 10 个单词。

下表展示了研究者根据 LDA 模型获得的 CD 与 ND 组的话题关键词。

表 1:CD 与 ND 组的前 5 话题。

为深入了解两组用户,该研究使用 Linguistic Inquiry and Word Count 2015 (LIWC2015) 提取文本所带的作者情绪以及心理层面信息,最终提取出 4 个总结性语言学变量,以及 12 个更详细的语言学变量。LIWC2015 是一个以预置字典为基础的文本分析工具,通过计算每种类型词汇在一篇文章中出现的频率,反映并捕捉文本的情感、作者的心理层面信息、作者的动机和时间(过去、现在、未来)关注度,以及作者所关心的事物信息。

经过分析,研究人员得出了以下结论。

ND 组用户的语言逻辑性更强,表达更真诚,情绪相对更积极正面

图 1 展示了 CD 和 ND 组文本在 4 项总结性语言学变量的得分。

图 1:CD 与 ND 组总结性语言学变量。

CD 和 ND 组在「Clout」一项的得分相近。较高的「Clout」得分代表作者在写下这些文字的时候更多地站在一个专业的角度。与此同时,ND 组的「Analytical thinking」、「Authentic」以及「Emotional tones」得分都比 CD 组高。

「Analytical thinking」得分反映的是文本的逻辑性,较高的「Analytical thinking」分数意味着该文本更正式、更有逻辑。「Authentic」分数越高意味作者在写下这些文字的时候表达更为真诚。CD 和 ND 组的「Emotional tones」的得分都比 50 低,意味着两个组的文本主要情绪基调都是负面的,然而研究者从中发现了一些细微的差异:ND 组的文本相对 CD 组的文本更积极正面。

ND 组更关注自己未来的行为,CD 组用户更关注别人的现在或过去

图 2 展示了 CD 与 ND 组在更为详细的 12 个语言学变量上的得分。

图 2:CD 与 ND 组详细语言学变量得分。

「future-oriented」和「past-oriented」分数通过分析作者使用的动词时态,来反映作者对时间点的关注。从上图中可以看出,ND 组的文字显示作者更关注未来,而 CD 组的文字显示作者更关注过去。为了更好地理解这两项分数的差异,本文采取了和 Gunsch et al. 类似的研究方法。

该研究进一步提取了另外 5 项语言学变量,包括 4 项人称代词的使用占比分数,以及 1 项时间点关注度分数。CD 与 ND 组这 5 项分数的情况如表 2 所示。

表 2:「i」、「we」、「she/he」、「they」以及 present-orientation 的得分。

CD 组的文本显示更多的是 other-reference (「they」),而 ND 组的文本显示的更多的是 self-reference (「i」、「we」)。两个组在「she/he」一项上的得分相近。对于现在的关注度,CD 组得分比 ND 组更高。

以上的发现与 Gunsch et al. 的发现类似,由此可以推测出,CD 组的文本更关注其他人在现在或过去的举动上,而 ND 组的文本更关注自己在未来的举动。

ND 组表现出更多的悲伤与焦虑,CD 组用户表现出更多愤怒

现有的研究发现,LIWC 可以识别出作者在书写时所表达的情绪。从上文的分析中研究者发现,CD 与 ND 组文本表达的主要情绪是负面的,其中 ND 组文本表达的情绪相对正面。这与研究者在图 2 中更详细的语言学变量「positive emotions」与「negative emotions」的发现是一致的。

然而,研究者在更为细致的」sadness」、「anxiety」与「anger」的变量中发现了微妙的差别。当人们在提及 COVID-19 时,ND 组的文本表现出更多的悲伤与焦虑,而 CD 组的文本表现出更多的愤怒。

ND 组用户的文本着重描述事实,CD 组用户的文本着重表达想法

「tentativeness」与「certainty」这两项语言学变量的得分反映的是作者所经历事件的发展程度,比方说事件已告一段落,抑或事件正在不断演变。在文本中,如果较多地使用」always」或者」never」这类词汇,会产生一个较高的「certainty」分数;如果较多地使用」maybe」或者」perhaps「这种词汇,文本则会产生一个较高的「tentativeness」分数。

在 CD 组的文本中,「certainty」和「tentativeness」分数较高,而 ND 组文本的这两项得分均相对较低。

对于这一微妙差别,该研究有一个有趣的猜想。从 1986 年开始,Pennebaker et al. 开始从不同的文本范畴中收集语言样本,包括博客、expressive writing、小说、日常对话、纽约时报、以及推特。他们将 LIWC 应用于这些样本,与该研究一样提取出了这些语言学变量的得分。在他们的发现中,纽约时报文本的「tentativeness」与「certainty」分数都是最低的,而博客、expressive writing、以及日常对话的这两项语言学变量的分数都相对较高。该研究的猜想与这一发现相关:CD 组的文本更类似博客、expressive writing 或者日常对话,更关注表达想法,而 ND 组的文本更类似于纽约时报这样的新闻报道,着重描述客观事实。

ND 组表现出更强烈的对成功的需求

McClelland 发现人们在描述时使用的词汇会反映出个人需求,「achievement」分数便是通过计算该类词汇的使用频率来反映作者对于「achievement」的需求。

ND 组文本的「achievement」分数比 CD 组文本分数更高。关于这一发现的假设是,这一分数偏高,可能反映了 ND 组用户对于战胜 COVID-19 疫情更强烈的心理需求。

ND 组相对而言更关注工作及财务话题

关于个人所关注的事物,ND 组文本的「work」与「money」分数更高,说明 ND 组的用户可能更关注工作及财务话题。对于工作的讨论不仅是在家办公所带来的工作状态的改变,也有很大一部分与失业率上升有关。

经过大量数据分析后,研究人员得出了对使用「中国病毒」这类表述人群的一系列结论,让我们对有偏见人群有了更深层的认识。

同时这也提醒我们,语言除了沟通用途外,还承载了社会、文化等诸多内涵。除了在这件事中用合适的词汇表示「COVID-19」之外,对于语言的使用,我们还需要思考更多。

参考文献

A. Matamoros-Fernández, ``Platformed racism: The mediation and circulation of an Australian race-based controversy on Twitter, Facebook and YouTube." Information, Communication & Society, 20(6), 930-946, 2017.

C. Lin, “Social reaction toward the 2019 novel coronavirus (COVID-19)." Soc Health Behavior, 3:1-2, 2020.

D. C. McClelland, “Inhibited power motivation and high bloodpressure in men.,”Journal of Abnormal Psychology, vol. 88,no. 2, p. 182, 1979.

I. Gagliardone, D. Gal, T. Alves, and G. Martinez, ``Countering online hate speech." Unesco Publishing, 2015.

J. W. Pennebaker, R. L. Boyd, K. Jordan, and K. Blackburn,“The development and psychometric properties of liwc2015,”Tech. Rep., 2015.

M. A. Gunsch, S. Brownlow, S. E. Haynes, and Z. Mabe,“Differential forms linguistic content of various of politicaladvertising,”Journal of Broadcasting & Electronic Media,vol. 44, no. 1, pp. 27–42, 2000.

Y. R. Tausczik and J. W. Pennebaker, “The psychologicalmeaning of words: Liwc and computerized text analysis meth-ods,”Journal of language and social psychology, vol. 29,no. 1, pp. 24–54, 2010.

移动硬盘
1 楼
再分析都没什么用,彼此不喜欢也还是要生活在同一个地球。要是有几个星球可以搬家就好了,大家可以永远老死不相往来。皆大欢喜
t
toupi
2 楼
中国要甩锅,哪有那么容易?你去看看英国法国意大利吧。
我是刘德华
3 楼
美国病毒。
j
jimbon
4 楼
哈哈,你这只包子病毒
风流居士
5 楼
祝那些踩你的人,全家得病毒!
h
hans177155
6 楼
多花时间研究疫苗吧,麻痹火烧房梁了还在吵火是谁放的!这不是二逼吗?
j
jimbon
7 楼
新冠病毒源于武汉病毒实验室,在中共政府的隐瞒下造成武汉肺炎大爆发直至疫情失控引发全球大爆发。
j
jimbon
8 楼
快去收你习爹的骨灰,多出两斤,赚了
A
AudreyGolden
9 楼
现在是数码时代 你他妈的搞个“**病毒” 名称,当然容易掀起种族歧视的浪潮。 更何况这次是中国, 西方世界的竞争对手。 像你们这种 唯恐 天下不乱的 港灿 台独 非正常人类 不得像鬣狗见了烂肉 中国再专制,但社会也是非常稳定, 正常老百姓绝大部分也能安家乐业 就像台湾很大一部分民众也是想保持现状, 名义上称独,也就是菜英文这些政治狗 在那里叫嚷罢了。 任何人想要打破当前局面 就是人类的罪人 看见你们白人 美国爹 俄国鬼 在伊拉克 阿富汗 叙利亚造的孽 你们也要把台湾也推入一样的深渊??
2
24K铜
10 楼
: 天天在这里用中文洗地有意思吗?现在全世界的其他国家人民都知道是中国武汉病毒,和中共隐瞒了疫情。
不许汪汪
11 楼
西朝鲜厉害~~~~~
老仲马
12 楼
中国病毒害惨全世界,必须索赔!
y
youdang
13 楼
这俩男性是一回事吗?读文章认真点好不好?
a
anywho
14 楼
美國病毒禍害全球
j
jjjohnson
15 楼
5个美国大兵武汉投完毒回国就直接活生生进了焚化炉,她们的家人朋友全部进了精神病院摘掉了前额叶。
k
keivnyc
16 楼
一会说Chinese virus,一会说Chinatown virus,一会说CCP virus,特朗普就是煽动仇华排华的畜生!全世界华人应该起诉特朗普这个畜生!
工作学习2
17 楼
洗的有些丧心病狂了
荷兰三剑客92
18 楼
2014年埃博拉病毒爆发时不时数码时代?骂人木有用的,土共一系列掩盖行为都是经典的guilty反应,有点心理常识的都知道其背后的猫腻
y
yoyol23
19 楼
哈哈哈 你这智商也是可以的,最恶心的是自己还给自己点赞,哈哈哈哈,xswl.
y
yoyol23
20 楼
埃博拉病毒有叫刚果病毒吗?草泥马 大傻逼,h1n1, AIDS, 是不是数码时代,要不要也改一下,Spanish flu, polio, yellow fever 以前爆发的也改名下,有没有影响到你们狗粮今天发的口食?
荷兰三剑客92
21 楼
粗暴只能说明你缺德,埃博拉就是病毒发源的那条河,没有任何歧视,武汉病毒也没有任何歧视,是你土共党妈心虚☝️
K
Keepunderwater
22 楼
小编想说什么 ?
O
Onslaught
23 楼
呵呵
l
lying
24 楼
新闻来源: 机器之心
Y
YouWire
25 楼
基本就是美国种族分子的研究报告.
虛度光陰
26 楼
有初一就有15,等著瞧吧!
绿
绿谷路
27 楼
有一點的確像你說的,歐洲這邊剛開始只測有中國甚至武漢旅行史的,至少持續到二月底,還只是建議,不是強制。
s
sgmgj
28 楼
狗杂种!!covid19 是WHO给的!就像h1n1,要不要叫你爹病毒!?伊波拉病毒是一河起名,不是一个城市!WHO都给起名了你这班畜生还有一些jb媒体就故意叫?!什么企图!!!!?
p
paullu
29 楼
WHO都给这病毒命名了,还是有人,西方媒体故意就叫中国病毒!最可笑那些狗粮还在那边帮着起哄!殊不知它们也包括在内了。真可悲
a
abc868
30 楼
不是中国病毒!是习思想病毒!
g
gdby
31 楼
看来我大外宣是想热油泼火,炒热这个话题啊!好!有志气。
a
abpro168
32 楼
: 说得太好了,看来你是深刻反省了哈。
X
Xmaniac
33 楼
那就叫武汉病毒吧!
落雪轻舞
34 楼
不好意思给你点错了赞,收回!
t
toupi
35 楼
武汉去年9月份就开始新冠病毒的演习。 http://m.xinhuanet.com/hb/2019-09/26/c_1125040756.htm
q
qzzha
36 楼
: 做狗有意思吗