在网络上,用文字交流,有一个危险之处,那就是当别人在嘲讽你的时候,你会意识不到,反之有时,你明明没有嘲讽的意思却被对方误会。比如,有时当某人跟评论说“真棒”的时候,你不知道他真的觉得这个东西好呢,还是在反讽。
最近,来自西班牙里斯本大学的研究人员引用了新型的深度神经网络CUE-CNN,能自动识别社交媒体上具有嘲讽意义的言论。这不仅会避免日常文字对话时的小尴尬,而且对于人工智能领域的自然语言处理来说,知道某一句话是否是讽刺,这一点尤其显得重要。
但是这不是一个简单的问题。通常来说,计算机要理解一句话是否具有讽刺意思,需要结合上下文的语境,从文本本身寻找信息,但是会遇到语境不足的问题。毕竟,包括标点符号在内都一模一样的的一句话,由不同的人嘴里说出来意思会完全不同。比如,同样一句“使美国再度伟大”(Make America great again,这是川普的竞选口号),川普的支持者和反对者分别在Twitter上写下这句话,含义会完全不一样。
里斯本大学的研究员Silvio Amir说道:“要理解讽刺意味,单靠文本信息是不够的。”所以,还有一个关键因素,就是理解发表这个言论的用户本身。
该团队的论文中描述了一个方法,就是让神经网络找到“用户嵌入”(User Embeddings)。要理解这个词,我们就要对比自然语言处理中比较常见的”单词嵌入“(Word Embeddings)这个术语。
单词之间会有或近或远的联系。例如,“男人”与”国王”这个两个词经常出现在一起,联系比较紧密,“女人”与“王后”也有类似的关系。而这种单词之间的关系就被称为"单词嵌入",而且研究人员往往用数学上的向量空间图来表示这种关系,在向量空间中,具有相似意义的单词会占据同一块位置,比较直观。
所以这里的“用户嵌入”就是指用户之间的关系。几个用户之间,可能爱好相似,教育经历相似,那么这一波用户之间的关系比较紧密,在空间向量里,就会聚集在同一块位置。
比如,论文里用政治倾向来做例子。如下图,每个圆点代表了Twitter上的用户:蓝色用户关注了至少一下民主党政客:奥巴马、希拉里和伯尼·桑德斯;红色用户关注了以下至少一位共和党政客:马可·卢比奥、泰德·克鲁兹、特朗普。同时关注两党的用户被排除在外。从图中发现,拥有类似政治倾向的用户会聚集在向量空间的同一位置。
如果某一个蓝色用户发表了支持川普的言论,而这与同他处在同一位置的其他用户不一样,那么系统会判定,这个言论很可能具有讽刺意味。
使用类似的方法,在理想情况下,可以找到界限比较明确的一个一个团体。将这个神经网络与上下文的语境的线索结合起来,得出来的实验结果显示,准确率有87%,对比其他系统的准确率是85%。虽然准确度并没有大幅度提高,但是考虑到这个系统要求的人工配置和监测比以往的要少很多,这会让其在社交媒体网络的上的应用变得更加容易。
本文来源:不详 作者:佚名