浅述网络口碑研究中的情感分析

作者: Paul

对于网络口碑研究而言,识别消费者在文章中对某一个产品所表达或流露出的情感是非常重要的,这类问题就叫做情感分析(Sentiment Analysis)。

虽然CIC在这方面已经做了不少工作和积累,但是坦白的说情感分析这一领域充满了实用性的诱惑,但是同时也存在很多技术上的挑战,对于所有从事这一方向研究和开发的人而言,都有很长的路要走。

近年来比较有影响力的一本专著是Bo Pang 和Lilian Lee 的<Opinion mining and sentiment analysis>,该书综述了情感分析的应用、算法,以及常见困难,虽然面向英文,但是对于中文的处理也具有很好的参考价值。

09年11月CIC 的技术人员专程去香港参加了ACM CIKM2009(计算机协会信息与知识管理会议)的情感分析研讨部分,借这个机会也对国际上这个领域的发展做了一些了解。借这个机会也对国际上这个领域的发展做了一些了解。印象比较深刻的是来自Jodange 公司的Claire教授结合本公司具体的产品讲述了包括情感分析在内自然语言处理技术在产品各个层面的应用。

与会的另一个感触是,海外特别是英语国家在情感分析领域的发展条件要远远优于中文,除去英文不需要分词这个天然优势外,更主要还在于各类研究工具和资料的共享方面,以及产学界的互动沟通。

相比于国内而言,这些方面国外的优势包括:

  1. 公开的标注语料,例如 MPQA的Opinion Corpus。
  2. 共享的基础工具,譬如普林斯顿大学的Wordnet, 意大利信息科技研究所的sentiWordnet.
  3. 学术界和工业界的交流十分密切,例如这次的会议便由Google、微软、Yahoo等公司赞助,与会的不仅有来自院校,也有不少公司。
  4. 学术界也有“学而优则商”,除去教授自己下海,还有精明的投资商和企业家主动找到相关领域的学术人员,协助他们进行技术转移应用,例如这次Claire教授便是属于被黄袍加身,成为Jodange公司的首席科学家。

从研究的趋势来看,虽然理论水平相比一两年前并没有很大的突破,基本还是不同方式的特征抽取和分类器的组合,但是应用层面能看出有这样的发展迹象:

  1. 应用的范围更加广泛,譬如各个领域内产品的分析,甚至用于在竞选中对于政治人物的分析
  2. 分析粒度更加精细,从文章级别向句子和特征级别转变。最初情感分析的研究对象多为影评,这类评论大多观点鲜明,要么喜欢要么讨厌(豆瓣上对“阿凡达”和“孔子”的评论便是很好的例子),所以分析只要判断这篇文章作者是喜欢这部电影还是讨厌便可;但是产品评论就不一样,可能上一句还在赞美这辆车的动力,下一句就表达对内饰的不满,因此对产品类评论更加精细的分析就很重要,需要找出作者喜欢什么,不喜欢什么。
  3. 愈加区分不同领域的情感表达方式,同样一个词,描述不同的对象时可能表达截然相反的情感,譬如英文的“scary”,乍看肯定是贬义词,但是如果说“Death is Coming is really scary”(“死神来了”这部恐怖片真是吓人)则是表扬这部电影有效果;类似“safe”这个词总该是褒义吧,但偏偏用来形容唱片时,则是意指音乐很单调无趣。中文中这样的例子也不胜枚举,除去大小高低这些常用的词外,例如“厚重”,“干燥”,“昂贵”等的褒贬性也必须视描述对象而定,不能一概而论。

最后,还是要强调情感分析是一个非常有挑战的技术,在某些问题上甚至相当长一段时间内都未必能产生突破,尤其是需要借助于一些常识才能理解的表达方式;譬如“Mac Air 可以装进一个信封”,整句没有一个形容词,但是我们能够想象这该是多轻薄的一台笔记本,并由此可能产生拥有它的欲望,因为我们理解什么是信封,知道信封装不了很厚重的东西,我们也希望自己的笔记本越轻便越好。

但是要让电脑也能领会到自己应该越苗条越好的话,我们还需要耐心得等上不少时间。

via: seeisee blog




Have Your Say »

Required

Required, never published

无觅相关文章插件,快速提升流量