淺述網絡口碑研究中的情感分析
作者: Paul
via: seeisee blog
對于網絡口碑研究而言,識別消費者在文章中對某一個產品所表達或流露出的情感是非常重要的,這類問題就叫做情感分析(Sentiment Analysis)。
雖然CIC在這方面已經做了不少工作和積累,但是坦白的說情感分析這一領域充滿了實用性的誘惑,但是同時也存在很多技術上的挑戰,對于所有從事這一方向研究和開發的人而言,都有很長的路要走。
近年來比較有影響力的一本專著是Bo Pang 和Lilian Lee 的,該書綜述了情感分析的應用、算法,以及常見困難,雖然面向英文,但是對于中文的處理也具有很好的參考價值。
09年11月CIC 的技術人員專程去香港參加了ACM CIKM2009(計算機協會信息與知識管理會議)的情感分析研討部分,借這個機會也對國際上這個領域的發展做了一些了解。借這個機會也對國際上這個領域的發展做了一些了解。印象比較深刻的是來自Jodange 公司的Claire教授結合本公司具體的產品講述了包括情感分析在內自然語言處理技術在產品各個層面的應用。
與會的另一個感觸是,海外特別是英語國家在情感分析領域的發展條件要遠遠優于中文,除去英文不需要分詞這個天然優勢外,更主要還在于各類研究工具和資料的共享方面,以及產學界的互動溝通。
相比于國內而言,這些方面國外的優勢包括:
- 公開的標注語料,例如 MPQA的Opinion Corpus。
- 共享的基礎工具,譬如普林斯頓大學的Wordnet, 意大利信息科技研究所的sentiWordnet.
- 學術界和工業界的交流十分密切,例如這次的會議便由Google、微軟、Yahoo等公司贊助,與會的不僅有來自院校,也有不少公司。
- 學術界也有“學而優則商”,除去教授自己下海,還有精明的投資商和企業家主動找到相關領域的學術人員,協助他們進行技術轉移應用,例如這次Claire教授便是屬于被黃袍加身,成為Jodange公司的首席科學家。
- 應用的范圍更加廣泛,譬如各個領域內產品的分析,甚至用于在競選中對于政治人物的分析
- 分析粒度更加精細,從文章級別向句子和特征級別轉變。最初情感分析的研究對象多為影評,這類評論大多觀點鮮明,要么喜歡要么討厭(豆瓣上對“阿凡達”和“孔子”的評論便是很好的例子),所以分析只要判斷這篇文章作者是喜歡這部電影還是討厭便可;但是產品評論就不一樣,可能上一句還在贊美這輛車的動力,下一句就表達對內飾的不滿,因此對產品類評論更加精細的分析就很重要,需要找出作者喜歡什么,不喜歡什么。
- 愈加區分不同領域的情感表達方式,同樣一個詞,描述不同的對象時可能表達截然相反的情感,譬如英文的“scary”,乍看肯定是貶義詞,但是如果說“Death is Coming is really scary”(“死神來了”這部恐怖片真是嚇人)則是表揚這部電影有效果;類似“safe”這個詞總該是褒義吧,但偏偏用來形容唱片時,則是意指音樂很單調無趣。中文中這樣的例子也不勝枚舉,除去大小高低這些常用的詞外,例如“厚重”,“干燥”,“昂貴”等的褒貶性也必須視描述對象而定,不能一概而論。
最后,還是要強調情感分析是一個非常有挑戰的技術,在某些問題上甚至相當長一段時間內都未必能產生突破,尤其是需要借助于一些常識才能理解的表達方式;譬如“Mac Air 可以裝進一個信封”,整句沒有一個形容詞,但是我們能夠想象這該是多輕薄的一臺筆記本,并由此可能產生擁有它的欲望,因為我們理解什么是信封,知道信封裝不了很厚重的東西,我們也希望自己的筆記本越輕便越好。
但是要讓電腦也能領會到自己應該越苗條越好的話,我們還需要耐心得等上不少時間。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
轉載請在文章開頭和結尾顯眼處標注:作者、出處和鏈接。不按規范轉載侵權必究。
本文系作者授權數英發表,內容為作者獨立觀點,不代表數英立場。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
未經授權嚴禁轉載,授權事宜請聯系作者本人,侵權必究。
本內容為作者獨立觀點,不代表數英立場。
本文禁止轉載,侵權必究。
本文禁止轉載,侵權必究。
本文系數英原創,未經允許不得轉載。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
授權事宜請至數英微信公眾號(ID: digitaling) 后臺授權,侵權必究。
評論
評論
推薦評論
暫無評論哦,快來評論一下吧!
全部評論(0條)