如何挖掘行业专属情感词?一文教你高效构建情感词典

在如今的数据驱动时代,情感分析作为一种重要的文本挖掘技术,已经广泛应用于电商、社交媒体、金融等多个行业。
然而,现有的通用情感词典往往难以满足行业的个性化需求,比如电商行业的“性价比高”、金融领域的“风险可控”,这些词语很难在现成词典中找到对应。
而对于需要高精度分析者来说,无法找到适配的情感词会直接影响情感分析结果的准确性和价值。

本篇文章针对这一痛点,提供实用而有效的情感词发现方法,教你如何从行业文本中挖掘更多价值情感词,构建适合自己需求的情感词典。

本次需要用到的工具列表:

1.中文通用分析
2.中文情感分析
3.中文新词发现
4.文本切割工具
5.去重工具


文章思路:

一、情感词挖掘前期准备
二、情感词挖掘
三、人工选词与情感值赋予


一、情感词挖掘前期准备

目标:理解情感词的特点,明确挖掘的范围和标准,完成文本的基础处理。

1.1_情感词特征

情感词词性

情感词主要集中在几类词性中,找准一个方向,会大大提高我们的挑选情感的效率。

形容词:
形容词是中文情感词的核心部分,最直接地表达情感倾向。常表现为正面或负面的情绪评价、描述某种程度或特性。

1
2
3
4
例子:
正向:优秀、开心、美好、舒适
负向:糟糕、生气、恶劣、寒酸

动词:
动词通过动作、状态或变化体现情感,通常与情绪变化或情感倾向相关。

1
2
3
例子:
正向:喜欢、欣赏、支持、感激
负向:讨厌、愤怒、拒绝、指责

还有名词、副词、感叹词、数词与量词、介词和连词,常作为补充表达情感强度或状态的。

那么如何挖掘这些词性呢?下面文本处理位置我们一一说明具体操作步骤


情感种子字

此处的情感种子定义为:简短、高频、情感明显的。

1
2
例如:
如“好”、“差”、“棒”、“小”、“大”、“快”、“慢”。 可以直接表达情绪的简短词

种子情感词好比一个数的树干一样,利用现有的种子情感词(如“好”、“差”)通过上下文关系或新词发现扩展更多种子情感词。

具体的挖掘工具我会在下面讲解。



1.2_文本预处理

文本清洗

数据去重、去掉特殊字符、链接等脏数据

针对领域特定的噪声处理(如社交媒体中的表情符号、HTML标签)。

去重的工作,分析者可以使用微词云免费去重小工具来处理
特殊字符的工具推荐dijital.link也是一款免费的小工具

情感词挖掘,中文情感分析,情感词典构建,文本清洗,去掉特殊字符


文本分词与词性词提取

我们先来提取关键词与词性,这里大家可以使用微词云中文通用分析这款在线工具

因为这款工具不仅可以提取单词词频和词性,还可以做单词的临词词组分析,为情感新词奠定基础

操作步骤:
1)导入文本与参数配置:
词性选择,勾选全部,为了提取更多关键词使用

情感词挖掘,中文情感分析,情感词典构建,词频统计


2)点击下一步生成统计报告,选择情感词
在报告的特征词表中我们会看到非常多的词汇,顶部是有词性进行选择的,根据上文提到的情感词性,我们可以一一人工筛选下词性,但不用着急,下一步我们在好好选词
可以先在基础信息位置下载特征词表(与我们这个信息表的数据一致),这样会方面我们大批量选词使用

行业情感词提取方法,中文情感词如何挖掘,基于种子词扩展情感词


单字统计

为了挖掘更多种子词的需求,上面的分词结果,无法找到单个字的情感词,我想在对单个字进行统计,通过单字高频词中还会挖掘出更多情感字的
我们可以使用微词云中的免费文本切割工具,可别小瞧这款工具,用处还是很多的,因为单个字的统计分词中不好处理的,而利用正则表达式就容易很多

操作步骤:
1)过滤字符、数字和英文
因为统计单个字时,数字、英文字母也会被统计上,所以在选词时会干扰我们,干脆直接过滤掉算了
这里推荐这款免费的过滤工具


2)导入文本与配置参数
把上面下载的特征词单词都粘贴进来(用特征词结果统计单字更加的精细一些,因为去掉了大量的停用词了)
在点击右侧的【正则】功能,删除原本的内容,请输入英文版的这个竖条符号”|”如图所示,在点击开始分割即可

情感词典构建,行业情感词提取方法,中文情感词如何挖掘


3)下载统计好的数据
在右侧的统计结果中,我们会看到下载excel或者txt数据,我们选择下载excel,更方便我们筛选字使用


人工筛选情感词性与种子词

通过上面的操作,我们已经得到了2份数据统计结果了,我们开始进行选词的阶段了

我们先来筛选单个字的情感词,筛选方法建议如下

将所有单字按词频从高到低排序。
高频字通常更能代表文本的情感特征,优先考虑这些字是否与情感分析需求相关。

基于种子词扩展情感词,情感分析中的词组挖掘,利用工具挖掘高频情感词


目前筛选出了150多个高频情感字

1
好,不,没,很,快,坑,太,真,无,美,可,强,新,满,差,喜,优,慢,错,超,爱,值,想,重,适,清,特,别,加,白,多,更,高,足,准,难,漂,亮,低,实,慰,自,感,易,较,亏,乐,光,显,贵,欢,棒,薄,精,听,简,舒,悲,滑,怕,凉,惊,丽,丑,烂,严,灵,悦,忍,烦,静,冷,温,爽,稳,厚,热,壮,坏,耐,伤,兴,怪,轻,凶,畅,漏,坚,净,迷,用,大,小,下,比,卡,老,费,气,算,换,退,变,细,近,黑,耗,减,失,硬,偏,防,限,损,赖,缺,激,紧,虚,赞,信,佳,谢,浓,纯,柔,暖,深,滥,衰,价,怡,度,点,速,挺,拍,照,非,极,靓,灰,整,微,确,略,买,耀,荣,能,品,性,哀,凄,恭,愤,苦,恨,恶,闷,憾,痛,软,顽,俗,痒,哭,怒,憎,忠,疼,平,宽,慌,恬,悠,嫌,疏,狂,捧,恼,怨,惋,惨,慎,甜,忧,疑,沉,幸

我在来通过特征词表来筛选重要的情感字

将得到的特征词表,拆分成形容词表、动词表、副词表和其他词表
在按照高低词频进一步人工选词即可

目前筛选出了近100个高频情感关键词

1
2
不错,很好,流畅,给力,好用,满意,很给力,很薄,惊艳,完美,便宜,值得购买,方便,值得信赖,灵敏,很大,耐用,舒服,颜值高,性价比高,强大,合适,简单,精致,便捷,有质感,靓丽,轻巧,高清,可靠,畅快,耐摔,稳重,靠谱,优秀,灵活,不满意,犹豫,卡死,郁闷,发热,不好用,用不了,不贵,着急,尴尬,没送,坏的,爆炸,太坑,讨厌,很贵,很慢,烫手,粗糙,很硬,脆弱的,不均匀,沉重,糟糕,很麻烦,费劲,笨重,怪异,失望 ,脏乱 
不稳定,喜欢,满意,支持,值得,失望,推荐,开心,担心,想买,放心,期待,感谢,后悔,信赖,称赞,放弃,激动,感动,享受,给力,解决,担忧,忍受

基于种子词扩展情感词,情感分析中的词组挖掘,利用工具挖掘高频情感词


利用工具挖掘高频情感词,新词发现工具,词频统计工具



二、情感词挖掘

目标:从文本中系统化挖掘更多情感词与情感词组。

2.1_基于词性核心词的挖掘

目标:通过分析词性核心词(如“很好”、“不错”)上下文的左右相邻的词,发现可能的情感表达情感词。
方法:在微词云中文通用分析报告中,点击分析的词性核心词,查看临词分析表,并下载数据即可
结果:下载报告中词序分析结果

这里仅用“不错”进行举例,其他单词词序结果需要一次点击进行下载。

词频统计工具,情感词人工标注,词性分析情感词,情感分析优化



2.2_基于种子字的挖掘

目标:通过新词挖掘方法,找出“核心字”,组合的潜在情感词组(如“非常棒”、“极度糟糕”)。
方法:打开微词云中文新词挖掘工具,导入分析的内容文本,在“指定单词”,输入100以内个字,点击下一步进行生成报告,并找到单词列表。
输出:下载单个字统计新词结果数据

情感分析中的词组挖掘,利用工具挖掘高频情感词,中文情感分析


这里仅用“不”进行举例,其他单字新词结果需要一次点击进行下载。

情感分析中的词组挖掘,利用工具挖掘高频情感词,中文情感分析


1
2
新词挖掘工具中,不仅可以下载单词表组合结果,在报告顶部还有很多其他类型的新词
例如形容词组合词、副词组合词、动词组合词等,我们也可以下载这里数据。

词频统计工具,情感词人工标注,词性分析情感词,情感分析优化


词频统计工具,情感词人工标注,词性分析情感词,情感分析优化



三、人工选词与情感值赋予

目标:对挖掘结果进行清洗和优化,为情感分析工具赋予更高的准确性。

3.1_人工筛选与清洗

目标:过滤无关词或意义模糊的词,保留准确表达情感的词汇。

步骤:
先合并下载的数据结果,并去掉重复的数据,但尽量保留单词的词性
如果数据量较大,可以按照词性进行分类处理。
再根据行业需求筛选特定的情感词组(如手机领域关注“品质”、“速度”、“性能”等)



3.2_情感值赋予

目标:为每个情感词或词组赋予情感强度和极性值。


情感值区间定义

范围:[-3, 3]

含义:正向值(1 ~ 3):表达积极、正面的情感或态度;负向值(-1 ~ -3):表达消极、负面的情感或态度。


正向词的情感值赋予

规则:根据正向词的情感强度赋值,体现其表达积极情感的程度。

赋值策略:

1
2
3
值为 +1(轻度正向):
表达一般性正面情感的词,情感强度较弱。
示例:不错、可以、适合、够用。

1
2
3
值为 +2(中度正向):
表达明显的积极情感,但未达到极致。
示例:很好、满意、值得、方便、推荐。

1
2
3
值为 +3(高度正向):
表达极度强烈的正面情感或高度赞扬。
示例:完美、超级棒、非常满意、超喜欢、惊艳。

负向词的情感值赋予

规则:根据负向词的情感强度赋值,反映消极情感的深度。
赋值策略

1
2
3
值为 -1(轻度负向):
表达轻微不满或负面情感的词语。
示例:一般、不够、不太满意、普通、可以更好。

1
2
3
值为 -2(中度负向):
表达明显的负面情感,但未达到强烈程度。
示例:失望、麻烦、不推荐、不适合、不靠谱。

1
2
3
值为 -3(高度负向):
表达极强烈的负面情感或明显否定。
示例:糟糕、无法接受、后悔、讨厌、极差。

大家也可以结合,现有的情感词典(如 NTUSD、大连理工情感词典)进行对照优化。


文章推荐

1.教你统计文本不重复的单词
,一键文本高频词提取!
2.如何有效分析中文情感强度?
3.文本情感分析中,如何生成专业情感词云图?
4.rostea情感分析不准?试试这款snowNLP情感分析软件
!

最后更新于: 2024-12-04 17:53:53
感谢您的阅读,本文由 微词云 版权所有。如若转载,请注明出处:微词云(https://www.weiciyun.com/blog/sentiment_03/
LDA主题分析时,如何提高主题分类文本量的识别率?