如何挖掘行业专属情感词?一文教你高效构建情感词典
在如今的数据驱动时代,情感分析作为一种重要的文本挖掘技术,已经广泛应用于电商、社交媒体、金融等多个行业。
然而,现有的通用情感词典往往难以满足行业的个性化需求,比如电商行业的“性价比高”、金融领域的“风险可控”,这些词语很难在现成词典中找到对应。
而对于需要高精度分析者来说,无法找到适配的情感词会直接影响情感分析结果的准确性和价值。
本篇文章针对这一痛点,提供实用而有效的情感词发现方法,教你如何从行业文本中挖掘更多价值情感词,构建适合自己需求的情感词典。
本次需要用到的工具列表:
1.中文通用分析
2.中文情感分析
3.中文新词发现
4.文本切割工具
5.去重工具
文章思路:
一、情感词挖掘前期准备
二、情感词挖掘
三、人工选词与情感值赋予
一、情感词挖掘前期准备
目标:理解情感词的特点,明确挖掘的范围和标准,完成文本的基础处理。
1.1_情感词特征
情感词词性
情感词主要集中在几类词性中,找准一个方向,会大大提高我们的挑选情感的效率。
形容词:
形容词是中文情感词的核心部分,最直接地表达情感倾向。常表现为正面或负面的情绪评价、描述某种程度或特性。
1 | 例子: |
动词:
动词通过动作、状态或变化体现情感,通常与情绪变化或情感倾向相关。
1 | 例子: |
还有名词、副词、感叹词、数词与量词、介词和连词,常作为补充表达情感强度或状态的。
那么如何挖掘这些词性
呢?下面文本处理位置我们一一说明具体操作步骤
情感种子字
此处的情感种子定义为:简短、高频、情感明显的。
1 | 例如: |
种子情感词好比一个数的树干一样,利用现有的种子情感词(如“好”、“差”)通过上下文关系或新词发现扩展更多种子情感词。
具体的挖掘工具我会在下面讲解。
1.2_文本预处理
文本清洗
数据去重、去掉特殊字符、链接等脏数据
针对领域特定的噪声处理(如社交媒体中的表情符号、HTML标签)。
去重的工作,分析者可以使用微词云免费去重小工具来处理
特殊字符的工具推荐dijital.link也是一款免费的小工具
文本分词与词性词提取
我们先来提取关键词与词性,这里大家可以使用微词云中文通用分析这款在线工具
因为这款工具不仅可以提取单词词频和词性,还可以做单词的临词词组分析,为情感新词奠定基础
操作步骤:
1)导入文本与参数配置:
词性选择,勾选全部,为了提取更多关键词使用
2)点击下一步生成统计报告,选择情感词
在报告的特征词表中我们会看到非常多的词汇,顶部是有词性进行选择的,根据上文提到的情感词性,我们可以一一人工筛选下词性,但不用着急,下一步我们在好好选词
可以先在基础信息位置下载特征词表(与我们这个信息表的数据一致),这样会方面我们大批量选词使用
单字统计
为了挖掘更多种子词的需求,上面的分词结果,无法找到单个字的情感词,我想在对单个字进行统计,通过单字高频词中还会挖掘出更多情感字的
我们可以使用微词云中的免费文本切割工具,可别小瞧这款工具,用处还是很多的,因为单个字的统计分词中不好处理的,而利用正则表达式就容易很多
操作步骤:
1)过滤字符、数字和英文
因为统计单个字时,数字、英文字母也会被统计上,所以在选词时会干扰我们,干脆直接过滤掉算了
这里推荐这款免费的过滤工具
2)导入文本与配置参数
把上面下载的特征词单词都粘贴进来(用特征词结果统计单字更加的精细一些,因为去掉了大量的停用词了)
在点击右侧的【正则】功能,删除原本的内容,请输入英文版的这个竖条符号”|”如图所示,在点击开始分割即可
3)下载统计好的数据
在右侧的统计结果中,我们会看到下载excel或者txt数据,我们选择下载excel,更方便我们筛选字使用
人工筛选情感词性与种子词
通过上面的操作,我们已经得到了2份数据统计结果了,我们开始进行选词的阶段了
我们先来筛选单个字的情感词,筛选方法建议如下
将所有单字按词频从高到低排序。
高频字通常更能代表文本的情感特征,优先考虑这些字是否与情感分析需求相关。
目前筛选出了150多个高频
情感字
1 | 好,不,没,很,快,坑,太,真,无,美,可,强,新,满,差,喜,优,慢,错,超,爱,值,想,重,适,清,特,别,加,白,多,更,高,足,准,难,漂,亮,低,实,慰,自,感,易,较,亏,乐,光,显,贵,欢,棒,薄,精,听,简,舒,悲,滑,怕,凉,惊,丽,丑,烂,严,灵,悦,忍,烦,静,冷,温,爽,稳,厚,热,壮,坏,耐,伤,兴,怪,轻,凶,畅,漏,坚,净,迷,用,大,小,下,比,卡,老,费,气,算,换,退,变,细,近,黑,耗,减,失,硬,偏,防,限,损,赖,缺,激,紧,虚,赞,信,佳,谢,浓,纯,柔,暖,深,滥,衰,价,怡,度,点,速,挺,拍,照,非,极,靓,灰,整,微,确,略,买,耀,荣,能,品,性,哀,凄,恭,愤,苦,恨,恶,闷,憾,痛,软,顽,俗,痒,哭,怒,憎,忠,疼,平,宽,慌,恬,悠,嫌,疏,狂,捧,恼,怨,惋,惨,慎,甜,忧,疑,沉,幸 |
我在来通过特征词表来筛选重要的情感字
将得到的特征词表,拆分成形容词表、动词表、副词表和其他词表
在按照高低词频进一步人工选词即可
目前筛选出了近100个高频
情感关键词
1 | 不错,很好,流畅,给力,好用,满意,很给力,很薄,惊艳,完美,便宜,值得购买,方便,值得信赖,灵敏,很大,耐用,舒服,颜值高,性价比高,强大,合适,简单,精致,便捷,有质感,靓丽,轻巧,高清,可靠,畅快,耐摔,稳重,靠谱,优秀,灵活,不满意,犹豫,卡死,郁闷,发热,不好用,用不了,不贵,着急,尴尬,没送,坏的,爆炸,太坑,讨厌,很贵,很慢,烫手,粗糙,很硬,脆弱的,不均匀,沉重,糟糕,很麻烦,费劲,笨重,怪异,失望 ,脏乱 |
二、情感词挖掘
目标:从文本中系统化挖掘更多情感词与情感词组。
2.1_基于词性核心词的挖掘
目标:通过分析词性核心词(如“很好”、“不错”)上下文的左右相邻的词,发现可能的情感表达情感词。
方法:在微词云中文通用分析报告中,点击分析的词性核心词,查看临词分析表,并下载数据即可
结果:下载报告中词序分析结果
这里仅用“不错”进行举例,其他单词词序结果需要一次点击进行下载。
2.2_基于种子字的挖掘
目标:通过新词挖掘方法,找出“核心字”,组合的潜在情感词组(如“非常棒”、“极度糟糕”)。
方法:打开微词云中文新词挖掘工具,导入分析的内容文本,在“指定单词”,输入100以内个字,点击下一步进行生成报告,并找到单词列表。
输出:下载单个字统计新词结果数据
这里仅用“不”进行举例,其他单字新词结果需要一次点击进行下载。
1 | 新词挖掘工具中,不仅可以下载单词表组合结果,在报告顶部还有很多其他类型的新词 |
三、人工选词与情感值赋予
目标:对挖掘结果进行清洗和优化,为情感分析工具赋予更高的准确性。
3.1_人工筛选与清洗
目标:过滤无关词或意义模糊的词,保留准确表达情感的词汇。
步骤:
先合并下载的数据结果,并去掉重复的数据,但尽量保留单词的词性
如果数据量较大,可以按照词性进行分类处理。
再根据行业需求筛选特定的情感词组(如手机领域关注“品质”、“速度”、“性能”等)
3.2_情感值赋予
目标:为每个情感词或词组赋予情感强度和极性值。
情感值区间定义
范围:[-3, 3]
含义:正向值(1 ~ 3):表达积极、正面的情感或态度;负向值(-1 ~ -3):表达消极、负面的情感或态度。
正向词的情感值赋予
规则:根据正向词的情感强度赋值,体现其表达积极情感的程度。
赋值策略:
1 | 值为 +1(轻度正向): |
1 | 值为 +2(中度正向): |
1 | 值为 +3(高度正向): |
负向词的情感值赋予
规则:根据负向词的情感强度赋值,反映消极情感的深度。
赋值策略
1 | 值为 -1(轻度负向): |
1 | 值为 -2(中度负向): |
1 | 值为 -3(高度负向): |
大家也可以结合,现有的情感词典(如 NTUSD、大连理工情感词典)进行对照优化。
文章推荐
1.教你统计文本不重复的单词
,一键文本高频词提取!
2.如何有效分析中文情感强度?
3.文本情感分析中,如何生成专业情感词云图?
4.rostea情感分析不准?试试这款snowNLP情感分析软件
!