英文版LDA主题分析在线工具,不只有主题数分析还有主题情感分析!
大家好,这次给大家分享如何高效使用英文版的主题分析工具
总体思路
从以下几个方面来说明
1、首先是主题分析前的准备工作
2、其次是主题数确定
3、最终是如何生成一个满意的主题分析报告
想看【视频教程】的小伙伴,点击这个B站教程
使用到的工具
1、英文分析工具:https://fenci.weiciyun.com/english/
2、英文困惑度工具:https://fenci.weiciyun.com/english/lda/topics/
3、英文主题分析工具:https://fenci.weiciyun.com/english/topic/
4、去重工具:https://tools.weiciyun.com/text/quchong/
操作教程
第一步:准备文本和清洗数据
需要准备好要分析的文本,建议大家提前清洗下数据,如去虫、去掉没必要的脏数据
第二步:下载任务文件
需要准备好做主题分析时的文件,这一步我们需要借助英文分析工具进行关键词提取和情感词提取等
这一步非常关键,因为直接影响主题分析效果,具体下面我会说明的
先打开英文分析工具
英文分析工具地址:https://fenci.weiciyun.com/english/
我们先上传准备好的源数据文本,如果希望在主题分析时有主题情感分析结果,需要勾选顶部的主题分析配置,记得点击下一步按钮,生成报告结果
那么我们先初步看下报告效果,如果提取的词比较好,我们可以直接下载左侧顶部这个的“下载任务文件”,主题分析主要就识别这个文件
获得更多的词组
英文分析报告中提取的很多词是单词,而不是词组,那么我们可以挖掘出更多词组,通过自定义词组来提取出更多有价值的词,接下来我就来演示下如何操作
在报告中,首先我们可以先下载名词短语
其次,还可以选择出现次数比较多的名词、形容词、动词等重要的词,点击这些词,查看报告的词序分析结果,词序表是根据单词的左右临词进行抽取的关键词组,我们可以下载这些词序结果数据
按照我这个操作,再下载其他的有价值的词的词序结果就行
重新再分析
最终我们从这些数据中挑选有价值的词组,这里就不做演示了
我们先返回英文分析的上一步输入内容那里,把挑选好的词组,放在自定义词组里,再重新分析下结果
好了,接下来我们还可以过滤一些没必要的词性,如限定词、标点符号、连词等
最终分析好结果后,我们再次下载任务文件就可以了
第三步:主题数确定
接下来说下如何确定主题数,已经确定好主题数量的,可以忽略这一步
先打开英文的困惑度分析工具
LDA困惑度工具:https://fenci.weiciyun.com/english/lda/topics/
把下载好的任务文件导入即可
一般得分比较低的主题数比较好,但不同行业的数据略有不同。
当然大家还可以利用一致性分析方法来衡量主题数。
当主题数得分不理想时,可适当调高一些alpha和beta值,反复分析几次找到一个不错的数值即可
假设发现有两个主题分数很接近时,不知道选择哪个比较好时,你可以在做主题分析时,看下主题分析效果来决定要选择哪个主题数
但一定要记住你认为那个比较好主题数的alpha和beta值,因为在主题分析时会用到
第四步:生成LDA主题分析报告
然后我们可以生成主题分析报告了
先打开英文主题分析工具
工具地址:https://fenci.weiciyun.com/english/lda/topic/
然后仍是需要上传我们的下载任务文件wcyeng
参数配置
点击LDA自动分类,输入上一步时得到的主题数值,如果上一步有更改alpha和beta值,需要与上一步的数值保持一致
上面的一些参数可以稍微看下,如果有需要移除的词,和需要额外保留的词可以在这里配置
采用的名词短语这块和词性筛选,可根据需要调整或保持不变
最重要的是,需要文本中匹配的单词情况,看是否满意,不满意需要重复第二步,重新做分析
生成报告
以上都没问题,我们就点击开始分析主题
可下载分析结果以免数据丢失
这里的主题名字都是各个主题得分最高的词,大家可以根据分析需要修改的
这一步没有问题,再点击开始分析,进入正式的主题分析报告中
如何快速看懂主题报告中的分析表呢,可以在问题搜索框中搜索“主题分析表”,直接点击查看解释说明
有主题统计表、词占比、主题分布、主题词表、主题得分等相关的分析表
重点来说下关于主题分析里面的情感分析部分
例如我点击任意主题名,我们可以查看每个主题的情感统计情况
在主题词列表位置,还可以查看每个词的情感占比情况
往下滑动还可以看到主题情感占比柱状图,和情绪与数量分布情况
以及具体的情感正负面词云图、情感分析结果表,可以查看每个主题词下对应的条数据情感打分与情感倾向判断结果等
对情感图表不理解的,可以搜情感分析表,对照解说去理解即可
在说下关于主题下的网络关系图,这里的词都可以修改的,系统默认选取一些高频的名词,不一定具有更紧密的研究价值,可点击“自定义词”进行修改,上面也有显示筛选的条件,如主题类型、词性等也可以直接搜索单词查找
对这里的可视化不满意,可在这里下载矩阵表,自己利用其他绘图工具来生成也是没问题的
可视化效果不满意还可以进行配置优化,可在搜索框搜索相关教程
并且报告里的大部分单词都支持点击查看具体的报告结果,随机点击一个词演示下
可以看到情感分析情况、共现分析的图表结果、词序分析等
絮絮叨叨说了这么多,主要还是希望能让大家快速上手,快速生成自己想要的报告结果,大大降低做分析图表的难度,省时间做更多价值较高的分析总结的事情