如何建立语料库?自己行业词库建立呢?
在内容文本分析中,离不开语料库的建立,没有一款软件,可以包含各行各业的词库的,所以分析者,如何自己建立词库成了非常重要的工作
也是大大提升文本分析质量的方法!
刷到这篇文章的你,肯定知道新词挖掘价值的,我就不再过多阐述了
我会从以下几个角度来讲,如何建立语料库!
单个字词频统计
单个字的统计可以帮我统计出高频出现的词,为接下来的新词挖掘时挖掘这次字所有周边的词作准备
例如我这次分析的是餐饮米饭类的文本
在口感里,硬这个单个字具有很重要的意义
在味道这里,香和甜也非常重要的
那么香组合的新词有很大可能也是我们想要的词
我们如何做单个字的统计?
网上有不少单子词频统计,但支持的文本太少,文本过大就容易卡死
所以我教大家一个正则方法,很快就统计好
我们打开微词云中的文本切分工具
这里有提供正则命令,正好符合我们本次需求
导入文本后,右侧类型选择正则
输入英文的“|”这个符号,点击开始切分就行
下载excel表,可以筛选一些价值单字
对文本进行词频统计
行业词的建立第一步总离不开对文本的分词词频统计
因为可以找出高频词和行业特有的短词、相关词等
还可以大体对词进行分类
那么我们将会用到微词云中的中文通用分析软件来处理文本并进行分词与词频统计
我们直接看特征词表位置,这里有我们最想要的数据,可以根据词性来选择需要的词
如可根据名词或者名动词来确定文本关键词主题分类
我根据一些名词关键信息就可以把关键词分为口感、味道、份量、价格等
当然你也可以不用为词作分类
我们还可以查一些动词、形容词和副词,可以为接下来挖掘情感词作准备
我们可以下载特征词表,慢慢筛选这些具有代表性的词
我的分类表和分类下的一些词,大家可以参考下,有单个字的,也有两个字的词
文本新词挖掘
上面两步都是为接下来这一步做好了铺垫
打开微词云中的新词挖掘工具
首先我们把文本导入进来,重点来说下指定单词这个配置
输入自己关心的词,系统会额外关照你输入的词的组合词挖掘
最好输入的单词长度不超过2个字的
好了这里我们就可以输入我们上面挖掘好的词了,例如我们挖掘的单个字的口感的词看看
在单词列表位置,找下词性为自定义词的单词,都是你指定的词了
打开看看,并下载数据表
当然,我们也应该下载新词列表下的词表,但不如我指定单词挖掘的精准,有很多我们可能不关心的词在里面。
下载好的分类词最好放在不同的文件中方便查找
这是我选择了一些的新词结果表,大家可以参考下
我们可以反复使用新词挖掘工具帮我发现不同分类下的新词
如何选新词结果?
关于如何选新词结果,我简单说下
第一我按照词频数高低来选词
第二把词频低于3的过滤掉
第三我会把长度超过4及以上的词过滤掉
我一般用正则命令来筛选,因为比较快并且很灵活
感兴趣的朋友可以搜索下关于正则筛选数据的常见命令,我用的是sublime软件进行执行的正则
如单词长度匹配的正则命令是:^.{1,20}$,想筛选多长的单词就更改第一个数字和第二个就行
如何快速去掉重复单词?
这里推荐下微词云的去重工具,批量去掉重复的单词,增加额外的工作量
我一般把一类的新词挖掘结果都放在一个表里,但是未免会有不少重复的词,就用上面的去重工具处理下就行
统计文本短句关键词
特别适合评论数据,有很多有价值的短句的,而这种短句不适合做分词处理?
那么应该怎么办呢?
这里教给你一个超级简单的方法
点击顶部其他产品中,把词云设计打开,借用这里的简单导入,帮我统计下这些关键词
这里稍微配置下数据,防止过滤,然后下载统计好的数据就行了
接下来我们要稍微自己过滤下数据就行了
例如去掉单个字的词,优先选择2个字长度的词
词频数小于3的词也过滤掉
这里的词很多适合做情感词使用
以上是挖掘新词,辅助我们建立行业语料库的大题思路,最后建议大家最好把关键词分好类
有行业特定词库、有情感词库、有主题词库等,方便我们日后的情感分析、主题分析使用
相关文章推荐
1、产品经理私藏的“微词云中文分析工具使用技巧”,学会了免压9款文本分析工具
2、这种热词云图怎么生成?3分钟教你生成一张高科技词云图!
3、写论文时超实用的10大网站,毕业论文有救了!
4、1款强大的主题分析软件,文科学妹也能秒上手!