英文分词在线词频统计工具
身为世界第一大语言的英语,涉及到的领域及其广泛,所以一直有小伙伴向我们反馈,微词云上线一款英文分词词频统计工具吧;
为了响应这些不辞辛苦反馈的小伙伴们,我们终于上线了一款英文分词在线词频统计工具
今天就与大家唠叨唠叨微词云第一版“英文分词工具”上线了哪些不得了的功能
我就从文本导入——分词筛词——报告分析三大块进行讲解
工具位置
1)文字描述位置:首先英文词频统计工具在首页的顶部在线分词位置处
2)具体在线英文分词链接地址:https://www.weiciyun.com/fcfenci/
接下来按照上面提供的思路开始介绍微词云在线英文分词工具的功能以及使用方法
功能模块1:文本导入
导入格式:
目前微词云英文分词编辑器支持txt/Excel/和文本复制导入方式
配置参数说明:
这里主要介绍导入文本后的配置参数,估计初次使用英文分词编辑器会有很多犯迷糊的地方
1)抽取词干:
词干提取是去除单词的前后缀得到词根的过程。如大家常见的前后词缀有「名词的复数」、「进行式」、「过去分词」…
那么抽取词干的好处就是,会把各种形态下的单词会统一到一起,例如like/likes;go/went/goes/gone 通过抽取词干都会把变形的单词统一为一个词
2)单词提取量:
例如前500个词,按照500Kb的文本提起前500个高频词,如果你有1M的文本,提取前1000个关键词
如果不想放过任何的低频词,想提取最大量的单词,你可以选择返回所有,但这个功能是会员专享功能了
3)计算单词相关性:
单词间的强弱关系,如多词之间的共现网络关系图,某个高频词与其他词之间的共现次数等,这是在第三步得到报告时需要用到的功能,也是会员功能
4)指定词性:
不被指定的词性,直接是被过滤掉的,如果,有些词性不想被过滤掉,需要在这里勾选上
先导入需要分词的文本,在根据需求匹配适合的配置参数,最后点击顶部的【下一步】
功能模块2:英文文本分词与筛词
这里里主要通过词性和词频数、以及搜索单词、也可以在右侧大的面板中筛词,共四种形式进行筛选
词性筛词:
我们可以通过左侧的词性列表进行筛选关心的关键词,勾选对勾的算是保留的单词,未勾选的单词是被过滤不要的单词
词频数筛词:
在左侧底部的位置,有个“忽略词频小于多少的单词”的功能,输入你想过滤掉的词频数,输入数值后,记得点击提交按钮。
精准搜索单词筛词:
在右上角有个「搜索单词」按钮,在这里进行输入关心的单词,最后点击查询就能执行命令啦
右侧关键词面板中筛词:
这种筛词的特点是,词频从高到低的依次进行展示,也可以作为最后筛词的最后一步,确认保留与忽略的关键词面板
好了,以上是我们筛词的介绍,保留的词已经确定好后,我们开始进入生成报告这一步,点击右侧底部的「确定使用所选单词,并生成报告」
有些小伙伴,只是想下载分词结果,那么你可以在这里点击右侧顶部的「下载分词结果」;如果发现英文分词结果中有未知的词性,可以点击顶部的「关于英文词性」
功能模块3:得到分析报告
先说个题外话,有些小伙伴,咋一看,很多单词是不全的,way被变成wai(way ways),这是因为采取了抽取词干导致的,抽取词干的好处是,不同时态的同个词词频数合并在一起
例如way词频数是20 ways词频数是38 wai的词频数就是58
如果想取消这个功能,你可以在导入内容时,取消抽取词干功能(在顶部上进行配置,第一步也有具体描述)
好了说回来,报告分析中主要包含几块功能
统计信息:
你导入的文本基础信息,如文本大小、字数、分词总数量、筛词总数、选择单词数、低频词被忽略的数量。
保留单词的词性占比饼状图
单词列表:
词干、单词、词性、词频
高频词词云图
主要展示前200个高频词,您还可以点击顶部的美化词云进行设计词云图,若想生成更多关键词词云图,可以下载分词结果,导入到「创建词云」中
查看单词相关性:
词性中单词数量的占比数值
点击任意关心的单词,就能进入到相关页面
下载单词所在的句子所有数据
例如包好time所有的句子都有哪些数据,你可以通过这个功能,可以看到所有包含time的数据内容
社会网络关系图(top30单词关系图)
其实就是多个关键词相互之间的共现关系,并生成的关系网络图而已,如果你的页面没有关系线条,证明您没有在导入内容处勾选,相关性计算
像定制的社会网络关系图还能制作成这样的效果
词性高频词柱状图
词性分类下的高频词可视化
结尾
介绍到这里,大家应该知道这个版本到底有哪些功能,其实也不难看出,第三步的得到报告这一步非常重要,如果希望得出关键词相关性,需要在导入单词时勾选「相关性计算」,希望小伙伴利用英文分词工具大大提高工作上的效率,辅助作出漂亮的分析报告来,
最后,还希望能得到你体验的反馈,帮助我们一起完善英文分词吧。