Introduction

句子中词和词是没有任何符号分开的,在自然语言处理中将中文的句子分割成词是一项重要的任务。该软件是一款无监督的中文分词软件,为了解决在部分领域中没有专业词典也能进行分词的需求。

本软件含有如下的子模块用来完成分词工作:文本预处理模块、文本信息统计模块、文本分词模块、文本后处理模块。文本预处理模块用来将文本格式统一,去除掉多余的标点符号,删除重复的句子。文本信息统计模块用于统计提交的文本中的一些统计数据,这些数据在文本分词模块中被用来构建无向图中边的权重。文本分词模块利用谱分解的算法对文本进行无监督分词。文本后处理模块包含了得到分词结果中的术语集的脚本和测试分词结果准确性的脚本。

本软件有如下几个主要特性:利用文章本身信息计算统计量,不需要额外的词典或者文章标注。该软件不仅可以进行中文分词,也可以对其他国家语言进行分词。该软件可以通过调整内部参数,实现不同粒度的分词。该软件可以融合其他的分词结果。

本软件可以运行在安装有Python3的Windows和Linux操作系统上。在OSx系统上未经过测试。该软件需要Python的如下自定义包:gensim, pandas, numpy, jieba, scipy, scikit_learn。这些软件可以通过Anaconda的conda或者pip进行安装。

Publications

No Publication Information

Credits

  1. Sheng Yu syu@tsinghua.edu.cn
    Investigator

    Center for Statistical Science, Tsinghua University, China

Community Ratings

UsabilityEfficiencyReliabilityRated By
0 user
Sign in to rate
Summary
AccessionBT007120
Tool TypeApplication
Category
Platforms
TechnologiesPython3
User Interface
Latest Release1.0 (May 27, 2021)
Download Count1578
Country/RegionChina
Submitted BySheng Yu
Fundings

2018YFC0910400