无监督中文医学分词工具 无监督中文医学分词工具
Introduction
句子中词和词是没有任何符号分开的,在自然语言处理中将中文的句子分割成词是一项重要的任务。该软件是一款无监督的中文分词软件,为了解决在部分领域中没有专业词典也能进行分词的需求。
本软件含有如下的子模块用来完成分词工作:文本预处理模块、文本信息统计模块、文本分词模块、文本后处理模块。文本预处理模块用来将文本格式统一,去除掉多余的标点符号,删除重复的句子。文本信息统计模块用于统计提交的文本中的一些统计数据,这些数据在文本分词模块中被用来构建无向图中边的权重。文本分词模块利用谱分解的算法对文本进行无监督分词。文本后处理模块包含了得到分词结果中的术语集的脚本和测试分词结果准确性的脚本。
本软件有如下几个主要特性:利用文章本身信息计算统计量,不需要额外的词典或者文章标注。该软件不仅可以进行中文分词,也可以对其他国家语言进行分词。该软件可以通过调整内部参数,实现不同粒度的分词。该软件可以融合其他的分词结果。
本软件可以运行在安装有Python3的Windows和Linux操作系统上。在OSx系统上未经过测试。该软件需要Python的如下自定义包:gensim, pandas, numpy, jieba, scipy, scikit_learn。这些软件可以通过Anaconda的conda或者pip进行安装。
Publications
No Publication Information
Credits
- Sheng Yu syu@tsinghua.edu.cn Investigator
Center for Statistical Science, Tsinghua University, China
Community Ratings
Usability | Efficiency | Reliability | Rated By |
---|---|---|---|
0 user | |||
Sign in to rate |
Summary
Accession | BT007120 |
---|---|
Tool Type | Application |
Category | |
Platforms | |
Technologies | Python3 |
User Interface | |
Latest Release | 1.0 (May 27, 2021) |
Download Count | 1578 |
Country/Region | China |
Submitted By | Sheng Yu |
Fundings
2018YFC0910400