Manual

基于机器学习的自动标准化编码软件V1.0

使用手册

  • 准备工作

本程序只提供命令行界面,不提供图形化界面。在某个目录下面创建data、CODE和model三个文件夹。将训练集(train.txt)、验证集(test.txt)和标准编码集(standard.txt)文件放到./data/目录下。将CONFIG.py, train_model.py, predict_cmd.py和predict_file.py放到CODE目录下面。model文件夹是用来储存模型等相关文件。

训练集、验证集和标准编码集应当以字为单位按空格隔开,与其对应的编码按Tab隔开。(如下图)

  • 参数调整

进入/CODE/CONFIG.py调整参数,如下是各个参数代表的含义。未列出的参数不建议修改。

参数名

参数取值

解释

basepath

字符串(目录路径)

存放data目录和model目录的上级目录

EMBEDDING_DIM

正整数

嵌入向量的维度

NUMEPOCH

正整数

训练迭代次数

  • 进行模型训练

在命令行中/CODE/文件夹下输入

python train_model.py

即可进行模型训练,训练结果保存在./model/目录下。

  • 进行自动标准化编码
    1. 可在终端界面中输入诊断描述短语,获取最可能的5个编码。在./CODE/目录下执行

python predict_cmd.py

开启查询界面,输入诊断描述短语,回车即可。直接回车即退出查询界面。

  1. 或者,将诊断描述短语存成文件(如txt),一行为一条诊断描述短语且无空格。在./CODE/目录下执行

python predict_file.py PATH1 PATH2

其中,PATH1为source.txt的路径,PATH2为返回结果的路径,如./result.txt。