医学诊断名称自动标准化工具 医学诊断名称自动标准化工具
Manual
基于机器学习的自动标准化编码软件V1.0
使用手册
- 准备工作
本程序只提供命令行界面,不提供图形化界面。在某个目录下面创建data、CODE和model三个文件夹。将训练集(train.txt)、验证集(test.txt)和标准编码集(standard.txt)文件放到./data/目录下。将CONFIG.py, train_model.py, predict_cmd.py和predict_file.py放到CODE目录下面。model文件夹是用来储存模型等相关文件。
训练集、验证集和标准编码集应当以字为单位按空格隔开,与其对应的编码按Tab隔开。(如下图)
- 参数调整
进入/CODE/CONFIG.py调整参数,如下是各个参数代表的含义。未列出的参数不建议修改。
参数名 |
参数取值 |
解释 |
basepath |
字符串(目录路径) |
存放data目录和model目录的上级目录 |
EMBEDDING_DIM |
正整数 |
嵌入向量的维度 |
NUMEPOCH |
正整数 |
训练迭代次数 |
- 进行模型训练
在命令行中/CODE/文件夹下输入
python train_model.py
即可进行模型训练,训练结果保存在./model/目录下。
- 进行自动标准化编码
- 可在终端界面中输入诊断描述短语,获取最可能的5个编码。在./CODE/目录下执行
python predict_cmd.py
开启查询界面,输入诊断描述短语,回车即可。直接回车即退出查询界面。
- 或者,将诊断描述短语存成文件(如txt),一行为一条诊断描述短语且无空格。在./CODE/目录下执行
python predict_file.py PATH1 PATH2
其中,PATH1为source.txt的路径,PATH2为返回结果的路径,如./result.txt。