医学诊断名称自动标准化工具医学诊断名称自动标准化工具

Manual

基于机器学习的自动标准化编码软件V1.0

使用手册

准备工作

本程序只提供命令行界面，不提供图形化界面。在某个目录下面创建data、CODE和model三个文件夹。将训练集(train.txt)、验证集(test.txt)和标准编码集(standard.txt)文件放到./data/目录下。将CONFIG.py, train_model.py, predict_cmd.py和predict_file.py放到CODE目录下面。model文件夹是用来储存模型等相关文件。

训练集、验证集和标准编码集应当以字为单位按空格隔开，与其对应的编码按Tab隔开。（如下图）

参数调整

进入/CODE/CONFIG.py调整参数，如下是各个参数代表的含义。未列出的参数不建议修改。

参数名	参数取值	解释
basepath	字符串（目录路径）	存放data目录和model目录的上级目录
EMBEDDING_DIM	正整数	嵌入向量的维度
NUMEPOCH	正整数	训练迭代次数

进行模型训练

在命令行中/CODE/文件夹下输入

python train_model.py

即可进行模型训练，训练结果保存在./model/目录下。

进行自动标准化编码
1. 可在终端界面中输入诊断描述短语，获取最可能的5个编码。在./CODE/目录下执行

python predict_cmd.py

开启查询界面，输入诊断描述短语，回车即可。直接回车即退出查询界面。

或者，将诊断描述短语存成文件（如txt），一行为一条诊断描述短语且无空格。在./CODE/目录下执行

python predict_file.py PATH1 PATH2

其中，PATH1为source.txt的路径，PATH2为返回结果的路径，如./result.txt。

医学诊断名称自动标准化工具 医学诊断名称自动标准化工具

Manual

医学诊断名称自动标准化工具医学诊断名称自动标准化工具