Introduction

关系提取是利用自然语言文本提取实体对之间语义关系的一种方法,对医学知识图谱的构建具有关键性的作用。本软件利用目前流行的深度学习方法,开发了一种新的医学关系自动提取模型。该模型能以较高的准确率将实体对之间的关系识别为可能导致(may cause)、可能被导致(may be caused by)、鉴别诊断(differential diagnosis)和其他(other) 四种关系中的一种。

本软件含有如下子模块用来完成关系提取工作:数据收集与预处理模块、训练模块和预测模块。1.数据收集与预处理模块:从网页中抓取若干实体对(及它们之间的关系)作为标签,再从Wikipedia和Medscape eMedicine中搜索相应句子作为训练样本。2.训练模块:将收集到的样本送入神经网络中进行训练。3.预测模块:将包含有新的实体对的句子输入已经训练好的神经网络中,神经网络将会自动完成关系分类任务。

本软件有如下几个主要特性:1.利用深度学习模型完成关系自动提取,有效解决了提取速度慢、成本高等一系列传统模型中存在的问题。2.样本提取采用远监督(distant supervision)方式3. 充分考虑医学文本的结构特征,将文本章节结构信息融入训练样本中。2和3均使训练样本得到较大程度的扩充,有利于神经网络的训练。

本软件可以运行在安装有Python3的Windows和Linux操作系统上。在OSX系统上未经过测试。该软件需要Python的如下自定义包:bs4, pandas, numpy, keras, gensim, logging, pickle, tqdm, torch。这些软件可以通过Anaconda的conda或者pip进行安装。

Publications

No Publication Information

Credits

  1. Sheng Yu syu@tsinghua.edu.cn
    Investigator

    Center for Statistical Science, Tsinghua University, China

Community Ratings

UsabilityEfficiencyReliabilityRated By
0 user
Sign in to rate
Summary
AccessionBT007116
Tool TypeApplication
Category
Platforms
TechnologiesPython3
User Interface
Latest Release1.0 (May 27, 2021)
Download Count76
Country/RegionChina
Submitted BySheng Yu
Fundings

2018YFC0910400