维基百科医学概念文章识别工具 维基百科医学概念文章识别工具
Introduction
医学知识图谱是一个非常重要的工具,可用于医疗问答系统,医疗临床决策,医疗自然语言处理等。医学知识图谱的自动化构建不仅节省相关的人力物力投入,也使图谱的更新可持续化。该软件是一款基于英文维基百科、医疗一体化数据库(UMLS)和Wikidata语料的医学知识图谱自动构建软件。
本软件由三个子模块构成:训练数据构建模块、获取维基百科重要医学词条模块、
整理关系模块。训练数据构建模块用于构建文本分类器所用的训练集。获取维基百科重要医学词条模块是用爬虫分类器和神经网络分类器提取维基百科中重要医学相关词条。整理数据模块是根据维基百科中得到的结果来获取Wikidata语料中的关系。
本软件的主要特性为:本软件通过利用维基百科数据及其特殊结构来自动化构建医学知识图谱,该软件不仅返回医学知识图谱(实体和关系),其挖掘的维基百科中医学词条也为进一步的数据挖掘提供语料。该流程可拓展到其他领域知识图谱的构建。
本软件可以运行在安装有MySQL, Java, Python3的Windows和Linux操作系统上。OSx系统上未经过测试。该软件需要Python的如下自定义包:tensorflow, numpy, keras, genism,这些软件可以通过Anaconda的conda或者pip进行安装。该软件也需要MySQL加载Wikipedia离线数据包,UMLS数据库。
Publications
No Publication Information
Credits
- Sheng Yu syu@tsinghua.edu.cn Investigator
Center for Statistical Science, Tsinghua University, China
Community Ratings
Usability | Efficiency | Reliability | Rated By |
---|---|---|---|
0 user | |||
Sign in to rate |
Summary
Accession | BT007118 |
---|---|
Tool Type | Application |
Category | |
Platforms | |
Technologies | Java, Python3 |
User Interface | |
Latest Release | 1.0 (May 27, 2021) |
Download Count | 1497 |
Country/Region | China |
Submitted By | Sheng Yu |
Fundings
2018YFC0910400