学知识图谱构建及应用

    (整期优先)网络出版时间:2022-08-08
    / 2

    学知识图谱构建及应用

    王功懋,李博伦,田菲,孙才雅

    (山东协和学院 山东济南250109)

    摘要:医学领域知识体系具有规模庞大、内涵丰富、关系复杂等特点。知识图谱作为资源管理和知识应用的重要技术,应用于医学领域能够更加有效地描述、挖掘实体间的关系,使大规模知识存储更为规范、应用更加高效,实现医学资源的有效整合,为知识服务相关研究奠定基础,为医学传承和发展提供新的思路。

    1知识图谱概念及特点

    知识图谱是一种以图的形式描述知识发展进程与内部相关关系的技术方法,本质上是一种大规模的语义网络,是实现知识网络可视化的有效载体。知识图谱是由节点和边组成的具有有向图结构的知识表示方式,其中节点表示实体,边代表实体之间的语义关系。知识图谱与本体联系紧密,本体侧重于表达认知的概念框架,知识图谱旨在以图谱的形式直观、准确地描述实体或概念本身及其之间的关系,故在知识图谱构建时,模式层构建实质上就是在完成本体定义的任务。知识图谱根据知识覆盖范围分为通用知识图谱和领域知识图谱类。通用知识图谱体量大,覆盖面广,代表性的知识图谱包括DBpedia、YAGO等;领域知识图谱对知识的深度和精度有更高要求,应用形式更广泛,如中国中医科学院中医药信息研究所基于中医药学语言系统构建中医药知识图谱,实现综合型知识检索、问答以及决策等智能应用。

    图1 知识图谱框架图

    2基于知识图谱的医学知识个性化分类构建

    知识图谱中包含了大量的语义内容,可以在推荐系统中引入知识图谱作为附加信息来提高推荐质量。因此,提出了基于知识图谱的个性化推荐模型构建。该模型主要包含了通过引入知识图谱来建立用户兴趣模型,进行学科分类,满足所有用户要求。

    利用TransR知识表示对实体的属性三元组进行向量化,得到三元组的向量表示,然后计算三元组集合中每个属性的权重并进行加权求和,建立用户兴趣模型。利用TransR算法得到实体、关系和属性的向量表示,然后计算用户兴趣向量。三元组的集合如公式(1)所示。

    (1)

    其中Vu是用户u历史访问的实体集,Tu是用户u访问的实体集中三元组信息。(h,r,s)是用户已经评估的三元组,h是实体,r是关系,s是实体的属性值。通过对实体和属性的向量表示,使用公式(2)计算实体h中的属性s的权重。

    (2)

    其中,h和rs是通过特征学习方法获得的实体和关系的向量表示。用户兴趣模型Cu是通过对用户历史评估集中的所有属性值进行加权求和得到的。计算过程如公式(3)所示。

    (3)

    3知识存储

    对知识进行持久化存储,使其满足用户的查询、推理等需求是知识图谱的必备功能之一。按照存储结构,知识图谱的存储方式大体分为基于表结构的存储和基于图结构的存储。基于表结构的存储是将知识图谱中的数据存储在二维的数据表中,包括关系数据库、三元组表和类型表。目前大多数知识图谱是以图数据库进行存储,图数据库通过节点、边和属性对数据进行表示和存储,能够将现实世界中的关联数据直观表现为图的形式。Neo4j开源数据库是目前最流行的图数据库之一,具备高效查询能力和拓展性。对于存储结构和工具的选择,需要综合考虑数据库性能和对后续任务的支持度等方面。

    4知识图谱模式层构建问题

    模式层构建的有效性直接影响知识图谱构建的质量。医学领域隐性知识丰富且关系复杂,构建领域知识图谱耗时、耗力,本体构建并没有严格的要求和规范,且医学本体往往是由多个机构独立构建,如何定义本体间的关系尚未有统一的标准,其术语表达和关系定义都具有较大差别,这也导致本体使用率和重复率不高。现阶段知识表示方式大多仍是基于三元组形式进行语义映射,知识抽取往往针对的是二元关系抽取,然而二元关系很难表达实体关系的时空特性,面向多类型、多源融合的信息时,多元关系的展示仍需深入探索。

    5医知识图谱研究发展趋势

    知识图谱因其具有知识语义化、数据易关联、可扩展等特点,已经成为资源管理和知识应用的重要技术,医学与知识图谱相结合是医学事业不断发展的必然趋势。但鉴于医学知识图谱仍处于研究探索阶段,理论内核仍需完善,知识图谱的相关功能也需不断探索。知识获取是知识图谱构建过程中重要的一步,其准确率、完整性和有效率大大影响后续知识图谱的质量。医学领域数据庞大、概念表达多样化且关系复杂,领域知识图谱构建缺乏相关资源,故需要先统一标准,才能从这些数据中挖掘高质量的知识。其次,中医药领域中积累了大量以文本形式存在的知识源,如中医医案、中医文献、中医古籍等,如何使其电子化并保证电子化过程中知识的完整度和规范化也是未来研究的方向。此外,名老中医辨证往往依赖自身经验且各具特点,其医案也是他们学术思想和临床经验的载体,很多隐性知识难以明确表达,如何对这些知识进行抽取以更好地传承名老中医经验也是值得探讨的问题。基于深度学习和群体智能的知识抽取方法逐渐成为研究主流,为医学知识抽取带来新的机会与挑战。

    6结语

    目前知识图谱在医学领域中应用广泛,但中医学领域知识图谱的构建和应用仍需更深层次的挖掘。如何运用知识图谱切实解决医学临床问题还需进一步的思考和探索。信息技术的飞速发展为医学知识图谱的构建创造了良机,作为医学领域知识图谱的研究,要紧密结合医学体系自身特点,契合医学理论和临床实际需求,研究如何能够更加精准地建模,实现对医学知识的精准分析和智能分类。

    参考文献:

    [1]陈悦,刘则渊.悄然兴起的科学知识图谱[J].科学学研究,2005,23(2):149-154.CHENY,LIUZY.Theriseofmappingknowledgedomain[J].StudSciSci,2005,23(2):149-154.

    [2]于彤,刘静,贾李蓉,等.大型中医药知识图谱构建研究[J].中国数字医学,2015,10(3):80-82.YUT,LIUJ,JIALR,etal.ResearchontheconstructionofbigknowledgegraphfortraditionalChinesemedicine[J].ChinaDigitMed,2015,10(3):80-82.

    [3]郝伟学.中医健康知识图谱的构建研究[D].北京:北京交通大学,2017.HAOWX.StudyontheconstructionofhealthknowledgegraphoftraditionalChinesemedicine[D].Beijing:BeijingJiaotongUniversity,2017.

    [4]黄恒琪,于娟,廖晓,等.知识图谱研究综述[J].计算机系统应用,2019,28(6):1-12.HUANGHQ,YUJ,LIAOX,etal.Reviewonknowledgegraphs[J].ComputSystAppl,2019,28(6):1-12.

    [5]BIZERC,LEHMANNJ,KOBILAROVG,etal.DBpedia-Acrystallizationpointforthewebofdata[J].JWebSemant,2009,7(3):154-165.

    [6]SUCHANEKFM,KASNECIG,WEIKUMG.YAGO:AlargeontologyfromwikipediaandWordNet[J].JWebSemant,2008,6(3):203-217.

    Baidu
    map