知识图谱存在的挑战---隐私、安全和伦理相关和测试认证相关

文章目录

    • 隐私、安全和伦理相关
    • 测试认证相关

隐私、安全和伦理相关

    从部署拓扑结构而言,知识图谱技术以数据为核心、数据库为载体的方式来存储,有单机、云平台、集群及其组合的部署方式,结合大数据平台、云平台、业务系统、灾备、网络系统及其与知识图谱之间的通信接口。知识图谱的安全问题,是为了保护其数据内容、存储载体、能够访问知识图谱的系统、平台、网络及之间的接口安全。

图片名称
基于知识图谱的医疗应用系统

     内部业务人员、外部合作伙伴、第三方合作业务系统通过利用相应的系统权限违规窃取/滥用数据。一般来说,内部业务人员拥有比外部、第三方更高的系统访问权限,内部人员对数据的访问和使用虽然经过了账号授权,但没有对其访问和传输内容进行审查容易造成数据流失和敏感信息泄露的问题。外部合作伙伴虽然拥有较低的系统权限,但是通过漏洞或钓鱼进行渗透网络和系统渗透、数据库注入、账号提权、病毒植入等方式也可以访问到数据库中的核心信息,从而产生数据丢失、窃取甚至拖库等风险。第三方系统一般通过接口访问知识图谱存储的数据库,在接口本身安全性、三方系统安全性方面无法做到有效管理。其次,敏感应用/接口缺少监控管理手段,容易造成数据泄露和资源占用。对于这类场景,需要从流量中知识图谱相关的协议解析开始,审查各个账号、接口获取的数据内容,防止数据泄露和未授权流量的产生。

     根据国家《数据安全管理办法(征求意见稿)》第六条,数据安全的风险评估势在必行。在风险评估之前,必要的一步就是对当前的数据进行梳理,分类分级、打标签,并识别敏感数据。然后,对已识别数据的驻留和流转风险进行评估。梳理数据的一种手段就是资产扫描,通过对数据库、数据内容及相应的大数据平台组件进行扫描,识别其中的敏感组件和数据并分类。其次,还要扫描数据传输路径和驻留节点,对流程可视化之后更便于识别风险。

     行为异常一般包含的场景:内部业务人员违规访问内部系统造成数据泄露/滥用事件;运维人员违规访问数据库/服务器,造成数据泄露事件;第三方通过接口违规提取截留敏感数据,造成数据泄露。从安全运营和运维角度来说,希望能够主动发现潜在的风险,但无奈系统节点繁多、流量庞杂、日志种类多数量大。因此,该类场景下需要从用户行为分析和日志审计的角度来切入,以可视化的方式呈现安全隐患。

     网络攻击的纵深防御,可以分为事前、事中、事后三个阶段,事前感知与预防,事中拦截并阻断,事后加固和溯源。在进行攻击溯源时,安全或IT部门在遇到数据安全事件时由于攻击手段的多样性经常会缺少有效溯源手段;而各种设备、系统、数据库日志各自独立,无法关联分析,无法定位事件源头;并且对于海量日志的搜索,传统安全产品检索分析性能无法满足需要。因此在溯源取证环节,对日志关联分析、攻击者画像、发现攻击链条等方面,由于知识图谱的数据结构、日志以及系统拓扑有别于传统业务系统,都将对安全系统的构建提出挑战。

     知识图谱作为底层的数据服务,为多种应用(如各类搜索引擎、对话系统)和各类接口提供服务或数据。在认证、账号、权限和审计方面均需统一管理,也就是4A安全管理,其中审计管理(Audit)全面记录用户在知识图谱相关系统与接口的登录行为和操作行为。基于图谱的异常行为定义和规则,实现知识内容获取、数据库操作、相关组件使用的有效审计。

     知识图谱构建技术中最重要的一个环节就是知识获取,包括实体抽取和关系抽取等,而且最终提供服务的知识图谱也高度依赖于这两个技术要素,这两类技术决定了知识图谱内容质量的好坏。为了保证输出高质量的图谱,并且维持这一质量要求,不仅需要从系统、平台、数据库、网络维度保护模型本身的安全性,防止训练好的模型文件被破坏,而且还需要保证输入数据的安全性,从模型的训练数据到抽取好待入库的知识结构,避免如恶意代码或原有数据、关系的替换,以免篡改行为导致知识图谱的质量下降。

     数据时代的安全架构:以数据为中心的审计与保护(Data-Centric Audit and Protection,简称“DCAP”)是由Gartner提出的术语。它强调特定数据本身的安全性,弱化了周边环境的安全考虑。DCAP主要的优点之一是将数据安全应用于待保护的特定数据片段但不影响正常业务,数据保护与企业战略保持一致。而目前的安全系统与建设方案都是全方位的重型防护体系,势必对业务流畅性产生一定影响,其中包括数据的分类发现与安全策略、审计和行为分析与告警、数据的保护等。

测试认证相关

    知识图谱相关技术及系统的测试评估作为知识图谱发展中的重要环节,国内外不同机构正在推动该方面的研究工作,其中全国知识图谱与语义计算大会作为中国中文信息学会语言与知识计算专委会定期举办的全国年度学术会议每年发布主题测评任务,促进国内知识图谱领域的技术发展,以及学术成果与产业需求的融合和对接。此外,美国伦斯勒理工学院Tetherless World Constellation研究所围绕知识图谱质量评估正在研制知识图谱测评系统,以检测和评估大规模异构知识图谱中存在的不连续性及潜藏错误标签。目前,该测评系统架构图如图6.1所示,并在一项大规模生物学知识图谱上完成了测试。整体而言,知识图谱的测试认证相关研究仍处于起步阶段,面临以下挑战:

图片名称
美国伦斯勒理工学院知识图谱测评系统架构图

    知识图谱测试与评估不仅涉及知识图谱输入数据、整体性能、平台功能等,还涉及知识图谱构建过程中知识获取、知识表示、知识存储、知识融合、知识建模、知识计算等各环节。其中,知识获取与知识融合环节测试评估获得的关注度较高,知识融合环节中的质量评估主要是对知识的可信度进行量化,保留置信度较高的并舍弃置信度较低的,有效确保知识的质量。此外,2019年全国知识图谱与语义计算大会就面向中文短文本的实体链指任务、人物关系抽取、面向金融领域的事件主体抽取、公众公司公告信息抽取等多个方面发布了评测任务。

    知识图谱测试与评估方法较少,且集中在知识图谱构建的特定环节或特定问题,尚未形成完整测评体系,无法指导当前各企业及相关用户的使用。美国伦斯勒理工学院发布的研究报告中针对实体类型不匹配、事件类型不匹配、实体事件二元性、上下文约束等知识图谱不一致性测评进行了探讨;德国Philipp Cimiano等专家针对知识图谱优化的现有评估方法从回顾性评估、计算性能等方面进行了总结,但数量有限;针对知识融合中质量评估问题,Mendes等人在LDIF框架基础上提出了一种新的质量评估方法(Sieve方法),支持用户根据自身业务需求灵 活定义质量评估函数,也可以对多种评估方法的结果进行综合考评以确定知识的最终质量评分。

    当前知识图谱相关标准较少,且尚无测试与评估标准发布,缺少获得业内一致认可的共性测评指标与方法。德国Philipp Cimiano等专家在文献中对知识图谱相关优化算法性能基于DBpedia、Zhishi.me、Open Cyc等数据库从精度、召回率、准确性、精度与召回率曲线下面积、ROC曲线下面积、均方根误差等指标进行了比较。在全国知识图谱与语义计算大会组织的评测任务中,增加了F1-Measure相关指标,并给出了具体的计算公式。但各项指标是否能够覆盖知识图谱测评需求还有待论证,而且知识图谱构建过程中各环节指标也待明确。

    标准测试数据集作为知识图谱测评的重要基础,高质量的测试数据集不仅有利于降低知识图谱相关系统的开发成本,也有利于多知识图谱产品间的横向对比,提升测评结果的公平性。DBpedia、Open Cyc、NELL等国外开源数据库及Zhishi.me、PKU-PIE、THUOCL、CN-DBpedia等国内开源数据库对知识图谱的发展起到了重要支撑作用。此外,TAC-KBP、MUC、全国知识图谱与语义计算大会等发布的测评任务中也会附相应的测评数据集。同时,OpenKG作为中国中文信息学会语言与知识计算专业委员会所倡导的开放知识图谱项目目前也已公布92项开源数据集。但各项数据集多是相关公司或组织独立开发所得,而且并非面向知识图谱测试而开发,有待进一步融合与发展。而且随着知识图谱相关产品在各领域的逐步落地与应用,未来面向特定领域的测试数据集需求将不断提升,如何在现有基础上构建相应领域的标准测试数据集也将是一大挑战。

    知识图谱测试人员需要同时掌握良好的知识图谱构建相关知识及软件测试相关能力。对于第三方测试机构而言,在具备相应测试人员基础上,还需要配备良好的测试环境和检测设备、完备的管理机制,而且测试实验室及测试人员需获得检测认证相关资质,才能够确保出具有公信力的检测报告。目前,由于知识图谱测评相关测试床及测试用例匮乏,而且现有测试人员及机构资质和测试环境多针对其他技术领域,其能否完全覆盖知识图谱测试中的特殊需求缺乏验证基础,未来有待进一步加强该方面技术突破及研究。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mfbz.cn/a/714542.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈qq邮箱809451989@qq.com,一经查实,立即删除!

相关文章

转型AI产品经理(9):“逆反理论”如何应用在Chatbot产品中

心理逆反理论是社会心理学中的一个重要概念,该理论主要探讨了当个体感知到自己的自由被限制或选择受到威胁时,会产生一种想要恢复或维护这些自由的心理倾向,也就是会产生一种逆反心理,试图恢复或重新获得失去的自由。 核心观点 自…

[报错解决]Failed to bind to server socket: amqp://0.0.0.0:5672?maximumConnections

目录 报错信息解决 报错信息 Failed to start Apache ActiveMQ (localhost, ID:rhel-33317-1718469475002-0:1) | org.apache.activemq.broker.BrokerService | main java.io.IOException: Transport Connector could not be registered in JMX: java.io.IOException: Faile…

显示类控件——ProgressBar

🐌博主主页:🐌​倔强的大蜗牛🐌​ 📚专栏分类:QT ❤️感谢大家点赞👍收藏⭐评论✍️ 文章目录 一、ProgressBar介绍核心属性代码示例: 设置进度条按时间增长示例: 创建一个蓝色的进度条示例: 反…

LabVIEW程序的常见加密方式

LabVIEW程序的加密对于保护知识产权和敏感数据至关重要。本文将详细介绍LabVIEW程序常用的加密方式,包括VI加密、代码保护、文件加密和通信加密等,帮助开发者选择合适的加密方法来确保程序的安全性和完整性。 LabVIEW程序的常见加密方式 VI加密&#xf…

Javaweb06-Jsp技术

Jsp技术 一.Jsp的运行原理 **概述:**JSP是Java服务器页面,既可以写静态页面代码,也可以写动态页面代码 **特点:**跨平台性,业务代码相分离,组件重用,预编译 运行原理: 客户端发生…

ssldump一键分析网络流量(KALI工具系列二十二)

目录 1、KALI LINUX 简介 2、ssldump工具简介 3、在KALI中使用ssldump 3.1 目标主机IP(win) 3.2 KALI的IP 4、操作示例 4.1 监听指定网卡 4.2 指定端口 4.3 特定主机 4.4 解码文件 4.5 显示对话摘要 4.6 显示加密数据(需要私钥&…

知识普及:什么是边缘计算(Edge Computing)?

边缘计算是一种分布式计算架构,它将数据处理、存储和服务功能移近数据产生的边缘位置,即接近数据源和用户的位置,而不是依赖中心化的数据中心或云计算平台。边缘计算的核心思想是在靠近终端设备的位置进行数据处理,以降低延迟、减…

Python开发者的7个PyCharm必备插件

大家好,本文将推荐使用7个必备的PyCharm IDE设置和插件,希望能帮助了解如何修改和增强IDE体验,使其更适合个人使用,毕竟作为开发者,大部分时间都是在这里工作。 1.String Manipulation 【链接】:https://…

c语言——扫雷游戏(简易版)

目录 前言游戏设计 前言 什么是扫雷游戏? 游戏目标是在最短的时间内根据点击格子出现的数字找出所有非雷格子,同时避免踩雷,踩到一个雷即全盘皆输。 这个游戏对于c语言的初学者来说难度还是挺大的,那我就实现一个初学者也能快速学…

Android Media Framework(六)插件式编程与OMXStore

OpenMAX IL Spec阅读到上一节就结束了,这一节开始正式进入到Framework阅读阶段,我们将了解OpenMAX框架是如何与Android Framework连接的。 1、插件式编程 插件式编程(Plugin-based Programming)是一种软件开发模式,它…

JavaFX 概述

要从 JavaFX 中充分受益,了解 JavaFX 的设计方式以及对 JavaFX 包含的功能有一个很好的概述是很有用的。本文的目的是为您提供 JavaFX 概述。本文将首先介绍一般的 JavaFX 设计,然后介绍 JavaFX 中的各种特性。 如果您熟悉 Flash/Flex,您会发…

【后端】websocket学习笔记

文章目录 1. 消息推送常见方式1.1 轮询 VS 长轮询1.2 SSE(server-sent event)服务器发送事件 2. websocket介绍2.1 介绍2.2 原理2.3 websoket API2.3.1 客户端【浏览器】API2.3.2 服务端API 3. 代码实现3.1 流程分析3.2 pom依赖3.3 配置类3.4 消息格式3.5 消息类 参…

【Css】纯css展开、收起超出的文本

效果 展开 收起 未超出 码 -webkit-line-clamp: 3; 设置限制行数 <div class"wrap"> <inputtype"checkbox"id"exp-txt"><div class"text"><labelfor"exp-txt"class"btn"></label&g…

纷享销客常见问题FAQ

运维和安全职责边界 应用专属是部署在客户私有云或者客户公有云租户的IT环境中的&#xff0c;由纷享销客与客户共同维护系统的稳定性。一般来说客户主要负责维护IT基础环境和账号权限的管理而纷享销客则负责在客户环境中进行应用系统的部署、优化和日常运维工作。在安全方面&am…

OrangePi AIpro 机器人仿真与人工智能应用测评

系列文章目录 前言 本篇文章分为2个部分&#xff0c;第一部分主要搭建了机器人的仿真环境&#xff08;ROS2 MuJoCo等&#xff09;&#xff0c;运行了机械臂及移动机器人相关示例程序&#xff1b;第二部分运行了OrangePi AIpro系统自带的示例程序及昇腾社区官方的示例程序&#…

马克·雷伯特访谈:机器人的未来及波士顿动力的创新之路

引言 机器人技术作为现代科技的前沿领域&#xff0c;始终吸引着大量的关注与研究。波士顿动力公司作为这一领域的领军者&#xff0c;其创始人兼前CEO马克雷伯特&#xff08;Marc Raibert&#xff09;近日在主持人莱克斯弗里德曼&#xff08;Lex Fridman&#xff09;的播客节目…

机器学习笔记 - 用于3D点云数据分割的Point Net的训练

一、数据集简述 ​在本教程中,我们将学习如何在斯坦福 3D 室内场景数据集 ( S3DIS )上训练 Point Net 进行语义分割。S3DIS 是一个 3D 数据集,包含来自多栋建筑的室内空间点云,占地面积超过 6000 平方米。Point Net使用整个点云,能够执行分类和分割任务。如果你一直在关注 …

【归并排序】| 详解归并排序核心代码之合并两个有序数组 力扣88

&#x1f397;️ 主页&#xff1a;小夜时雨 &#x1f397;️专栏&#xff1a;动态规划 &#x1f397;️如何活着&#xff0c;是我找寻的方向 目录 1. 题目解析2. 代码 1. 题目解析 题目链接: https://leetcode.cn/problems/merge-sorted-array/description/ 本道题是归并排序的…

SNAT和DNAT策略

1、SNAT策略及应用 SNAT应用环境&#xff1a;局域网主机共享单个公网IP地址接入Internet&#xff08;私有不能在Internet中被正常路由&#xff09; SNAT原理&#xff1a; 修改数据包的源地址。 SNAT转换前提条件&#xff1a; 局域网各主机已正确设置IP地址、子网掩码、默认…

库的制作 与 使用 (Linux下)

目录 动静态库的制作 前置知识 库的基本构造 问题 分析 要给什么文件 如何更好的让别人使用 库的生成 静态库的生成 makefile参考 动态库的生成 makefile参考&#xff08;包含动态库和静态库生成&#xff09; 库的使用 法一&#xff1a;放入系统路径 弊端 法二…