《电子技术应用》
您所在的位置:首页 > 人工智能 > 设计应用 > 基于语义匹配的电力物资领域中文敏感特征识别
基于语义匹配的电力物资领域中文敏感特征识别
电子技术应用
杨珂1,孙馨2,尚忠义3,孙爽4,5,叶湖芳2,黄宜华6,7
1.国网数字科技控股有限公司;2.国网江苏省电力有限公司 物资分公司;3.国家电网有限公司信息通信中心(大数据中心);4.国网区块链科技(北京)有限公司;5.国网区块链应用技术实验室;6.计算机软件新技术国家重点实验室;7.南京大学 计算机学院
摘要: 传统电力物资供应链领域中文敏感特征识别方法主要识别具有单一结构的扁平特征实体,难以针对复杂结构的嵌套特征实体,这些复杂结构的嵌套特征实体结构多样、层次复杂,传统的敏感特征识别方法难以准确识别和解析。对此提出了一种基于语义匹配的多结构中文敏感特征识别模型,将敏感特征实体识别任务重新定义为一个语义匹配问题。模型采用双塔模型结构,将目标实体特征类别作为提示词进行编码,并与句子中的序列片段进行语义上的对齐,该方法能够有效识别出包含扁平和嵌套结构在内的各种特征实体片段。结果表明,该研究提出SFSM模型的准确率、召回率及F1值均优于当前主流模型以及其他的融合模型。
中图分类号:TP391 文献标志码:A DOI: 10.16157/j.issn.0258-7998.257058
中文引用格式: 杨珂,孙馨,尚忠义,等. 基于语义匹配的电力物资领域中文敏感特征识别[J]. 电子技术应用,2026,52(5):1-7.
英文引用格式: Yang Ke,Sun Xin,Shang Zhongying,et al. Chinese sensitive feature recognition in power material domain based on semantic matching[J]. Application of Electronic Technique,2026,52(5):1-7.
Chinese sensitive feature recognition in power material domain based on semantic matching
Yang Ke1,Sun Xin2,Shang Zhongying3,Sun Shuang4,5,Ye Hufang2,Huang Yihua6,7
1.State Grid Digital Technology Holding Co., Ltd.;2.State Grid Jiangsu Electric Power Co., Ltd., Materials Branch;3.State Grid Corporation of China, Information and Communication Center (Big Data Center);4.State Grid Blockchain Technology (Beijing) Co., Ltd.;5.State Grid Blockchain Application Technology Laboratory;6.State Key Laboratory for Novel Software Technology;7.School of Computer Science, Nanjing University
Abstract: The traditional Chinese sensitive feature recognition methods in the field of power material supply chain mainly identify the flat feature entities with a single structure, and are difficult to target the nested feature entities with complex structures. These nested feature entities with complex structures have diverse structures and complex levels, so the traditional sensitive feature recognition methods are difficult to accurately identify and analyze. Therefore, this paper proposes a multi-structure Chinese sensitive feature recognition model based on semantic matching, which redefines the sensitive feature entity recognition task as a semantic matching problem. The model adopts a two-tower model structure, encodes the target entity feature categories as cue words, and aligns semantically with the sequence segments in the sentence. This method can effectively identify various feature entity segments including flat and nested structures. The results show that the accuracy, recall rate and F1 value of the SFSM model proposed in this study are better than the current mainstream models and other fusion models.
Key words : entity recognition with Chinese sensitive features;semantic matching;pre-trained language

引言

随着电力物资供应链领域的快速发展,面临着海量、多样化的信息,这些信息散布在采购订单、物流记录、库存报表等渠道,主要以非结构化文本的形式存在。面对如此庞大的数据量,人工手动处理和分析变得不切实际。因此,从这些非结构化的文本中提取出有价值的结构化信息,以满足电力物资供应链管理的需求,成为了学术界和业界的研究热点。敏感特征实体识别任务作为问答系统[1]、机器翻译[2]、知识图谱[3]等多项应用的基础任务,在自然语言处理领域受到了广泛的关注和研究。在实际应用中,对敏感特征实体识别的需求往往是精细和多层面的[4]。能够识别出不同层次的敏感实体,对于供应链管理者和决策者来说,意味着能够迅速获得关键信息,这对于物资调配、库存管理和成本控制至关重要。

在实际业务中,“敏感特征”是指在电力物资供应链中具有业务保密性、专有性或内部管理敏感性的关键信息字段。这些信息往往不对外公开,或仅在特定权限范围内流通,若被泄露或误用,可能引发供应链安全风险、商业机密外泄或管理决策偏差。例如,“采购NTB-12型断路器”中即存在电力设备实体“NTB-12型断路器”,也存在电力设备型号敏感特征“NTB-12型”,“NTB-12型”不仅是设备的唯一标识,也涉及厂商定制规格、采购价格区间以及技术参数配置。因此,为了解决嵌套敏感特征存在的复杂问题,本文提出了一种基于语义匹配的多结构中文敏感特征识别算法(Recognition of Multi-structure Chinese Sensitive Features Based on Semantic Matching,SFSM)。该算法旨在通过训练模型识别和抽取复杂嵌套敏感实体,以期提高模型在电力物资供应链优化和管理中的准确性和泛化能力,从而更好地服务于电力行业的实际应用。


本文详细内容请下载:

http://www.chinaaet.com/resource/share/2000007064


作者信息:

杨珂1,孙馨2,尚忠义3,孙爽4,5,叶湖芳2,黄宜华6,7

(1.国网数字科技控股有限公司,北京 100077;

2.国网江苏省电力有限公司 物资分公司,江苏 南京 210036;

3.国家电网有限公司信息通信中心(大数据中心),北京 100052;

4.国网区块链科技(北京)有限公司,北京 100077;

5.国网区块链应用技术实验室,北京 100077;

6.计算机软件新技术国家重点实验室,江苏 南京 210023;

7.南京大学 计算机学院, 江苏 南京 210023)

2.jpg

此内容为AET网站原创,未经授权禁止转载。