(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210662243.6
(22)申请日 2022.06.13
(71)申请人 中华人民共和国南京海关
地址 210000 江苏省南京市秦淮区龙蟠中
路360号
(72)发明人 朱立平 易欣 王文卓
(74)专利代理 机构 北京德崇智捷知识产权代理
有限公司 1 1467
专利代理师 王斌
(51)Int.Cl.
G06F 16/36(2019.01)
G06F 16/35(2019.01)
G06F 40/279(2020.01)
G06F 40/284(2020.01)
G06F 40/289(2020.01)G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
基于知识图谱表 示的海关数据分类方法、 装
置及存储介质
(57)摘要
本发明公开了一种基于知识图谱表示的海
关数据分类方法、 装置及存储介质, 用于解决海
关多属性数据中的分类问题, 方法包括: 在海关
每条多属性数据中定义实体和关系, 构建成知识
图谱三元 组; 利用一个新型翻译模块无监督地训
练出实体和关系的表示; 将实体的表 示整合为海
关数据的预训练表示层; 最后用一个 分类模块提
取预训练表 示层的特征, 同时对于海关数据中的
文本信息用传统的语言表示并提取特征; 在结合
了知识图谱表示和语言模型表示后对海关中一
些核心属性进行分类, 在该表示的基础上, 采用
轻量级的并行卷积单元就能够快捷地计算出海
关数据的特征, 为解决海关核心属性预测问题提
供了有效的解决方法。
权利要求书2页 说明书7页 附图1页
CN 115098694 A
2022.09.23
CN 115098694 A
1.一种基于知识图谱表示的海关数据分类方法, 其特 征在于, 包括如下步骤:
步骤1: 提取海关数据中包 含名词实体的属性;
步骤2: 利用步骤1中提取的实体构建三元组, 将每条海关数据拆成多个三元组: 三元组
中头实体, 关系, 尾实体分别对应海关数据中数据序号, 属性名称, 该条数据中对应属 性的
值;
步骤3: 对步骤2的尾实体进行分词, 去停用词, 得到文本的序列化表示;
步骤4: 将步骤2中得到的头实体, 关系和尾实体通过三个不同的嵌入层, 将头实体, 关
系, 尾实体嵌入到低维向量中, 同时, 由步骤3中的尾实体序列化表示进行词嵌入并通过一
层BiLSTM处理为等长特征, 头实体和关系的嵌入向量, 以及尾实体嵌入向量和BiLSTM输出
特征的组合分别记录为h, l, t;
步骤5: 构建一个翻译模块, 利用h和l作为输入, 输出一个翻译矩阵;
步骤6: 将步骤5得到的翻译矩阵与h相乘, 得到h的翻译结果t*, 并计算t和t*之间的距
离;
步骤7: 利用步骤6的计算结果, 计算loss函数, 在没有监督信息的条件下, 训练嵌入层
模块和翻译模块;
步骤8: 将t的嵌入层和BiLSTM层作为海关数据每条属性的预训练语言表示方法, 对于
单条数据, 将多条属性得到的表示 拼接, 作为分类的输入数据;
步骤9: 将步骤6的数据输入分类模块, 提取 数据特征;
步骤10: 将步骤9得到的数据特征展开成一维向量并拼接, 通过全连接层进行分类, 使
用交叉熵l oss训练分类模块和全连接层;
步骤11: 采用步骤10训练的分类模块和全连接层对 海关数据进行分类。
2.根据权利要求1所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤3
中, 对文本进行编码按类型进行编码, 其中, 对于尾实体中的 “商品描述 ”中文文本, 进行逐
字地分词, 根据jieba分词中的字典进行编码; 对于商品名称和电商名称之类属性的短文
本, 以训练集中所有出现的商品名称, 电商名称为字典, 在不分词的情况下编码; 对于三元
组中的关系, 采用不分词直接编码的方法。
3.根据权利要求1所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤4
中, 利用三个嵌入层处理头实体, 关系和 尾实体的直接编码, 每条数据被转换为h, l, t三条
向量, 其长度分别 为40,50,50; 用一个新的嵌入层将尾实体的分词编码特征处理为(T, 64)
的大小, 其中T为分词后序列长度; 通过一个BiLSTM处理为长度为50的特征, 该特征和头实
体, 关系的嵌入层组成新的一组h, l, t。
4.根据权利要求3所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤5
中构建的翻译模块, 由以下模 型得到: 输入为h和l, 将 h输入一层mlp网络, 输出长度与h相同
的向量, 记为f(h); 将l输入一层mlp网络, 输出长度与h相同的向量, 记为g(l); 将f(h)和g
(l)拼接得到(40,2)的特征; 最后依次通过三个一维卷积层(2,16), (16,32), (32,50), 输出
一个大小为(40,5 0)的矩阵, 作为翻译矩阵。
5.根据权利要求1所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤6
中计算t和t*之间的距离为:
d(h,l,t)=| |F(h,l)‑t||2权 利 要 求 书 1/2 页
2
CN 115098694 A
2式中, F(h,l)=t*, 为翻译模块得到的向量与h相乘得到的一个预测实体。
6.根据权利要求1所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤7
中, loss函数的形式为:
其中, N表示 三元组数量, M表示从M个其 他三元组中采样 负例关系, α1和 α2是经验常数。
7.根据权利要求1所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤9
中, 构建5层一 维卷积网络作为分类模 型, 每一层 包含一个一 维卷积核为的3卷积, 一个BN层
和一个ReLU激活层; 卷积层的通道大小分别为(5,32), (32,64), (64,64), (64,128), (128,
128); 最终输出(5 0,128)的特 征用于分类。
8.根据权利要求7所述的基于知识图谱表示的海关数据分类方法, 其特征在于, 步骤10
中, 将(50,128)的特征展开为6400的向量, 依次通过(6400, 1024)和(1024, 类别数目)的全
连接层, 其中第一个全连接层 包含ReLU激活函数, 第二个全连接层结果的通过softmax 预测
类别。
9.一种基于知识图谱表示的海关数据分类装置, 其特征在于, 包括处理器和存储器; 所
述存储器中存储有程序或指令, 所述程序或指 令由所述处理器加载并执行以实现如权利要
求1至8任一所述的基于知识图谱表示的海关数据分类方法。
10.一种计算机可读存储介质, 所述可读存储介质上存储程序或指令, 所述程序或指令
被处理器执行时实现如权利要求1至8任一项所述基于知识图谱表示的海关数据分类方法。权 利 要 求 书 2/2 页
3
CN 115098694 A
3
专利 基于知识图谱表示的海关数据分类方法、装置及存储介质
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 10:59:04上传分享