专利 对象匹配方法、模型训练方法、产品匹配方法和存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210435314.9 (22)申请日 2022.04.24 (71)申请人阿里巴巴（中国）有限公司地址 311121 浙江省杭州市余杭区五常街道文一西路969号3幢5层5 54室 (72)发明人陈犇　金林波　蒋文　 (74)专利代理机构北京博浩百睿知识产权代理有限责任公司 1 1134 专利代理师谢湘宁　李静茹 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/36(2019.01) G06F 40/166(2020.01) G06F 40/295(2020.01) G06N 3/08(2006.01) (54)发明名称对象匹配方法、模型训练方法、产品匹配方法和存储介质 (57)摘要本申请公开了一种对象匹配方法、模型训练方法、产品匹配方法和存储介质。其中，该方法包括：获取对象搜索请求和目标对象的描述信息；利用语义匹配模型对多个检索关键词和描述信息进行语义匹配，得到对象搜索请求与目标对象的目标匹配结果。本申请在模型的训练过程中借助对抗训练提升模型对关键词堆叠文本冗余信息的抗干扰能力，而且，在对抗训练的过程中融合了对比学习增强模型对正负样本的区分，提升对象搜索请求和目标对象的描述信息的表征能力，从而可以达到提高语义匹配模型对细微语义的识别能力并提高鲁棒性，进而达到提高模型识别准确率的技术效果，解决了现有技术中语义匹配模型识别准确率较低的技术问题。权利要求书2页说明书19页附图8页 CN 114860874 A 2022.08.05 CN 114860874 A 1.一种对象匹配方法，其特征在于，包括：获取对象搜索请求和目标对象的描述信息，其中，所述对象搜索请求由多个检索关键词叠加生成；利用语义匹配模型对所述多个检索关键词和所述描述信息进行语义匹配，得到所述对象搜索请求与所述目标对象的目标匹配结果，其中，所述语义匹配模型通过训练样本的第一匹配结果和对抗样本的第二匹配结果对预训练模型进行训练得到，所述对抗样本通过在所述训练样本上叠加噪声数据生成，所述第一匹配结果通过第一匹配模型对所述训练样本进行处理所得到，所述第二匹配结果通过第二匹配模型对所述对抗样本进行处理所得到，所述第一匹配模型和所述第二匹配模型分别采用两个不同的丢弃率对所述预训练模型中的部分神经元进行丢弃所得到。 2.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述训练样本的预设匹配结果；基于所述第二匹配结果和所述预设匹配结果，生成第一损失函数；基于所述第一匹配结果和所述第二匹配结果，生成第二损失函数；基于所述第一损失函数和所述第二损失函数，对所述预训练模型进行训练，得到所述语义匹配模型。 3.根据权利要求2所述的方法，其特征在于，基于所述第一匹配结果和所述第二匹配结果，生成第二损失函数包括：获取所述第一匹配结果和所述第二匹配结果的相对熵；基于所述相对熵生成所述第二损失函数。 4.根据权利要求1所述的方法，其特征在于，所述方法还包括：获取所述预训练模型的目标梯度；基于所述目标梯度生成所述噪声数据。 5.根据权利要求1所述的方法，其特征在于，利用语义匹配模型对所述多个检索关键词和所述描述信息进行语义匹配，得到所述对象搜索请求与所述目标对象的目标匹配结果包括：将所述多个检索关键词和所述描述信息进行拼接，生成目标文本；利用所述语义匹配模型对所述目标文本进行处理，得到所述目标匹配结果。 6.根据权利要求5所述的方法，其特征在于，将所述多个检索关键词和所述描述信息进行拼接，生成目标文本包括：对所述多个检索关键词和所述描述信息进行拼接，得到原始文本；对所述原始文本进行分词处理，得到多个字段；对所述多个字段进行命名实体识别，得到所述多个字段对应的属性；获取所述多个字段中属性为预设属性的目标字段；将所述目标字段进行拼接，得到所述目标文本。 7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述目标对象包括至少一个原始对象，所述目标匹配结果包括所述至少一个原始对象的匹配结果，所述方法还包括：获取所述至少一个原始对象中匹配结果大于预设结果的原始对象，得到推送对象；输出所述推送对象。权　利　要　求　书 1/2 页 2 CN 114860874 A 28.一种对象匹配方法，其特征在于，包括：云服务器接收客户端发送的对象搜索请求，其中，所述对象搜索请求由多个检索关键词叠加生成；所述云服务器基于所述对象搜索请求获取目标对象的描述信息；所述云服务器利用语义匹配模型对所述多个检索关键词和所述描述信息进行语义匹配，得到所述对象搜索请求与所述目标对象的目标匹配结果，其中，所述语义匹配模型通过训练样本的第一匹配结果和对抗样本的第二匹配结果对预训练模型进行训练得到，所述对抗样本通过在所述训练样本上叠加噪声数据生成，所述第一匹配结果通过第一匹配模型对所述训练样本进行处理所得到，所述第二匹配结果通过第二匹配模型对所述对抗样本进行处理所得到，所述第一匹配模型和所述第二匹配模型分别采用两个不同的丢弃率对所述预训练模型中的部分神经元进行丢弃所得到；所述云服务器输出所述目标匹配结果至所述客户端。 9.一种产品匹配方法，其特征在于，包括：获取产品搜索请求和目标产品的标题信息，其中，所述产品搜索请求由多个检索关键词叠加生成；利用语义匹配模型对所述多个检索关键词和所述标题信息进行语义匹配，得到所述产品搜索请求与所述目标产品的目标匹配结果，其中，所述语义匹配模型通过训练样本的第一匹配结果和对抗样本的第二匹配结果对预训练模型进行训练得到，所述对抗样本通过在所述训练样本上叠加噪声数据生成，所述第一匹配结果通过第一匹配模型对所述训练样本进行处理所得到，所述第二匹配结果通过第二匹配模型对所述对抗样本进行处理所得到，所述第一匹配模型和所述第二匹配模型分别采用两个不同的丢弃率对所述预训练模型中的部分神经元进行丢弃所得到。 10.一种模型训练方法，其特征在于，包括：获取训练样本，其中，所述训练样本包括：多个关键词叠加生成的搜索请求样本、目标对象的描述样本、以及所述搜索请求样本和所述目标对象的预设匹配结果；在所述训练样本上叠加噪声数据，生成对抗样本；分别采用两个不同的丢弃率对预训练模型中的部分神经元进行丢弃，得到第一匹配模型和第二匹配模型；利用所述第一匹配模型对所述训练样本进行处理，得到第一匹配结果，并利用所述第二匹配模型对所述对抗样本进行处理，得到第二匹配结果；基于所述第一匹配结果、所述第二匹配结果和预设匹配结果对所述预训练模型进行训练，得到语义匹配模型。 11.一种存储介质，其特征在于，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行权利要求 1至8中任意一项所述的对象匹配方法，或权利要求9所述的产品匹配方法，或权利要求10所述的模型训练方法。 12.一种计算机终端，其特征在于，包括：存储器和处理器，所述处理器用于运行所述存储器中存储的程序，其中，所述程序运行时执行权利要求1至8中任意一项所述的对象匹配方法，或权利要求9所述的产品匹配方法，或权利要求10所述的模型训练方法。权　利　要　求　书 2/2 页 3 CN 114860874 A 3

专利 对象匹配方法、模型训练方法、产品匹配方法和存储介质

专利对象匹配方法、模型训练方法、产品匹配方法和存储介质