一种用于法律判决文书的长文本生成式摘要方法

文档序号:37777610发布日期:2024-04-25 11:04阅读:12来源:国知局
一种用于法律判决文书的长文本生成式摘要方法

本发明属于计算机自然语言处理,具体是一种用于法律判决文书的长文本生成式摘要方法。


背景技术:

1、法律判决文书通常具有庞大的篇幅,包含了大量的法律条文、案情描述、证据等详尽信息。对于法律从业者、研究人员或一般公众而言,直接阅读整个文书非常耗时。同时法律判决文书往往包含大量的法律术语和专业知识,对非法律专业人士来说理解难度较大。生成摘要可以帮助非专业人士更好地理解判决结果,降低信息过载的风险。

2、法律判决文书生成摘要方法,旨在基于原始裁判文书,通过从文本或文本集合中提取、总结关键信息,生成通顺、关键且概括性的内容,以提炼出文本的主要信息。法律判决文书摘要依赖于机器学习技术,通过理解原文语义,创造性地生成不同于原文的文本概要。

3、textrank(mihalcea,r.,tarau,p.:"textrank:bringing?order?into?texts".in:lin,d.,wu,d.(eds.)proceedings?of?emnlp?2004.pp.404–411.association?forcomputational?linguistics,barcelona,spain.july?2004.)是一种基于图的抽取式文本摘要算法,灵感来自于pagerank算法,用于自动提取文本中的关键句子。该算法采用了图的概念,将文本中的句子表示为图中的节点,并通过边连接句子之间的相似性,形成一个权重图。textrank通过迭代计算节点的权重,最终确定每个句子的重要性,从而生成文本的摘要。但该方法存在对长文本处理和对语义理解的限制。

4、textrank这类无监督的抽取式文摘方法简单且快速,但受限于手工制定的规则,因此提取的内容不准确也不灵活。而监督学习方法通常需要大量标记的训练样本,其中包括文档和相应的摘要。这对于一些特定领域或语种的文本摘要任务可能会是一个挑战,因为标注大规模数据需要耗费时间和资源。

5、近年来深度学习方法在自动文摘领域有着显著发展,bertsum(liu,y.,lapata,m.:text?summarization?with?pretrained?encoders.in:proceedings?of?the?2019conference?on?empirical?methods?in?natural?language?processing?and?the?9thinternational?joint?conference?on?natural?language?processing(emnlpijcnlp).pp.3730–3740.association?for?computational?linguistics,hong?kong,china(nov2019).)是一种基于bert模型的抽取式文本摘要模型,bertsum利用预训练的bert模型,更好地理解上下文语义信息。并引入了文档级别编码器,对文档中的每个句子进行编码,以产生更富有语义的表示。

6、在法律文本方面,由于法律文本比较冗长、结构化程度较低,抽取式摘要的精准度和可靠性有所欠缺。一种针对民事裁判文书的生成式多模型融合的自动文摘方法basr(周蔚,王兆毓,魏斌.面向法律裁判文书的生成式自动摘要模型[j].计算机科学,2021,48(12):331-336.),在seq2seq模型的基础上加入注意力???,在生成摘要时更加关注原文中的重要信息来提高了摘要的质量,同时融合了bert、强化学习等方法,取得了不错的效果。


技术实现思路

1、本发明的目的是针对法律判决文书的长文本,生成法律判决文书的摘要,以对文本内容进行简洁而有力的总结。法律判决文书通常非常冗长,因此需要一种能够自动生成概括性摘要的方法。

2、本发明一种用于法律判决文书的长文本生成式摘要方法,包括以下三个步骤:

3、步骤1:对原始法律判决文书数据集进行语料转换,通过构建语料转换算法,使原始的句子组成更加细化和精确,以便于后续的模型训练和预测;

4、步骤1.1:替换法律判决文书中专有名词名称标签;

5、步骤1.2:使用语料转换算法对法律判决文书数据集进行语料转换;

6、步骤2:将经步骤1转换过的文本输入到roberta模型中进行处理,使用编码器对文本进行法律文本摘要特征提??;

7、步骤2.1对输入到roberta模型中的文本进行编码;

8、步骤2.2:采用roberta模型的双向transformer编码器(trm)获取文本的特征表示;

9、步骤3:采用unilm模型中seq2seq-attention?lm框架结构生成法律文本摘要;

10、步骤3.1:利用解码器进行解码预测;

11、步骤3.2:在解码时加入覆盖机制和复制机制生成更完整的摘要。

12、本发明方法中,步骤1.1所述替换法律判决文书中专有名词名称标签,首先将文书中涉及的专有名词,比如人名、公司名称、法人名称等替换为相应的标记,以防干扰训练的模型;然后,将原始法律判决文书中的语句基于标点符号拆分为子句子。

13、由于语料库中的法律文档的平均字符数远远超过了roberta可以在单个次数内处理的最大序列长度,因此原始法律判决文书中的语句必须基于标点符号拆分为子句子。

14、本发明方法中,步骤1.2所述使用语料转换算法对法律判决文书数据集进行语料转换,具体是将语料库给出的原文-文摘转换为原文-标签的形式,即表示语料转换后的文本;

15、语料库给出的法律判决文书原文及其参考文摘的组合表示为其中n表示训练集中摘要的数目;

16、xi=(clausei1,clausei2,…,clauseim),表示原法律判决文书本文,yi=(sumi1,sumi2,…,sumin),表示原法律判决文书摘要文本,其中m、n分别表示原始文本和参考文摘的长度;clauseim、sumin分别表示原文本和给出的文摘中的句子。

17、在roberta模型中,输入文本序列被分解为三个部分:词向量、句子向量和位置向量,将这三部分中具有相同维度的向量相加,得到模型可以理解的文本序列e,换句话说,每个文本序列都包含三个向量:tokenembedding(序列标签)、positionembedding(位置标签)和segmentembedding(语义标签)。

18、本发明方法,步骤2.1所述的文本编码,具体是:设输入的文本为一个长度为n的文本序列z,在序列的开头插入一个起始标记[cls],并在每个文本序列的末尾插入一个结束标记[sep],构建一个新的输入序列;

19、基于新的输入序列,文本的字符编码为句子编码为位置编码为通过将这三者堆叠在一起,得到最终的向量表示φi:

20、

21、使用roberta的分词器对文本进行分词,并在末尾填充"[pad]"标记,使文本长度达到指定的最大长度,将分词后的文本转换为对应的token?ids,并生成一个attentionmask,标记非填充部分为1,填充部分为0。

22、在进入tokenembedding之前,文本需要进行标记化,通过wordpiece标记化来实现。tokenembedding负责将文本中的单词转换为固定维度的向量,换句话说,负责词向量表示。在roberta中,通过tokenembedding,每个输入单词被转换为一个768维的向量。通过segmentembedding,roberta可以确定两个句子之间的语义相似性,从而区分多个句子的向量表示。为了区分多个句子,第一个句子的单词被表示为0,第二个句子的单词被表示为1,而[cls]和[sep]也被表示为0。因此,前述句子最终被转换为一个20*768维度的向量。当只输入一个句子时,segmentembedding将所有值分配为0。然而,当输入多个句子时,前一个向量中第一个句子的标记被分配为0,第二个句子的标记被分配为1。

23、roberta模型分为三个部分:

24、输入层:这是输入模型的文本数据的层,对应于原始文本序列。

25、编码层:这是经过编码处理的层,其中en代表单词的编码表示,trm代表transformer的编码器部分,tn是经过训练后的目标单词向量,t是输出序列向量,它整合了文本上下文的语义信息。

26、输出层:这是模型的输出层,生成最终的单词向量,反映了文本的语义信息。

27、可以看到,在中间的编码部分使用了transformer,该部分引入了transformer中的自注意机制。模型采用了卷积神经网络的残差机制,达成训练速度快、表达能力强。在法律判决书等长文本中,有助于更好地捕捉文本内部的长程依赖关系。同时,模型放弃了循环神经网络的结构。由于transformer具有强大的并行计算能力,roberta模型中的计算过程是并行的,计算速度得到加速,真正实现了对下文法律语义理解的获取和提升。

28、本发明方法,步骤2.2所述采用roberta模型的双向transformer编码器获取文本的特征表示,具体是采用roberta模型的l层transformer?layers来计算输入向量对应的上下文表示l表示第l层,s表示输入的原始文本的序列号,

29、其中φi的计算方式为:

30、φi=transformeri(φi-1)????????(2)

31、本发明方法,步骤3采用unilm模型中seq2seq-attention?lm框架结构生成文本摘要,这样有助于模型更好地理解输入法律文本的语义信息,并生成更合适的摘要。

32、步骤3.1所述利用解码器进行解码预测,在解码过程中,在每个时刻t,解码器通过控制指针pt来确定预测的词是从词汇表生成还是从文本中复制,表达式为:

33、

34、式中,σ是sigmoid激活函数,qt是解码器t时刻提取的法律文本摘要特征向量,kt、vt是解码器t时刻提取的法律文本特征向量,cpar是可学习参数;

35、解码器单元隐藏向量对第i个编码器单元隐藏向量的未归一化的标量注意力权重为et,经过归一化后,得到了第t个时刻解码器单元的隐藏向量对所有编码器单元的隐藏向量的注意力概率分布最终,基于注意力权重,对所有编码器单元的隐藏向量进行加权求和,得到上下文向量bt:

36、

37、

38、

39、文本中常包含大量专业术语和法律名词,这些词汇可能不容易通过生成式摘要直接转化为通用的表达。法律文本中的句子可能包含大量信息,有时难以通过生成式摘要完整地表达。复制机制允许模型重复使用原文中的短语,确保信息不会因为摘要而遗漏。

40、步骤3.2所述在解码时加入覆盖机制和复制机制生成更完整的摘要,使用复制机制缓解未登录词问题,抽取给定摘要中的字词与原词表合并为扩展词表,再计算t时刻预测词w的分布概率:

41、

42、式中,是解码器在时刻t上对预测词的文本序列的注意力概率分布,由解码器从摘要中提取的q法律文本摘要特征向量,以及编码器从文本中提取的k和v法律文本特征向量计算得到,如果预测的词w是一个未注册的词,那么pvocab将为零,这使得预测的词w仅能从文本中生成;

43、采用覆盖机制来缓解目标摘要中词汇重复的问题,使用以下公式:在解码器的第t个时刻,将历史注意力概率分布向量相加,得到历史注意力分布,然后将其用作当前时刻注意力计算的额外输入,最后加上对数损失函数:

44、

45、

46、本发明方法与现有方法相比,具有如下优点:

47、1.本发明方法通过构建语料转换算法,使句子的组成更加细化,解决处理法律判决书长文本困难的问题。

48、2.本发明方法使用roberta预训练模型进行特征提取,在法律判决书等长文本中,有助于更好地捕捉文本内部的长程依赖关系,这样对原始文本的建模更为强大,有助于捕捉更丰富的语义信息。

49、3.本发明方法通过在unilm的seq2seq-attention?lm生成时加入复制机制和覆盖机制,缓解未登录词问题和生成重复问题,有助于生成更自然、连贯的法律判决书摘要。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im