本说明书涉及计算机,尤其涉及一种指定领域的文本生成方法及装置。
背景技术:
1、随着互联网信息的爆炸性增长,人们对于文本内容生成的需求越发频繁。大语言模型(large?language?model,llm)能够根据用户输入的需求生成与人类表达类似的文本,已逐渐在智能写作领域应用。尽管通用的大语言模型具有一定的泛化能力,但由于其是在通用语料库中训练得到,难以覆盖指定领域的指定术语和知识,导致模型在垂直领域上缺乏足够的理解和表达能力,因而在指定专业领域仍表现不佳。
2、改善大语言模型在指定领域下生成文本的性能的关键在于:对大语言模型注入和融合指定领域的知识。但这一过程往往充满挑战。这是由于,指定领域的语料搜集难度较高,且结构化程度低,难以直接构造形成适用于大语言模型训练的问答对。
3、目前,为了提升指定领域的语料的结构化程度,通常需要对指定领域的语料进行人工标注,这一过程费时费力,极大地降低了模型训练的效率,进而提升了通过适用于指定领域的大语言模型生成符合指定领域的文本的难度。
技术实现思路
1、本说明书提供一种指定领域的文本生成方法及装置,以部分地解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种指定领域的文本生成方法,包括:
4、获取指定领域的原始文件;所述指定领域包括公文写作领域;
5、根据数据清洗规则对所述指定领域的原始文件进行数据清洗,并对数据清洗后的各原始文件进行格式转化,得到目标文件;
6、将所述目标文件输入到预先训练的主题分类模型中,得到所述主题分类模型输出的所述目标文件对应的目标主题;
7、根据所述目标文件中的文本,构建所述目标主题对应的问答对;其中,所述问答对中的问题是从所述目标文件中提取出的标题文本,所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本;
8、根据所述目标主题对应的问答对,优化预训练的自然语言模型的模型参数,得到所述目标主题对应的文本生成模型;
9、通过所述目标主题对应的文本生成模型,生成所述目标主题的输出文本。
10、可选地,所述获取指定领域的原始文件,具体包括:
11、预先根据指定领域的若干个文件类型,确定爬取规则;所述爬取规则至少包括从所述指定领域的若干个文件类型分别对应的文件目录下分别获取文件;
12、根据所述爬取规则,获取所述指定领域的各文件类型分别对应的文件,作为所述指定领域的原始文件。
13、可选地,所述数据清洗规则包括文本长度筛选规则;
14、所述根据数据清洗规则对所述指定领域的原始文件进行数据清洗,具体包括:
15、确定所述指定领域的各原始文件包含的文本分别对应的文本长度;
16、获取多个不同的文本长度阈值;
17、针对每个文本长度阈值,将所述指定领域的各原始文件包含的文本分别对应的文本长度,依次与该文本长度阈值进行比对,确定文本长度大于该文本长度阈值的指定领域的原始文件,作为该文本长度阈值对应的选中文件;
18、根据该文本长度阈值对应的选中文件的数量与所述各原始文件的数量之间的比值,确定该文本长度阈值对应的参考指标;
19、根据各文本长度阈值对应的参考指标,从所述各文本长度阈值中选择目标文本长度阈值;
20、根据所述目标文本长度阈值,将文本长度不大于所述目标文本长度阈值的指定领域的原始文件剔除,将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。
21、可选地,所述数据清洗规则包括文本层级结构筛选规则;
22、所述根据数据清洗规则对所述指定领域的原始文件进行数据清洗,具体包括:
23、获取多个不同的文本层级结构标识,并从各文本层级结构标识中确定各指定标识;
24、针对所述指定领域的每个原始文件,将所述各文本层级结构标识与该原始文件的文本进行匹配,确定该原始文件的文本中包含的文本层级结构标识,作为目标标识;
25、若所述目标标识与所述各指定标识均不匹配,则剔除该原始文件;
26、将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。
27、可选地,所述数据清洗规则包括文件类型筛选规则;
28、所述根据数据清洗规则对所述指定领域的原始文件进行数据清洗,具体包括:
29、根据所述指定领域的先验知识,确定多个参考文件类型对应的关键词;
30、将各参考文件类型对应的关键词与所述指定领域的原始文件中的文本进行匹配,并将文本命中所述各参考文件类型对应的关键词中的至少一个关键词的原始文件剔除,将剩余的指定领域的原始文件作为数据清洗后的指定领域的原始文件。
31、可选地,所述对数据清洗后的原始文件进行格式转化,得到目标文件,具体包括:
32、创建指定格式的文件;
33、将多个预设的文本层级结构标识,与数据清洗后的原始文件进行匹配,从所述数据清洗后的原始文件中提取目标标识;
34、根据所述目标标识,确定所述原始文件中包含的多级标题文本,以及所述多级标题文本分别对应的层级;
35、根据所述多级标题文本分别对应的层级,将所述多级标题文本分别标注为所述指定格式的文件中不同级别的标题元素;
36、根据所述多级标题文本在所述原始文件中的位置,确定所述多级标题文本分别对应的正文文本,并将所述多级标题文本分别对应的正文文本标注为所述指定格式的文件中不同级别的标题元素对应的正文元素;
37、根据所述不同级别的标题元素、所述不同级别的标题元素对应的正文元素和所述指定格式的文件,确定目标文件。
38、可选地,预先训练主题分类模型,具体包括:
39、预先获取多个预设主题,以及各预设主题对应的第一参考文本;
40、针对每个预设主题,根据该预设主题的第一参考文本以及该预设主题类型,优化预训练的自然语言模型,得到该预设主题的生成模型;
41、通过该预设主题的生成模型,生成该预设主题的第二参考文本;
42、根据所述各预设主题的第一参考文本,以及所述各预设主题的第二参考文本确定训练样本,并根据所述各预设主题确定所述训练样本的标注;
43、根据所述训练样本以及所述训练样本的标注,训练待训练的主题分类模型,得到训练完成的主题分类模型。
44、可选地,所述根据所述目标文件中的文本,构建所述目标主题对应的问答对,具体包括:
45、根据所述目标文件中不同级别的标题元素,从所述目标文件中提取多级标题文本;
46、根据所述目标文件中不同级别的标题元素对应的正文元素,从所述目标文件中提取所述多级标题文本分别对应的正文文本;
47、依次针对每一级标题文本,将排列在该级标题文本之前的至少一级标题文本,与该级标题文本拼接,得到该级标题文本对应的问题;
48、将该级标题文本对应的正文文本作为该级标题文本对应的答案;
49、根据该级标题文本对应的文本,以及该级标题文本对应的答案,确定该级标题文本对应的问答对;
50、根据所述目标文件中多级标题文本分别对应的问答对,确定所述目标主题对应的问答对。
51、可选地,所述通过所述目标主题对应的文本生成模型,生成所述目标主题的输出文本,具体包括:
52、响应于文本生成请求,获取目标主题的至少一级标题文本;
53、根据所述目标主题的至少一级标题文本以及预设的提示词模板,得到提示文本;
54、将所述提示文本输入到优化得到的目标主题对应的文本生成模型,得到所述目标主题的输出文本。
55、本说明书提供了一种指定领域的文本生成装置,包括:
56、原始文件获取???,用于获取指定领域的原始文件;所述指定领域包括公文写作领域;
57、目标文件确定???,用于根据数据清洗规则对所述指定领域的原始文件进行数据清洗,并对数据清洗后的各原始文件进行格式转化,得到目标文件;
58、分类???,用于将所述目标文件输入到预先训练的主题分类模型中,得到所述主题分类模型输出的所述目标文件对应的目标主题;
59、问答对构建???,用于根据所述目标文件中的文本,构建所述目标主题对应的问答对;其中,所述问答对中的问题是从所述目标文件中提取出的标题文本,所述问答对中的答案是从所述目标文件中提取出的所述标题文本对应的正文文本;
60、优化???,用于根据所述目标主题对应的问答对,优化预训练的自然语言模型的模型参数,得到所述目标主题对应的文本生成模型;
61、文本生成???,用于通过所述目标主题对应的文本生成模型,生成所述目标主题的输出文本。
62、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述指定领域的文本生成方法。
63、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述指定领域的文本生成方法。
64、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
65、本说明书提供的指定领域的文本生成方法中,对获取到的指定领域的原始文件进行数据清洗和格式转化得到目标文件,通过主题分类模型确定目标文件的目标主题,根据目标文件中的文本构建目标主题的问答对,问答对中的问题是目标文件中的标题文本,答案则是目标文件中的正文文本,根据目标主题对应的问答对优化预训练的自然语言模型的模型参数得到目标主题的文本生成模型,从而通过目标主题对应的文本生成模型,生成目标主题的输出文本??杉?,通过对目标文件进行主题分类,依据目标文件中的标题文本和正文文本构建目标主题的问答对的方式,可以有效提取出目标文件中指定领域下目标主题的知识,从而通过微调的方式,将提取到的知识融合入预训练的自然语言模型,提升了模型对指定领域的适用性,从而提高了输出文本的质量。