本申请属于多源异构数据智能处理,尤其涉及一种多源异构市场敏感数据的存储方法及系统。
背景技术:
1、多源异构数据这一概念其主要包括两个特征:一是多源性,例如对于同一个主题或对象的描述和评价等由不同的人从不同的角度给出;二是异构性,即这些数据的种类及形态不尽相同,具有复杂性,如文本、图像、视频等。
2、当前不同的电商平台其数据源产生的数据不仅存储模式和信息内容不一样,其产生的时间、用户的角度,产生的地点、所遵循的代码规则等也不尽相同??杉?,电商平台大数据领域具有数据来源广泛,数据结构复杂,具有多源异构特性。现有技术中难以对上述多种类型大数据进行有效的融合存储,进而导致后续采用相关模型进行数据挖掘分析时不能充分考虑不同数据之间的关联性,降低大数据分析的效率。
技术实现思路
1、针对现有技术中的缺陷,本发明提供一种多源异构市场敏感数据的存储方法及系统,通过统一多源异构数据格式,结合聚类算法和textcnn模型进行目标特征提取,实现了多源异构数据特征的有效融合,并对目标特征信息进行存储,为后续进行市场竞争垄断行为的判断分析模型提供真实的有效数据。为实现上述目的,本发明提供如下技术方案:
2、一种多源异构市场敏感数据的存储方法及系统,应用于多源异构市场敏感数据的存储系统,其特征在于,所述多源异构市场敏感数据的存储方法包括以下步骤:
3、(1)通过网络爬虫程序??椴杉喔龅缟唐教ǖ氖谐∶舾惺?,所述市场敏感数据为涉嫌市场竞争垄断行为数据;所述市场敏感数据为多源异构,且至少包括文本类数据和图像类数据;
4、(2)通过文本信息提取??榛袢∷鍪谐∶舾惺荻杂Φ奈谋拘畔?;
5、(3)通过聚类??槎运鑫谋拘畔⒔芯劾嗳诤匣竦枚喔鑫谋拘畔⒎肿?,
6、(4)通过目标特征提取??槎悦扛龇肿橄露喔鑫谋拘畔⑹萁刑卣魈崛∫曰竦枚嘧槟勘晏卣餍畔?,
7、(5)通过特征数据库存储所述多组目标特征信息以供后续进行市场竞争垄断行为的判断分析。
8、进一步地,步骤(2)中获取所述市场敏感数据对应的文本信息包括:对于文本类多源异构数据,直接获取文本信息,对于图像类多源异构数据,利用图像转换文本工具转换为对应的文本信息。
9、进一步地,所述图像转换文本工具通过编写python脚本调用“百度智能云”平台中的通用场景文字识别api,将图像类数据转化为文本信息。
10、进一步地,步骤(3)中对所述文本信息进行聚类融合获得多个文本信息分组通过k-means聚类算法实现,其具体实现步骤如下:
11、(3-1)假设所述市场敏感数据对应的文本信息构成数据集d={d1,d2,...dn},给定聚类个数k,设置最大迭代次数n,随机选择k个数据为初始聚类中心m={m1,m2,...mk};
12、(3-2)计算数据集d中剩余不同数据与聚类中心m之间的距离h(di,mj),其中mj∈{m1,m2,...mk};h(di,mj)为欧氏距离或曼哈顿距离;
13、如果数据与某聚类中心之间距离满足h(di,mj)=min{h(di,mj)},则将数据di划分为mj;
14、(3-3)数据集d中数据被划分为某类别,则调整分类重新计算聚类中心其中r表示聚类类别mj中所含数据的个数;
15、(3-4)计算误差准则函数z,若存在满足误差要求,则表示聚类准则函数收敛,k-means算法聚类到此停止;否则,返回步骤(3-2)继续重新开始聚类,直至聚类迭代次数结束为止,其中误差准则函数z计算公式如下:
16、
17、进一步地,通过所述k-means聚类算法获得多个文本数据分组后,步骤(4)中通过目标特征提取??槎悦扛龇肿橄露喔鑫谋拘畔⑹萁刑卣魈崛∫曰竦枚嘧槟勘晏卣餍畔?,其具体实现如下:
18、(4-1)将每个分组下文本信息数据输入word2vec向量生成模型生成多个词向量;
19、(4-2)将所述词向量按照句子顺序拼接成二维矩阵;
20、(4-3)将所述二维矩阵输入textcnn模型提取目标特征信息。
21、进一步地,其中在步骤(4-3)中,textcnn模型的卷积层采用多个不同大小的卷积核来抽取不同范围内的语句局部特征,卷积核的滑动只作用于语句顺序方向上;textcnn模型的池化层通过一维池化操作将维度转换到固定长度,最后通过全连接层将局部特征进行组合得到文本数据目标特征信息。
22、本发明的另一目的在于提供一种多源异构市场敏感数据的存储系统,包括网络爬虫程序???、文本信息提取???、聚类???、目标特征提取??橐约疤卣魇菘?;所述多源异构市场敏感数据的存储系统用于执行上述多源异构市场敏感数据的存储方法。
23、本发明的另一目的在于提供一种计算机可读存储介质,存储一个或多个程序,所述一个或多个程序使得计算机执行上述多源异构市场敏感数据的存储方法。
24、结合所述的所有技术方案,本发明与现有技术相比具有如下优点:
25、通过统一多源异构数据格式,结合聚类算法和textcnn模型进行目标特征提取,实现了多源异构数据特征的有效融合,并对目标特征信息进行存储,为后续进行市场竞争垄断行为的判断分析模型提供真实的有效数据。
1.一种多源异构市场敏感数据的存储方法,其特征在于,包括如下步骤:
2.如权利要求1所述的一种多源异构市场敏感数据的存储方法,其特征在于,步骤(2)中获取所述市场敏感数据对应的文本信息包括:对于文本类多源异构数据,直接获取文本信息,对于图像类多源异构数据,利用图像转换文本工具转换为对应的文本信息。
3.如权利要求2所述的一种多源异构市场敏感数据的存储方法,其特征在于,所述图像转换文本工具通过编写python脚本调用“百度智能云”平台中的通用场景文字识别api,将图像类数据转化为文本信息。
4.如权利要求1所述的一种多源异构市场敏感数据的存储方法,其特征在于,步骤(3)中对所述文本信息进行聚类融合获得多个文本信息分组通过k-means聚类算法实现,其具体实现步骤如下:
5.如权利要求4所述的一种多源异构市场敏感数据的存储方法,其特征在于,通过所述k-means聚类算法获得多个文本数据分组后,步骤(4)中通过目标特征提取??槎悦扛龇肿橄露喔鑫谋拘畔⑹萁刑卣魈崛∫曰竦枚嘧槟勘晏卣餍畔?,其具体实现如下:
6.如权利要求5所述的一种多源异构市场敏感数据的存储方法,其特征在于,其中在步骤(4-3)中,textcnn模型的卷积层采用多个不同大小的卷积核来抽取不同范围内的语句局部特征,卷积核的滑动只作用于语句顺序方向上;textcnn模型的池化层通过一维池化操作将维度转换到固定长度,最后通过全连接层将局部特征进行组合得到文本数据目标特征信息。
7.一种多源异构市场敏感数据的存储系统,其特征在于,包括网络爬虫程序???、文本信息提取???、聚类???、目标特征提取??橐约疤卣魇菘?,所述存储系统用于执行如权利要求1-6任一项所述的方法。
8.一种计算机可读存储介质,其特征在于,存储一个或多个程序,所述一个或多个程序使得计算机执行如权利要求1-6任一项所述的方法。