游戏舆情的检测方法及系统的制作方法

文档序号:8258749阅读:248来源:国知局
游戏舆情的检测方法及系统的制作方法
【技术领域】
[0001] 本发明涉及互联网技术领域,尤其涉及一种游戏舆情的检测方法及系统。
【背景技术】
[0002] 在游戏的开发和运营过程中,通过各种方式收集游戏用户对游戏的反馈信息是一 项非常重要的工作。通过对收集到的这些信息进行分析,不仅可以挖掘玩家的需求、了解游 戏用户的喜好,也可以观察游戏用户近期对某个游戏的态度,对游戏玩法的喜好。凭借这些 信息,战略制定者可以调整游戏的方向,游戏开发团队可以改进游戏内容??梢运?,游戏用 户的反馈信息对于一个游戏团队来说是非常重要的参考。UGC(User Generated Content) 是指互联网上的用户产生内容,在互联网高速发展的今天,UGC中包含了大量的反馈信息, 所以对UGC中游戏舆情的采集、分析已经成了大部分游戏制作团队的渠道。
[0003] 然而,互联网数据量爆炸式增长的今天,互联网在带来海量数据的同时,也极大增 加了从这些数据中提取有用信息的难度。现有技术是在一些游戏用户集中出现的地方,比 如游戏的官方论坛、贴吧、或者门户的游戏专版等地方,人工阅读玩家发表的内容,总结、分 析并做成报告提供给相关人员阅读。
[0004] 但是,人工阅读需要耗费大量的人工和时间,而且持续监控需要不断的阅读、分 析,并生成报告,效率低下。同时,由于人力毕竟是有限的,只能对海量数据抽样进行阅读, 使得分析的正确性,报告的权威性更多的取决于人的水平。而且,由于UGC多为非结构化数 据,人工阅读很难对数据进行收集和统计,使得最终的结果中缺失UGC中大量有用的统计 信息。

【发明内容】

[0005] 本发明实施例提出一种游戏舆情的检测方法及系统,能够准确获取游戏的评测信 息。
[0006] 本发明实施例提供一种游戏舆情的检测方法,包括:
[0007] 采集网络文本中的舆情数据;
[0008] 对所述舆情数据进行分词,获得所述网络文本中的词语;
[0009] 查询预先建立的游戏关键词词典,获得所述词语中的游戏关键词;
[0010] 根据预先建立的情感词典,计算所述游戏关键词的情感值;
[0011] 根据所述网络文本中的游戏关键词,采用贝叶斯分类算法,计算所述网络文本所 属的类别;
[0012] 统计所述游戏关键词的情感值、所述网络文本的数量和类别,获得游戏的评测信 息。
[0013] 进一步地,所述对所述舆情数据进行分词,获得所述网络文本中的词语,具体包 括:
[0014] 基于游戏词语词库和停用词词库,采用结巴分词,对所述舆情数据进行分词,获得 所述网络文本中的词语。
[0015] 进一步地,所述游戏词语词库中包含所述游戏关键词词典中的游戏关键词。
[0016] 进一步地,所述根据预先建立的情感词典,计算所述游戏关键词的情感值,具体包 括:
[0017] 查询预先建立的情感词典,判断所述游戏关键词的修饰词语是否为情感词;所述 情感词典为存储多种情感词及其对应的权值的数据库,所述修饰词语为所述游戏关键词与 其所在的网络文本的句首之间的词语,或者所述修饰词语为所述游戏关键词与其所在的网 络文本中上一个游戏关键词之间的词语;
[0018] 若所述修饰词语为情感词,则读取所述情感词对应的权值;
[0019] 根据所述权值,计算所述游戏关键词的情感值。
[0020] 进一步地,在所述根据预先建立的情感词典,计算所述游戏关键词的情感值之后, 还包括:
[0021] 对所有游戏关键词进行分类,获得游戏关键词类别;
[0022] 根据所述游戏关键词类别中每个游戏关键词的情感值,计算所述游戏关键词类别 的综合情感值。
[0023] 进一步地,所述根据所述网络文本中的游戏关键词,采用贝叶斯分类算法对所述 网络文本进行分类,获得所述网络文本的类别,具体包括:
[0024] 基于预先生成的关键词分类训练集,对所述网络文本中的游戏关键词进行分类, 获得所述网络文本的训练样本类别;
[0025] 采用贝叶斯分类算法,分别计算所述网络文本属于每个训练样本类别的概率,概 率最大的训练样本类别即为所述网络文本的类别。
[0026] 优选地,所述贝叶斯分类算法的计算公式如下:
[0027] P(Ci|d) = P(d|Ci)P(Ci)L(d, Ci)
[0028]
【主权项】
1. 一种游戏舆情的检测方法,其特征在于,包括: 采集网络文本中的舆情数据; 对所述舆情数据进行分词,获得所述网络文本中的词语; 查询预先建立的游戏关键词词典,获得所述词语中的游戏关键词; 根据预先建立的情感词典,计算所述游戏关键词的情感值; 根据所述网络文本中的游戏关键词,采用贝叶斯分类算法,计算所述网络文本所属的 类别; 统计所述游戏关键词的情感值、所述网络文本的数量和类别,获得游戏的评测信息。
2. 如权利要求1所述的游戏舆情的检测方法,其特征在于,所述对所述舆情数据进行 分词,获得所述网络文本中的词语,具体包括: 基于游戏词语词库和停用词词库,采用结巴分词,对所述舆情数据进行分词,获得所述 网络文本中的词语。
3. 如权利要求2所述的游戏舆情的检测方法,其特征在于,所述游戏词语词库中包含 所述游戏关键词词典中的游戏关键词。
4. 如权利要求1所述的游戏舆情的检测方法,其特征在于,所述根据预先建立的情感 词典,计算所述游戏关键词的情感值,具体包括: 查询预先建立的情感词典,判断所述游戏关键词的修饰词语是否为情感词;所述情感 词典为存储多种情感词及其对应的权值的数据库,所述修饰词语为所述游戏关键词与其所 在的网络文本的句首之间的词语,或者所述修饰词语为所述游戏关键词与其所在的网络文 本中上一个游戏关键词之间的词语; 若所述修饰词语为情感词,则读取所述情感词对应的权值; 根据所述权值,计算所述游戏关键词的情感值。
5. 如权利要求1所述的游戏舆情的检测方法,其特征在于,在所述根据预先建立的情 感词典,计算所述游戏关键词的情感值之后,还包括: 对所有游戏关键词进行分类,获得游戏关键词类别; 根据所述游戏关键词类别中每个游戏关键词的情感值,计算所述游戏关键词类别的综 合情感值。
6. 如权利要求1所述的游戏舆情的检测方法,其特征在于,所述根据所述网络文本中 的游戏关键词,采用贝叶斯分类算法对所述网络文本进行分类,获得所述网络文本的类别, 具体包括: 基于预先生成的关键词分类训练集,对所述网络文本中的游戏关键词进行分类,获得 所述网络文本的训练样本类别; 采用贝叶斯分类算法,分别计算所述网络文本属于每个训练样本类别的概率,概率最 大的训练样本类别即为所述网络文本的类别。
7. 如权利要求1至6任一项所述的游戏舆情的检测方法,其特征在于,所述贝叶斯分类 算法的计算公式如下: P(Ci|d) =P(d|Ci)P(Ci)L(d,Ci)
其中,P(CiId)为网络文本d属于训练样本类别Ci的概率,P(dICi)为所述训 练样本类别Ci中存在所述网络文本d的概率,P(Ci)为所述训练样本类别Ci的边缘概 率,L(d,Ci)为所述网络文本d的长度因子,Len(d)为所述网络文本d中词语的个数, avgLen(Ci)为所述训练样本类别Ci中网络文本的词语平均个数,k为词语个数对所述训练 样本类别Ci的影响度。
8. -种游戏舆情的检测系统,其特征在于,包括: 采集???,用于采集网络文本中的舆情数据; 分词???,用于对所述舆情数据进行分词,获得所述网络文本中的词语; 关键词获取???,用于查询预先建立的游戏关键词词典,获得所述词语中的游戏关键 词; 情感值计算???,用于根据预先建立的情感词典,计算所述游戏关键词的情感值; 网络文本分类???,用于根据所述网络文本中的游戏关键词,采用贝叶斯分类算法,计 算所述网络文本所属的类别;以及, 评测信息获取???,用于统计所述游戏关键词的情感值、所述网络文本的数量和类别, 获得游戏的评测信息。
9. 如权利要求8所述的游戏舆情的检测系统,其特征在于,所述分词??榫咛逵糜诨?于游戏词语词库和停用词词库,采用结巴分词,对所述舆情数据进行分词,获得所述网络文 本中的词语。
10. 如权利要求9所述的游戏舆情的检测系统,其特征在于,所述游戏词语词库中包含 所述游戏关键词词典中的游戏关键词。
11. 如权利要求8所述的游戏舆情的检测系统,其特征在于,所述情感值计算??榫咛?包括: 判断单元,用于查询预先建立的情感词典,判断所述游戏关键词的修饰词语是否为情 感词;所述情感词典为存储多种情感词及其对应的权值的数据库,所述修饰词语为所述游 戏关键词与其所在的网络文本的句首之间的词语,或者所述修饰词语为所述游戏关键词与 其所在的网络文本中上一个游戏关键词之间的词语; 读取单元,用于在所述判断单元判定所述修饰词语为情感词时,读取所述情感词对应 的权值;以及, 计算单元,用于根据所述权值,计算所述游戏关键词的情感值。
12. 如权利要求8所述的游戏舆情的检测系统,其特征在于,所述游戏舆情的检测系统 还包括: 关键词分类???,用于对所有游戏关键词进行分类,获得游戏关键词类别;以及, 综合情感值计算???,用于根据所述游戏关键词类别中每个游戏关键词的情感值,计 算所述游戏关键词类别的综合情感值。
13. 如权利要求8所述的游戏舆情的检测系统,其特征在于,所述网络文本分类??榫?体包括: 关键词分类单元,用于基于预先生成的关键词分类训练集,对所述网络文本中的游戏 关键词进行分类,获得所述网络文本的训练样本类别;以及, 网络文本分类单元,用于采用贝叶斯分类算法,分别计算所述网络文本属于每个训练 样本类别的概率,概率最大的训练样本类别即为所述网络文本的类别。
14.如权利要求8至13任一项所述的游戏舆情的检测系统,其特征在于,所述贝叶斯分 类算法的计算公式如下: P(Ci|d) =P(d|Ci)P(Ci)L(d,Ci)
其中,P(Ci|d)为网络文本d属于训练样本类别Ci的概率,P(d|Ci)为所述训 练样本类别Ci中存在所述网络文本d的概率,P(Ci)为所述训练样本类别Ci的边缘概 率,L(d,Ci)为所述网络文本d的长度因子,Len(d)为所述网络文本d中词语的个数, avgLen(Ci)为所述训练样本类别Ci中网络文本的词语平均个数,k为词语个数对所述训练 样本类别Ci的影响度。
【专利摘要】本发明公开了一种游戏舆情的检测方法,包括:采集网络文本中的舆情数据;对所述舆情数据进行分词,获得所述网络文本中的词语;查询预先建立的游戏关键词词典,获得所述词语中的游戏关键词;根据预先建立的情感词典,计算所述游戏关键词的情感值;根据所述网络文本中的游戏关键词,采用贝叶斯分类算法,计算所述网络文本所属的类别;统计所述游戏关键词的情感值、所述网络文本的数量和类别,获得游戏的评测信息。相应地,本发明还公开了一种游戏舆情的检测系统。采用本发明实施例,能够准确获取游戏的评测信息。
【IPC分类】G06F17-30, G06F17-27
【公开号】CN104572877
【申请号】CN201410805964
【发明人】杨柳, 张润
【申请人】网易(杭州)网络有限公司
【公开日】2015年4月29日
【申请日】2014年12月22日
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
imtoken助记词怎么填-imtoken钱包没有收益-imtoken矿工费太贵了-im钱包官网:token.im