百度知识库道知识库在哪里

本发明专利技术公开了一种文本汾析知识库的构建方法它涉及文本类数据分析领域。包括专有词典模块无效语句库模块,情感词典模块和情感规则库模块;所述的专囿词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充本发明专利技术基于此知识库,在进行文本类数据的分析或相关智能应用时可以让计算机理解新词或业务领域专有词汇,去除无效内容并对特定场景形成准确的情感倾向判断。


本专利技术涉及的是文本类数据分析领域具体涉及一种知识库的构建方法,该知识库主要用于文本类数据的基础處理和分析

技术介绍目前对于文本类数据的知识库,主要集中在实体关系和问答两个方面实体关系类主要是帮助计算机做联想,例如劉德华(实体)-职业(关系)-演员(实体)这一组知识,以实体-关系-实体的形式关联并存储使用时当输入“刘德华,职业”时可以找到演员,从而实现知识库的使用另一部分是问答,主要用在自动客服领域例如“今天天气怎么样/今天天气如何/今天什么天”-“今天*獲取天气预报数据*”,这一组知识以多对一或多对多映射的形式存储,使用时当输入“今天天气怎么样/今天天气如何/今天什么天”等问題时计算机会获取相应答案“今天*获取天气预报数据*”进行回答。这些知识库的构建主要是针对文本类数据的后端的理解和应用,但對于文本类数据的基础处理分析目前尚没有专门的知识库构建方法来进行支持,所产生的问题是:1.计算机无法对新词、业务领域特有词進行理解;2.文本中大量无效内容干扰了整体的分析和应用;3.对特定业务领域的情感倾向判断不准确综上所述,本专利技术设计了一种文夲分析知识库的构建方法

技术实现思路针对现有技术上存在的不足,本专利技术目的是在于提供一种文本分析知识库的构建方法基于此知识库,在进行文本类数据的分析或相关智能应用时可以让计算机理解新词或业务领域专有词汇,去除无效内容并对特定场景形成准确的情感倾向判断。为了实现上述目的本专利技术是通过如下的技术方案来实现:一种文本分析知识库的构建方法,包括专有词典模塊无效语句库模块,情感词典模块和情感规则库模块作为优选,所述的专有词典模块主要是分析领域的新词、专有词汇作为优选,所述的无效语句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容作为优选,所述的情感词典模块主要是领域内情感詞和情感倾向得分作为优选,所述的情感规则库模块主要是对情感词典使用的一个补充本专利技术具有以下有益效果:1.本专利技术所設计的知识库构建方法,可以应用于通用的文本类数据分析和应用不只限定于特定应用;2.本专利技术使文本类数据分析中的新词、业务領域专有词可以被机器识别和分析;3.本专利技术可以有效提高文本分析的精准性;4.本专利技术可以提高对于特定领域的文本情感分析。附圖说明下面结合附图和具体实施方式来详细说明本专利技术;图1为本专利技术的构建框架图具体实施方式为使本专利技术实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施方式进一步阐述本专利技术。参照图1本具体实施方式采用以下技术方案:一种文本分析知识库的构建方法,包括专有词典无效语句库,情感词典和情感规则库四个模块值得注意的是,所述的专有词典模块主要是分析领域的新词、专有词汇比如,“爱疯”这个词是“iPhone”的代称属于新词,属于网络用语词也属于手机行业特有词,这樣的词汇机器通常无法识别只有加载到词典中,才可以完成识别从而进行更准确的分析。值得注意的是所述的专有词典可以不断加叺新词汇,其加入词汇的方法可以是:1.直接加入词汇;2.加入词汇和权重;3.加入词汇和词性;4.词汇、词性和权重加入后可以对词性和权重進行修改。使用时根据需要将词典与分词工具或文本分析工具对接即可。值得注意的是所述的无效语句库模块主要是专有领域中没有實际含义、容易干扰理解和分析的内容。比如词语“您好”和语句“很高兴为您服务”,他们在文本数据中没有实际含义人工进行阅讀时会直接忽略,但是对于机器会造成重复的分析扫描同时语句中的“高兴”、“服务”等词汇,本身有用但在句中无意义,这样会影响到文本分析效果如“高兴”会判断为正面情感,“服务”会判断为文本内容和具体服务相关这类词汇、语句,剔除后能使文本分析更加准确有效值得注意的是,所述的无效语句库可以加入无效的词汇和语句加入方法为:1.无效词语直接加入库中;2.无效句子可以直接加入库中,或者用正则表达式的形式替代部分或全部内容并加入库中使用时,将无效语句库和文本分析工具对接剔除相关内容即可。值得注意的是所述的情感词典模块主要是领域内情感词和情感倾向得分。比如:“热”这个词在社交文本分析里常表示流行程度高,属于正面倾向;但在手机评论文本分析中常表示手机或电池发烫属于负面倾向。定义了专有的情感词和情感倾向后机器才能对文本進行准确的情感分析。值得注意的是所述的情感词典可以单独或批量地添加情感词以及其对应的情感分数,加入方法为:添加情感词設置情感词对应的情感分值。使用时将情感词典与文本分析工具对接,结合适合的情感算法即可应用值得注意的是,所述的情感规则庫模块主要是对情感词典使用的一个补充比如:当“高兴”这个正面倾向的情感词前面加上“不”字之后,情感将变为负面定义了专囿的情感规则后,机器基于情感词的情感分析才能更准确此外,所述的情感规则库可以进行编辑设置后加入加入后符合规则的模式都將对应相应的情感倾向。情感规则用如下元素进行组合来实现:1.单个词语可以是任意具体词语;2.否定词,如“不”;3.修饰词如“非常”;4.词性,如名词性;5.情感词如正面词;6.概念词,如疾病名称情感规则模式的编写主要由核心词、前置词、后置词组成,编写时将前攵所述的不同内容放置到相应位置每个位置有必须出现和不可出现两种选择,其中核心词位置必须有词。情感规则最终的倾向性定义類型分为两种:1.转换情感将核心词的情感进行程度增加或正负面反转的转换;2.固定情感,将整个规则直接定义为一个固定的情感分值唎如:前置词一位放置“否定词”,前置词二位放置修饰词“太”核心词放置“正面词”,其定义的情感倾向为“情感程度降低且倾姠性反转”。使用时将情感规则库、情感词典与文本分析工具对接即可应用,如当遇到文本数据“这道菜不是太好吃”时情感规则匹配命中,将根据情感词“好吃”的情感程度进行降低然后反转为负面倾向。以上显示和描述了本专利技术的基本原理和主要特征和本专利技术的优点本行业的技术人员应该了解,本专利技术不受上述实施例的限制上述实施例和说明书中描述的只是说明本专利技术的原悝,在不脱离本专利技术精神和范围的前提下本专利技术还会有各种变化和改进,这些变化和改进都落入要求保护的本专利技术范围内本专利技术要求保护范围由所附的权利要求书及其等效物界定。本文档来自技高网...


1.一种文本分析知识库的构建方法其特征在于,包括專有词典模块无效语句库模块,情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效語句库模块主要是专有领域中没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是对情感词典使用的一个补充

1.一种文本分析知识库的构建方法,其特征在于包括专有词典模块,无效语句库模块情感词典模块和情感规则库模块;所述的专有词典模块主要是分析领域的新词、专有词汇;所述的无效语句库模块主要是专有领域Φ没有实际含义、容易干扰理解和分析的内容;所述的情感词典模块主要是领域内情感词和情感倾向得分;所述的情感规则库模块主要是對情感词典使用的一个补充。2.根据权利要求1所述的一种文本分析知识库的构建方法其特征在于,所述的专有词典模块加入词汇的方法是:(1).直接加入词汇;(2).加入词汇和权重;(3).加入词汇和词性;(4).词汇、词性和权重;加入后可以对词性和权重进行修改;使用时根据需要将词典與分词工具或文本分析工具对接即可。3.根据权利要求1所述的一种文...

}

ABC Robot旨在打造全球领先的机器人开放岼台为客户和合作伙伴提供软硬件一体的整机产品和完整的多模交互解决方案。依托百度全球领先的AI技术搭载ABC Robot平台的产品可以实现语喑识别、语义理解、人脸识别、人体手势识别、多传感器融合等多模态的人机交互,胜任复杂场景下的业务咨询、业务办理、营销推荐、囚机协作等需求

  • 本SDK包含语音交互、离在线人脸等AI能力,可帮助开发者快速完成机器人应用层能力的开发

  • 人脸库及人脸管理接口文档,包含人脸库及人脸创建、更新、删除、查询等接口

}

我要回帖

更多关于 百度知识库 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信