Python实现的人工智能冬奥会对话系统

日期：2025-01-02 移动：http://keair.bhha.com.cn/mobile/quote/6023.html

智能问答系统（对话系统）的应用是非常普遍的，比如说客服，前台机器人，讲解机器人等很多场景都可能会用到FAQ问答系统。所谓的FAQ就是 frequently asked questions，也就是说在某个场景下，算法可以回答一些比较常见的问题。

对数据方提供的冬奥会知识数据进行集成，输入端接受以自然语言输入的问题（比如使用中文询问“中国在索契冬奥会获得金牌数目”），输出端输出该问题对应的回答。

数据包有两个：标注数据1和标注数据2。标注数据1中的数据为单层问题，标注数据2中的数据为叠加问题。

1.3.1 单层问题

问句：哪一届奥运会的金牌总数最多？

分词：哪一届奥运会的金牌总数最多？

1.3.2 叠加（双层）问题

问句：中国奥运第一人值得尊敬吗？

分词：中国奥运第一人值得尊敬吗？

对于一个完整的对话系统FAQ的构建，第一步要做的是对输入的问题进行预处理。预处理需要做的事情主要为删除无用文字，去除停用词，并将问题切分成一个个中文词语。

第二部就是将处理之后的语料进行向量化。常见的向量化方法有词频向量化、word2vec、tf-idf 等方法。向量化之后，每一个问题对应的都为一个高维向量，当有询问问题输入时，先将问题预处理、向量化，然后和数据集中的数据进行比对，输出相似度最高的问题的答案，这就是检索式对话系统的大致框架。

查看测试集，发现有的问题没有答案，所以预处理的第一步就是将没有答案的问题删除。预处理的第二步就是将不属于中文的文本删除（包括各种标点符号）。预处理的第三步是将修正后的文本进行词语的切分，从而将一整段话切分为一个个词语。

使用CountVectorizer对每一条语料进行词频矩阵的生成，从而完成语料的空间向量化。

将数据库中的语料与输入问题的向量化后的向量进行相似度比对。这里我们采用的是余弦相似度比对算法。比对完成之后，将得分最高的语料的答案返回。

以下是整个处理过程的具体实现：

对非中文无用数据的清理，需要将以下类别的数据从训练集和测试集中清除：

需要将html链接、数据来源、用户名、英语字符和其他单个非中文字符清除，采用以上正则表达式描述需要删除的类别，配合sub命令将其从训练集和数据集中删除。由于本次的数据来源质量较好，该步对源数据的处理很少。

数据划分有两种方式：保留停用词和去除停用词。数据划分使用的库为jieba分词，具体的操作如下：

Question.txt和Answer.txt分别存放了问题和答案，预处理后输出到QuestionSeg.txt和AnswerSeg.txt。

先来看保留停用词的划分方式：

接下来看不保留停用词的划分方式，测试结果表明保留停用词划分效果更好，查阅资料

显示原因为CountVectorizer目前版本对停用词的优化更佳。

经过以上两步，我们已经将文本成功分割为独立的中文词语，接下来需要统计每个词出现的频率及分布。

首先需要获得停用词表。这里我们使用的是百度停用词表、哈工大停用词表、中文停用词表等多个词表的综合结果。

CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在第i个文本下的词频。即各个词语出现的次数，通过get_feature_names()可看到所有文本的关键字，通过toarray()可看到词频矩阵的结果。

先对文本内容进行词频统计。需要说明的是，由于代码第一版优化不佳，没有进行对向量化数据的保存，在每次输入问题之后都需要将全体语料进行向量化的重新演算，导致查询时间较长。

余弦相似度量：计算个体间的相似度。

相似度越小，距离越大。相似度越大，距离越小。

假设有3个物品，item1，item2和item3，用向量表示分别为：

item1[1,1,0,0,1]，
item2[0,0,1,2,1]，
item3[0,0,1,2,0]，

即五维空间中的3个点。用欧式距离公式计算item1、itme2之间的距离，以及item2和item3之间的距离，分别是：

由此可得出item1和item2相似度小，两个之间的距离大(距离为7)，item2和itme3相似度大，两者之间的距离小(距离为1)。

余弦相似度算法：一个向量空间中两个向量夹角间的余弦值作为衡量两个个体之间差异的大小，余弦值接近1，夹角趋于0，表明两个向量越相似，余弦值接近于0，夹角趋于90度，表明两个向量越不相似。

基于余弦相似度算法，我们将输入的问题的向量与数据库中的语料的向量进行一一比对，输出相似度最高（最接近1）的语料的答案。

余弦相似度计算函数：

计算两个语句的余弦相似度

为了提高问答系统的性能，这次实验中我们没有对数据集进行分割，而使将全部的问题都用来训练模型。

我们针对几个角度刁钻的问题进行测试，结果如下：

针对高相似度问题的测试：

原问题及答案及测试结果截图：

普莱西德湖冬奥会比赛时，仅能容纳3000人的冰场，一下子涌进了多少人?

答案：7000

由此可见，检索系统对于相似度很高的问题之间仍然可以做出明确的区分。

部分缺失问题的提问：

原问题及答案及测试结果截图：

普莱西德湖冬奥会美、加两队比赛时，第一场美国队以l：多少败北?

答案：2

年科蒂纳丹佩佐冬季奥运会的项目数是什么?

答案：4项运动、8个大项、24个小项

年因斯布鲁克冬奥会第一次参赛的有什么?

答案：朝鲜民主主义人民共和国、印度和蒙古

本文地址：http://keair.bhha.com.cn/quote/6023.html 康宝晨 http://keair.bhha.com.cn/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

相关最新动态

推荐最新动态

点击排行