影视剧字幕是什么?
还记得上一篇文章《基于美剧字幕做聊天机器人方案》讲的吗?影视剧字幕是一个很好的聊天语料,所以经过我近半个月的努力,获取了3000多万影视剧字幕语料,有了这份语料,我们可以实现一个自己的聊天机器人了
如何训练这个聊天机器人呢?
为了说明语料的用途,我先用一个最简单的方法来应用到我的聊天机器人,我们暂且不用机器学习,更不用深度学习,我们先用一个最简单的方法:搜索引擎。原理就是:我们假设影视剧字幕里后一句是前一句最好的回答,所以假设一个字幕有以下句子构成:
<>(sentence1, sentence2, sentence3, sentence4)
>那么我们在搜索引擎里建这样的索引:
<>field1, field2
sentence1,sentence2
sentence2,sentence3
sentence3,sentence4
>那么当我搜索field1时,我们就给回复field2
当然这里对field1的搜索我们是要考虑相关性的,相关性越高,结果越好
提供检索服务
为了能使用这份索引,我们需要建设一个检索服务,支持http协议访问,然后我们通过网站后端php来访问这个服务,并从返回的结果中选出排序最优的那个作为回答,具体效果就像是:
<>我: 早上好
小二兔: 你也醒了
我: 是啊,睡得怎么样
小二兔: 你要问我什么吗 瑞恩
>我把这个聊天机器人叫做小二兔,发布在了www.shareditor.com/chatbot/,欢迎把玩
效果怎样?
这样的机器人毕竟比较简单,回答的结果差强人意,有时候驴唇不对马嘴,接下来就是继续改善算法的时候了,我会参考一些自动问答相关的论文来完善这里面的算法,让它逐渐产生智能,希望大家多多关注交流
上一篇
下一篇
Copyright © 2008-2020