器→工具, 开源项目

使用 ChatterBot构建聊天机器人

钱魏Way · · 3,568 次浏览

ChatterBot是一个基于机器学习的聊天机器人引擎,构建在python上,主要特点是可以自可以从已有的对话中进行学习。

安装调试最简单的聊天机器人

安装

pip install chatterbot

基本使用

# -*- coding: utf-8 -*-
from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot("myBot")
chatbot.set_trainer(ChatterBotCorpusTrainer)

# 使用英文语料库训练它
chatbot.train("chatterbot.corpus.english")

# 开始对话
while True:
    print(chatbot.get_response(input(">")))

默认情况下, ChatterBot 使用JsonDatabaseAdapter作为storage adapter,使用ClosestMatchAdapter作为logic adapter, 使用VariableInputTypeAdapter作为input adapter。

storage adapter

ChatterBot创建之后,会建立一个类族适配器(adapter classes),在该适配器下该ChatterBot可以连接到不同类型的数据集。本文所采用的是JsonDatabaseAdapter,该Storage adapter是以json格式存储数据的。注意: JsonDatabaseAdapter 并不适用于海量数据,如果数据集过大该方法的性能将受到很大局限。

创建ChatterBot的时候可以在入参中指定JsonDatabaseAdapter,如下面的参数所示:

bot = ChatBot(
    "Norman"
    storage_adapter="chatterbot.adapters.storage.JsonDatabaseAdapter",
    database="./database.json"
)

其中的database参数是用以指定所创建的chat bot所使用数据集的位置。上述的定义吗,我们可以看出该chat bot所使用的数据集是database.json,如果该database.json不存在的话,则会自动创建。注意:JsonDatabaseAdapter是ChatterBot的默认adapter,可以缺省。

输入和输出adapters

在创建ChatBot的时候可以指定输入和输出终端adapter。输入终端adapter用以读取终端的输入,输入终端adapter则是打印出chat bot的应答信息。

使用如下:

bot = ChatBot(
    "Norman"
    storage_adapter="chatterbot.adapters.storage.JsonDatabaseAdapter",
    input_adapter="chatterbot.adapters.input.TerminalAdapter",
    output_adapter="chatterbot.adapters.output.TerminalAdapter",
    database="./database.json"
)

Logic adapters

在新建ChatBot的时候可以指定logic_adapters的值,该参数是一序列的logic adapter。在ChatBot中一个logic adapter就是一个类,这个类是用于接收输入的语句和反馈该输入的语句。

在logic adapter的使用数量上并不受限。下面的例子中可以看出,使用的是两个logic adapter。其中TimeLogicAdapter是返回当前时间,MathematicalEvaluation adapter则是用以计算问题的。

bot = ChatBot(
    "Norman"
    storage_adapter="chatterbot.adapters.storage.JsonDatabaseAdapter",
    input_adapter="chatterbot.adapters.input.TerminalAdapter",
    output_adapter="chatterbot.adapters.output.TerminalAdapter",
    logic_adapters=[
        "chatterbot.adapters.logic.MathematicalEvaluation",
        "chatterbot.adapters.logic.TimeLogicAdapter"
    ],
    database="./database.json"
)

创建自己的adapters参考默认使用的 ClosestMatchAdapter、 VariableInputTypeAdapter。如果需要语音输入,则可以调用百度语音接口。

让机器人支持中文

Chatterbot提供一个公用模块进行数据集的训练,目前该模块集成7种语种的训练,包括英语,葡萄牙语、西班牙语、法语、印尼语、意大利语和中文。训练集存放在\Lib\site-packages\chatterbot\corpus\data目录下:

使用中文语料库进行训练(注意,这里只支持Python 3,否则会报编码错误),报错内容为:UnicodeDecodeError: ‘ascii’ codec can’t decode byte 0xe4 in position 0: ordinal not in range(128)

# -*- coding: utf-8 -*-
from chatterbot import ChatBot
from chatterbot.trainers import ChatterBotCorpusTrainer

chatbot = ChatBot("myBot")
chatbot.set_trainer(ChatterBotCorpusTrainer)

# 使用英文语料库训练它
chatbot.train("chatterbot.corpus.chinese")

# 开始对话
while True:
    print(chatbot.get_response(input(">")))

ChatterBot也支持训练数据集的子集,如只想要训练英文问候语和对话,则只要将该两个子集导入进行训练即可:

chatterbot.train(
    "chatterbot.corpus.english.greetings",
    "chatterbot.corpus.english.conversations"
)

里面虽然包含各种语言,但是训练集的数据非常的小,如需更好的表现,需要自己添加更多的数据。

手动训练机器人

ChatterBot 内置training class,也可以根据自己的需要自行创建,通过调用train()函数之前先调用set_trainer() 来进行设置。使用方法如下:

# -*- coding: utf-8 -*-

from chatterbot import ChatBot
from chatterbot.trainers import ListTrainer


my_bot = ChatBot("Training demo")
my_bot.set_trainer(ListTrainer)
my_bot.train([
    "嗳,渡边君,真喜欢我?",
    "那还用说?",
    "那么,可依得我两件事?",
    "三件也依得",
])

# test
print(my_bot.get_response("真喜欢我?"))
print(my_bot.get_response("可依得我两件事?"))

训练好的数据,默认存在./database.db(参考 jsondatabase.py),不是sqlite数据库,实际是 jsondb,对json做了封装(参考 jsondb/db.py)

只读模式

ChatterBot是会对每个输入的语句进行学习的。如果想要使得你已经训练过的bot不再继续学习输入的语句,可以通过以下方式进行设置,在初始化的时候将read_only设置为true。

chatbot = ChatBot("wwjtest", read_only=True) //否则bot会学习每个输入

最后一个问题,语料库可以从哪里来?

  • 电视电影字幕
  • 知识问答库

参考链接:

  • http://chatterbot.readthedocs.io/en/stable/
  • https://github.com/gunthercox/django_chatterbot
  • https://github.com/gunthercox/ChatterBot
  • https://github.com/wwj718/deepThought
开源文档生成工具Sphinx
Flask学习之Werkzeug
Python模板引擎jinja2

发表回复 取消回复

您的电子邮箱地址不会被公开。 必填项已用*标注

© 标点符. All rights reserved.
苏ICP备08120382号

聚圣源郑氏起名字好洛阳车管所女孩尚姓起名美容养生店铺起名大全女孩论语取名起名大全起名饺子馆公司起名不能用的字阴阳交错宝生琉璃企业 起名japangay真人快打9下载欧洲杯2012决赛免费起名字大全男孩2020传奇342魔法塔可钟加盟女生尿裤子公司起名 顺字一字起名钟易轩制动器是什么曹家谡表格软件怎么解压文件英国修正新冠死亡人数闪闪的星星像什么宝宝免费起名测名字打分生辰八字卖成人用品店名起什么好网上起名准不备中的伊达独眼龙淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻让美丽中国“从细节出发”清明节放假3天调休1天男孩疑遭霸凌 家长讨说法被踢出群国产伟哥去年销售近13亿网友建议重庆地铁不准乘客携带菜筐雅江山火三名扑火人员牺牲系谣言代拍被何赛飞拿着魔杖追着打月嫂回应掌掴婴儿是在赶虫子山西高速一大巴发生事故 已致13死高中生被打伤下体休学 邯郸通报李梦为奥运任务婉拒WNBA邀请19岁小伙救下5人后溺亡 多方发声王树国3次鞠躬告别西交大师生单亲妈妈陷入热恋 14岁儿子报警315晚会后胖东来又人满为患了倪萍分享减重40斤方法王楚钦登顶三项第一今日春分两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?周杰伦一审败诉网易房客欠租失踪 房东直发愁男子持台球杆殴打2名女店员被抓男子被猫抓伤后确诊“猫抓病”“重生之我在北大当嫡校长”槽头肉企业被曝光前生意红火男孩8年未见母亲被告知被遗忘恒大被罚41.75亿到底怎么缴网友洛杉矶偶遇贾玲杨倩无缘巴黎奥运张立群任西安交通大学校长黑马情侣提车了西双版纳热带植物园回应蜉蝣大爆发妈妈回应孩子在校撞护栏坠楼考生莫言也上北大硕士复试名单了韩国首次吊销离岗医生执照奥巴马现身唐宁街 黑色着装引猜测沈阳一轿车冲入人行道致3死2伤阿根廷将发行1万与2万面值的纸币外国人感慨凌晨的中国很安全男子被流浪猫绊倒 投喂者赔24万手机成瘾是影响睡眠质量重要因素春分“立蛋”成功率更高?胖东来员工每周单休无小长假“开封王婆”爆火:促成四五十对专家建议不必谈骨泥色变浙江一高校内汽车冲撞行人 多人受伤许家印被限制高消费

聚圣源 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化