数据实验楼政策智能问答项目正式发布,欢迎大家体验!为支持广大院校的大数据和人工智能实训教学,需要使用平台的老师请尽快与我们联系,便于我们提前准备云服务器等资源。联系电话和微信:136-9329-0406
数据实验楼面向全国高校师生提供服务,如未加入所在院校,请先加入院校方可获得服务。
点击菜单栏“申请院校码”,在弹框里填写信息。
信息填写完整后提交。
本项目利用政府网站收集的吉林省政策数据,结合向量数据库和大语言模型技术,构建了基于知识库的政策智能问答系统。通过输入文本问题,经由政策知识库检索出对应政策知识送入大语言模型,辅助大语言模型作出准确回答。
通过本实训项目的练习,大家将学会如何利用正则表达式匹配文本进行文本拆分,了解ClinkHouse数据库的基本操作以及如何构建政策知识库,掌握大语言模型基本问答技术,包括构建提示模板、模型加载与调用以及返回答案引用等。
pandas; re; sentence_transformers; clinkHouse_connect; torchmetrics
本项目使用的是政府网站收集的吉林省政策数据,包含政策标题,发文机构、发文字号、发文时间,政策类别和政策文本等。
本项目共分为三个章节,第一个章节对政策数据进行预处理,为后续构建知识库作准备;首先读取数据,然后定义正则表达式和匹配文本的函数,再从政策标题中提取政策名称,最后进行文本的拆分,对无标题,只包含一级标题,包含一级标题和二级标题以及包含一级、二级和潜在三级标题的政策文本进行分别拆分。
第二个章节进行政策知识库的构建,首先提取和整合需要加入知识库的政策数据信息,包括政策元信息(ID、标题、机构、时间和类别等)、拆分后的政策文本及表征、拆分文本所属一级标题,二级标题及ID、标题类型等;接着连接ClinkHouse数据库,熟悉数据库的基本操作;然后创建数据表并将政策数据信息插入表中;最后进行向量查询的测试。
第三章中进行基于政策知识库的大模型问答,首先加载ChatGLM模型;接着将文本转换为表征,并送入知识库进行检索;再根据提示模板,结合问题和检索出的文档构造提示;最后大模型根据提示进行回答并利用BERTScore返回答案引用的原政策内容。