数据实验楼 | 政策智能问答项目上线!

2024-02-01

数据实验楼政策智能问答项目正式发布,欢迎大家体验!为支持广大院校的大数据和人工智能实训教学,需要使用平台的老师请尽快与我们联系,便于我们提前准备云服务器等资源。联系电话和微信:136-9329-0406

http://idatacoding.cn/

重要提示

数据实验楼面向全国高校师生提供服务,如未加入所在院校,请先加入院校方可获得服务。

加入院校方法如下:

加入院校方法.png

如果没有院校码,请在线申请。方法如下:

点击菜单栏“申请院校码”,在弹框里填写信息。

申请方法.png

信息填写完整后提交。

提交信息.png

政策智能问答项目

实训目标

本项目利用政府网站收集的吉林省政策数据,结合向量数据库和大语言模型技术,构建了基于知识库的政策智能问答系统。通过输入文本问题,经由政策知识库检索出对应政策知识送入大语言模型,辅助大语言模型作出准确回答。

通过本实训项目的练习,大家将学会如何利用正则表达式匹配文本进行文本拆分,了解ClinkHouse数据库的基本操作以及如何构建政策知识库,掌握大语言模型基本问答技术,包括构建提示模板、模型加载与调用以及返回答案引用等。

实践工具

pandas; re; sentence_transformers; clinkHouse_connect; torchmetrics

推荐实训课时:30

前置知识检测

政策智能问答项目前置1.png
政策智能问答项目前置2.png

项目介绍

本项目使用的是政府网站收集的吉林省政策数据,包含政策标题,发文机构、发文字号、发文时间,政策类别和政策文本等。

本项目共分为三个章节,第一个章节对政策数据进行预处理,为后续构建知识库作准备;首先读取数据,然后定义正则表达式和匹配文本的函数,再从政策标题中提取政策名称,最后进行文本的拆分,对无标题,只包含一级标题,包含一级标题和二级标题以及包含一级、二级和潜在三级标题的政策文本进行分别拆分。

第二个章节进行政策知识库的构建,首先提取和整合需要加入知识库的政策数据信息,包括政策元信息(ID、标题、机构、时间和类别等)、拆分后的政策文本及表征、拆分文本所属一级标题,二级标题及ID、标题类型等;接着连接ClinkHouse数据库,熟悉数据库的基本操作;然后创建数据表并将政策数据信息插入表中;最后进行向量查询的测试。

第三章中进行基于政策知识库的大模型问答,首先加载ChatGLM模型;接着将文本转换为表征,并送入知识库进行检索;再根据提示模板,结合问题和检索出的文档构造提示;最后大模型根据提示进行回答并利用BERTScore返回答案引用的原政策内容。

项目流程

政策智能问答项目项目流程.png

实训任务示例

政策智能问答项目示例1.jpg
政策智能问答项目示例2.jpg
政策智能问答项目示例3.jpg
政策智能问答项目示例4.jpg
政策智能问答项目示例5.jpg
助手iconChat