数据实验楼 | 政策智能问答项目上线！

2024-02-01

数据实验楼政策智能问答项目正式发布，欢迎大家体验！为支持广大院校的大数据和人工智能实训教学，需要使用平台的老师请尽快与我们联系，便于我们提前准备云服务器等资源。联系电话和微信：136-9329-0406

http://idatacoding.cn/

重要提示

数据实验楼面向全国高校师生提供服务，如未加入所在院校，请先加入院校方可获得服务。

加入院校方法如下：

如果没有院校码，请在线申请。方法如下：

点击菜单栏“申请院校码”，在弹框里填写信息。

信息填写完整后提交。

政策智能问答项目

实训目标

本项目利用政府网站收集的吉林省政策数据，结合向量数据库和大语言模型技术，构建了基于知识库的政策智能问答系统。通过输入文本问题，经由政策知识库检索出对应政策知识送入大语言模型，辅助大语言模型作出准确回答。

通过本实训项目的练习，大家将学会如何利用正则表达式匹配文本进行文本拆分，了解ClinkHouse数据库的基本操作以及如何构建政策知识库，掌握大语言模型基本问答技术，包括构建提示模板、模型加载与调用以及返回答案引用等。

实践工具

pandas; re; sentence_transformers; clinkHouse_connect; torchmetrics

推荐实训课时：30

前置知识检测

项目介绍

本项目使用的是政府网站收集的吉林省政策数据，包含政策标题，发文机构、发文字号、发文时间，政策类别和政策文本等。

本项目共分为三个章节，第一个章节对政策数据进行预处理，为后续构建知识库作准备；首先读取数据，然后定义正则表达式和匹配文本的函数，再从政策标题中提取政策名称，最后进行文本的拆分，对无标题，只包含一级标题，包含一级标题和二级标题以及包含一级、二级和潜在三级标题的政策文本进行分别拆分。

第二个章节进行政策知识库的构建，首先提取和整合需要加入知识库的政策数据信息，包括政策元信息（ID、标题、机构、时间和类别等）、拆分后的政策文本及表征、拆分文本所属一级标题，二级标题及ID、标题类型等；接着连接ClinkHouse数据库，熟悉数据库的基本操作；然后创建数据表并将政策数据信息插入表中；最后进行向量查询的测试。

第三章中进行基于政策知识库的大模型问答，首先加载ChatGLM模型；接着将文本转换为表征，并送入知识库进行检索；再根据提示模板，结合问题和检索出的文档构造提示；最后大模型根据提示进行回答并利用BERTScore返回答案引用的原政策内容。