数据实验楼MyScale图像智能检索项目正式发布,欢迎大家体验!为支持广大院校的大数据和人工智能实训教学,需要使用平台的老师请尽快与我们联系,便于我们提前准备云服务器等资源。联系电话和微信:136-9329-0406
数据实验楼面向全国高校师生提供服务,如未加入所在院校,请先加入院校方可获得服务。
点击菜单栏“申请院校码”,在弹框里填写信息。
信息填写完整后提交。
图文检索已成为一种流行且强大的应用,使用户能够通过匹配文本特征或视觉内容来查找相似的图像。随着计算机视觉和深度学习的快速发展,这种能力得到了极大增强。
本项目旨在构建一个基于MyScale数据库的图文检索系统,能够执行图片检索和图文检索。通过本项目,大家可以了解图文检索任务的基本流程,掌握多模态特征提取技术以及MyScale数据库的基本使用以及多种查询方式。
pillow;sentence_transformers;clickhouse_connect;langdetect;ranx
本项目使用的Unsplash 数据集由全球超过 35 万名摄影师提供的照片数据,数据来源于几乎无限数量的用途和上下文中的数亿次搜索。
项目共分为五章,第一章进行数据预处理和基本探索,首先读取照片数据表,接着筛选数据字段,然后进行数据类型的转换和缺失值处理,最后通过可视化的手段进行探索性分析。
第二章进行照片的表征转换,我们将 Unsplash 数据集中的照片利用CLIP模型转换为表征,用于下一章的向量检索。
第三章进行照片知识库的构建,我们将照片数据表和上一章得到的照片表征存入MyScale数据库,通过创建表,建立向量索引和FTS索引,插入数据等操作创建一个照片知识库。
第四章进行图文检索,我们将完成利用图像检索图像、文本检索图像的操作,首先利用CLIP模型将查询图像或文本转换为表征,然后利用MyScale向量检索和文本检索等操作,搜索出最相关的图像进行展示。
第五章进行联合检索,我们将一些照片相关信息作为搜索条件,结合向量搜索和文本搜索进行联合检索,通过时间范围、不同相机品牌、不同国家、进一步添加照片关键词和颜色关键词实现更为精准的检索,找到想要的照片。