首頁手記 Spring AI Embeddings 和...

Spring AI Embeddings 和 Vector 入門

標簽：

雜七雜八

概述

文本嵌入（Embeddings）技术在AI领域扮演关键角色，将文本转换为数值表示以供理解和处理。这项技术在检索增强生成（RAG）模式等实际应用中尤为关键，通过在多维语义空间中表示文本，实现相似主题句子的识别。文本嵌入方法将文本转换为向量形式，反映其语义特性，使得AI通过计算向量距离进行相似性分析，支持任务如文本分类、语义搜索及产品推荐。向量数据库则专注于高效相似性搜索，存储转换后的数据，支持检索增强生成（RAG）和产品推荐等应用场景。使用Spring AI实现文本嵌入与向量功能，首先需配置依赖和环境。通过EmbeddingClient实例获取文本嵌入，并存储至向量数据库，如RedisVectorStore，实现文档相似性检索。此技术在检索增强生成任务中发挥重要作用，与聊天系统或推荐系统集成，考虑用户查询的上下文，优化AI框架功能和性能。后续内容将深入探讨Spring AI的高级应用及实践案例。

引入文本嵌入的重要性与应用领域

文本嵌入（Embeddings）是将文本转换为数值表示的重要技术，它使AI能够理解和处理语言数据。文本嵌入在诸如检索增强生成（RAG）模式等实际应用中尤为重要，因为它们能在多维语义空间中表示文本，使得相似主题的句子在空间中相对接近，从而支持文本分类、语义搜索和产品推荐等任务。文本嵌入将文本转换为向量形式，这些向量在高维空间中表示文本的语义特性。例如，一个表示“猫”的向量可能在“动物”维度具有较高得分，在“颜色”维度具有较低得分。这种转换使得AI能够通过计算文本向量之间的距离来识别相似性。

文本嵌入基础

文本嵌入将文本转换为向量形式，这些向量在高维空间中表示文本的语义特性。例如，一个表示“猫”的向量可能在“动物”维度具有较高得分，在“颜色”维度具有较低得分。这种转换使得AI能够通过计算文本向量之间的距离来识别相似性。

向量数据库概览

向量数据库与传统数据库不同，它们侧重于相似性搜索而非精确匹配。通过将数据转换为向量并存储在向量数据库中，可以高效地查询并找到与给定查询向量最相似的向量。向量数据库支持各种应用场景，例如检索增强生成（RAG）和产品推荐。

准备工作

为了开始使用Spring AI的嵌入和向量功能，需要配置依赖和环境。对于向量数据库，可以使用Spring AI提供的实现，如RedisVectorStore和SimpleVectorStore。

import io.spring.gradle.dependency-management.gradlePlugin;
import com.fasterxml.jackson.databind.ObjectMapper;
import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import org.springframework.context.annotation.Bean;

@SpringBootApplication
public class SpringAIServiceApplication {

    public static void main(String[] args) {
        SpringApplication.run(SpringAIServiceApplication.class, args);
    }

    @Bean
    public ObjectMapper objectMapper() {
        return new ObjectMapper();
    }
}

EmbeddingClient使用示例

创建一个EmbeddingClient实例，需要指定OpenAI API密钥、嵌入模型（例如"text-embedding-ada-002"）和用户信息。以下是创建EmbeddingClient的代码示例：

System.setProperty("https.proxyHost", "localhost");
System.setProperty("https.proxyPort", "7890");
var openAiApi = new OpenAiApi(System.getenv("OPENAI_API_KEY"));
var embeddingClient = new OpenAiEmbeddingClient(
    openAiApi,
    MetadataMode.EMBED,
    OpenAiEmbeddingOptions.builder()
    .withModel("text-embedding-ada-002")
    .withUser("user-1")
    .build(),
    RetryUtils.DEFAULT_RETRY_TEMPLATE);

向量存储与检索

使用EmbeddingClient获取文本的嵌入后，可以将其存储在向量数据库中。以下代码展示了如何将文档添加到RedisVectorStore：

VectorStore redisVectorStore = RedisVectorStore.create(
    RedisVectorStore.RedisVectorStoreConfig.builder()
    .withURI("redis://localhost:6379")
    .withMetadataFields(
        RedisVectorStore.MetadataField.numeric("year"))
    .build(),
    embeddingClient);
List<Document> documents = List.of(
    new Document("MyBatis 分页插件 PageHelper", Map.of("year", 2014)),
    new Document("MyBatis 通用Mapper", Map.of("year", 2014)),
    new Document("MyBatis 最新的 mybatis-mapper", Map.of("year", 2019)));
redisVectorStore.add(documents);

检索向量数据库中的相似文档可以通过调用similaritySearch方法实现：

List<Document> results = redisVectorStore.similaritySearch(
    SearchRequest.query("插件").withTopK(5));
results.forEach(d -> System.out.println(d.getContent()));

高级应用与集成

向量数据库在检索增强生成（RAG）任务中发挥重要作用，可以结合聊天系统或推荐系统，将用户查询的上下文考虑在内。同时，可以探索将Spring AI与现有的AI框架集成，以拓展功能和提高性能。

后续内容预告

接下来的章节将探索Spring AI的更深入应用，包括实践案例和代码示例分享。我们还将讨论如何进一步优化和扩展嵌入和向量数据库的使用。

點擊查看更多內容

為 TA 點贊

若覺得本文不錯，就分享一下吧！

評論

評論

共同學習，寫下你的評論

評論加載中...

展開查看更多評論

作者其他優質文章

正在加載中

HUH函數

手記
篇

粉絲

67

獲贊與收藏

316

關注作者，訂閱最新文章

閱讀免費教程

后端通用面試教程

41個小節 32210 359

網絡編程入門教程

20個小節 13298 250

Pandas 入門教程

25個小節 19918 373

推薦

評論

收藏

共同學習，寫下你的評論



感謝您的支持，我會繼續努力的～

掃碼打賞，你說多少就多少

贊賞金額會直接到老師賬戶

支付方式

打開微信掃一掃，即可進行掃碼打賞哦

今天注冊有機會得

100積分直接送

付費專欄免費學

大額優惠券免費領

立即參與放棄機會

點擊
抽獎

慕課手記新用戶專享福利

恭喜你，你的運氣太好了，居然抽中了 100個積分！

恭喜你，抽中了價值元的專欄！

太棒了，直接落到你賬戶里！

積分商城里的羅技鼠標、機械鍵盤、
Kindle 閱讀器、小米平衡車
Apple iPad （10.2英寸）、大額優惠券
在等著你去兌換了噢

作者：

免費贈送

兌換碼：1111222211 復制

優惠券可用于購買實戰課、體系課
無門檻使用

先去看看，有什么好東西馬上兌換我愛學習，選課去


亚洲在线久爱草,狠狠天天香蕉网,天天搞日日干久草,伊人亚洲日本欧美

熱搜

最近搜索清空