langchain_community.embeddings.fastembed.FastEmbedEmbeddings

class langchain_community.embeddings.fastembed.FastEmbedEmbeddings[source]

基础:BaseModelEmbeddings

Qdrant FastEmbedding模型。FastEmbed是一个轻量级、快速的Python库,用于嵌入生成。更多信息请参见:* https://github.com/qdrant/fastembed/ * https://qdrant.github.io/fastembed/

要使用此类,您必须安装Python包fastembed

pip install fastembed .. rubric:: 示例

from langchain_community.embeddings import FastEmbedEmbeddings fastembed = FastEmbedEmbeddings()

通过解析和验证关键字参数输入的数据来创建一个新的模型。

如果无法解析输入数据来形成有效的模型,将引发ValidationError。

param batch_size: int = 256

编码的批处理大小。较大的值将使用更多的内存,但速度更快。默认为256。

param cache_dir: Optional[str] = None

缓存目录的路径。默认为父目录中的local_cache

param doc_embed_type: Literal['default', 'passage'] = 'default'

用于文档的嵌入类型 The available options are: “default” and “passage”

param max_length: int = 512

最大标记数。默认为512。对于> 512的值,行为未知。

param model_name: str = 'BAAI/bge-small-en-v1.5'

要使用的FastEmbedding模型名称 Defaults to “BAAI/bge-small-en-v1.5” Find the list of supported models at https://qdrant.github.io/fastembed/examples/Supported_Models/

参数 parallel: 可选[int] = None

如果值为 >1,则使用并行编码,推荐用于大数据集的编码。如果为 <cite>0,使用所有可用核心。如果为 <cite>None,不使用数据并行处理,使用默认的 onnxruntime 线程。默认为 <cite>None。

参数 threads: 可选[int] = None

单个 onnxruntime 会话能使用的线程数。默认为 None。

异步 aembed_documents(texts: List[str]) List[List[float]]

异步嵌入搜索文档。

参数

texts (列表文本]) – 要嵌入的文本列表。

返回

嵌入列表。

返回类型

列表列表浮点数]]

异步 aembed_query(text: str) List[float]

异步嵌入查询文本。

参数

text (字符串) – 要嵌入的文本。

返回

嵌入。

返回类型

列表浮点数]

embed_documents(texts: List[str]) List[List[float]][源代码]

使用 FastEmbed 生成文档的嵌入。

参数

texts (列表[文本]) – 要嵌入的文本列表。

返回

为每个文本生成的嵌入列表。

返回类型

列表列表浮点数]]

embed_query(text: str) List[float][源代码]

使用FastEmbed生成查询嵌入。

参数

text (str) – 待嵌入的文本。

返回

文本的嵌入。

返回类型

列表浮点数]

使用FastEmbedEmbeddings的示例