langchain_community.embeddings.octoai_embeddings.OctoAIEmbeddings

class langchain_community.embeddings.octoai_embeddings.OctoAIEmbeddings[source]

基类: OpenAIEmbeddings

OctoAI 计算服务嵌入模型。

有关 OctoAI 的信息,请参阅 https://octo.ai/

使用该功能时,您应安装 openai Python 包,并将环境变量 OCTOAI_API_TOKEN 设置为您的 API 令牌。或者,您可以使用 octoai_api_token 关键字参数。

通过解析和验证从关键字参数传入的数据来创建一个新的模型。

如果输入数据无法解析为有效的模型,则引发 ValidationError

param allowed_special: Union[Literal['all'], Set[str]] = {}
param chunk_size: int = 1000

每个批次中嵌入的最大文本数量。

param default_headers: Union[Mapping[str, str], None] = None
参数 default_query: Union[Mapping[str, object], None] = None
参数 deployment: Optional[str] = 'text-embedding-ada-002'
参数 disallowed_special: Union[Literal['all'], Set[str], Sequence[str]] = 'all'
参数 embedding_ctx_length: int = 8191

一次嵌入最多标记数。

参数 endpoint_url: str = 'https://text.octoai.run/v1/'

API请求的基本URL路径。

参数 headers: Any = None
参数http_client: 联合[Any, None] = None

可选 httpx.Client。

参数max_retries: int = 2

生成时最大重试次数。

参数model: str = 'thenlper/gte-large'

使用的模型名称。

参数model_kwargs: Dict[str, Any] [可选]

保存由 create 调用有效但未明确指定的任何模型参数。

参数octoai_api_token: SecretStr = None

OctoAI Endpoints API 密钥。

约束
  • 类型 = 字符串

  • 只写 = True

  • 格式 = 密码

参数openai_api_base: Optional[str] = None (别称 base_url)

API 请求的基本 URL 路径,如果未使用代理或服务模拟器,请留空。

参数openai_api_key: Optional[str] = None (别称 api_key)

如果没有提供,将自动从环境变量 OPENAI_API_KEY 中推断出来。

参数openai_api_type: Optional[em class="property"][str]=None
参数openai_api_version: Optional[em class="property"][str]=None (别名:api_version)

如果未提供,将自动从环境变量 OPENAI_API_VERSION 推断。

参数openai_organization: Optional[em class="property"][str]=None (别名:organization)

如果未提供,将自动从环境变量 OPENAI_ORG_ID 推断。

参数openai_proxy: Optional[em class="property"][str]=None
参数request_timeout: Optional[em class="property"][Union[float,Tuple[float,float],Any]]=None (别名:timeout)

对 OpenAI 完成API 请求的超时时间。可以是浮点数、httpx.Timeout 或 None。

参数retry_max_seconds: int=20

重试之间的最大秒数

参数 retry_min_seconds: int = 4

重试之间等待的最小秒数

参数 show_progress_bar: bool = False

在嵌入时是否显示进度条

参数 skip_empty: bool = False

在嵌入时是否跳过空字符串或引发错误。默认不跳过

参数 tiktoken_enabled: bool = False

将此参数设置为 False 以用于非 OpenAI 的嵌入 API 实现

参数 tiktoken_model_name: Optional[str] = None

在使用此类传入 TikToken 的模型名称。TikToken 用于统计文档中的标记数量,以将它们限制在一定限制之下。默认情况下,当设置为 None 时,此参数将与嵌入模型名称相同。但是,在某些情况下,您可能希望使用此嵌入类与 TikToken 不支持的模型名称一起使用。这包括使用 Azure 嵌入或使用许多公开类似 OpenAI API 但具有不同模型的模型提供程序时。在这些情况下,为了避免在调用 TikToken 时出错,您可以在此处指定一个要使用的模型名称。

async aembed_documents(texts: List[str], chunk_size: Optional[int] = 0) List[List[float]] List[列表[浮点数]]

异步调用于OpenAI的嵌入接口,为搜索文档进行嵌入。

参数
  • texts (列表[字符串]) – 要嵌入的文本列表。

  • chunk_size (可选[整型]) – 嵌入的块大小。如果为None,将使用类指定的块大小。

返回

嵌入列表,每个文本对应一个。

返回类型

列表[列表[浮点数]]

async aembed_query(text: 字符串) 列表[浮点数]

异步调用于OpenAI的嵌入接口,为查询文本进行嵌入。

参数

text (字符串) – 要嵌入的文本。

返回

文本的嵌入。

返回类型

列表[浮点数]

embed_documents(texts: List[字符串], chunk_size: Optional[int] = 0) 列表[列表[浮点数]]

调用OpenAI的嵌入接口进行搜索文档的嵌入。

参数
  • texts (列表[字符串]) – 要嵌入的文本列表。

  • chunk_size (可选[整型]) – 嵌入的块大小。如果为None,将使用类指定的块大小。

返回

嵌入列表,每个文本对应一个。

返回类型

列表[列表[浮点数]]

embed_query(text: 字符串) 列表[浮点数]

调用OpenAI的嵌入接口进行查询文本的嵌入。

参数

text (字符串) – 要嵌入的文本。

返回

文本的嵌入。

返回类型

列表[浮点数]