langchain_community.document_loaders.astradb.AstraDBLoader

class langchain_community.document_loaders.astradb.AstraDBLoader(collection_name: str, *, token: Optional[str] = None, api_endpoint: Optional[str] = None, astra_db_client: Optional[AstraDB] = None, async_astra_db_client: Optional[AsyncAstraDB] = None, namespace: Optional[str] = None, filter_criteria: Optional[Dict[str, Any]] = None, projection: Optional[Dict[str, Any]] = None, find_options: Optional[Dict[str, Any]] = None, nb_prefetched: int = 1000, extraction_function: Callable[[Dict], str] = <function dumps>)[来源]

自版本 0.0.29 弃用: 请使用 langchain_astradb.AstraDBLoader 代替。

加载数据Stax Astra DB文档。

参数
  • collection_name (str) – 使用Astra DB集合的名称。

  • token (可选[str]) – Astra DB使用的API令牌。

  • api_endpoint (可选[str]) – API端点的完整URL,例如 https://<DB-ID>-us-east1.apps.astra.datastax.com

  • astra_db_client (可选[AstraDB]) – 替代token+api_endpoint,您可以通过传递已创建的‘astrapy.db.AstraDB’实例。

  • async_astra_db_client (可选[AsyncAstraDB]) – 替代token+api_endpoint,您可以通过传递已创建的‘astrapy.db.AsyncAstraDB’实例。

  • namespace (可选[str]) – 包含集合的命名空间(即键空间)(默认为数据库的“默认命名空间”)。

  • filter_criteria (可选[Dict[str, Any]]) – 过滤文档的准则。

  • projection (可选[Dict[str, Any]]) – 指定要返回的字段。

  • find_options (可选[Dict[str, Any]]) – 查询的附加选项。

  • nb_prefetched (int) – 预取文档的最大数量。默认为1000。

  • extraction_function (Callable[[Dict], str]) – 应用到集合文档以创建LangChain文档的页面的函数。默认为 json.dumps

方法

__init__(collection_name, *[, token, ...])

加载数据Stax Astra DB文档。

alazy_load()

文档的惰性加载器。

aload()

将数据加载到文档对象中。

lazy_load()

文档的惰性加载器。

加载()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载数据库并将其分割成块。

__init__(collection_name: str, *, token: Optional[str] = None, api_endpoint: Optional[str] = None, astra_db_client: Optional[AstraDB] = None, async_astra_db_client: Optional[AsyncAstraDB] = None, namespace: Optional[str] = None, filter_criteria: Optional[Dict[str, Any]] = None, projection: Optional[Dict[str, Any]] = None, find_options: Optional[Dict[str, Any]] = None, nb_prefetched: int = 1000, extraction_function: Callable[[Dict], str] = <function dumps>) None[source]

加载数据Stax Astra DB文档。

参数
  • collection_name (str) – 使用Astra DB集合的名称。

  • token (可选[str]) – Astra DB使用的API令牌。

  • api_endpoint (可选[str]) – API端点的完整URL,例如 https://<DB-ID>-us-east1.apps.astra.datastax.com

  • astra_db_client (可选[AstraDB]) – 替代token+api_endpoint,您可以通过传递已创建的‘astrapy.db.AstraDB’实例。

  • async_astra_db_client (可选[AsyncAstraDB]) – 替代token+api_endpoint,您可以通过传递已创建的‘astrapy.db.AsyncAstraDB’实例。

  • namespace (可选[str]) – 包含集合的命名空间(即键空间)(默认为数据库的“默认命名空间”)。

  • filter_criteria (可选[Dict[str, Any]]) – 过滤文档的准则。

  • projection (可选[Dict[str, Any]]) – 指定要返回的字段。

  • find_options (可选[Dict[str, Any]]) – 查询的附加选项。

  • nb_prefetched (int) – 预取文档的最大数量。默认为1000。

  • extraction_function (Callable[[Dict], str]) – 应用到集合文档以创建LangChain文档的页面的函数。默认为 json.dumps

返回类型

None

async alazy_load() AsyncIterator[Document][source]

文档的惰性加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document][source]

将数据加载到文档对象中。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

文档的惰性加载器。

返回类型

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并分割成块。块作为文档返回。

不要重写此方法。应考虑其已被弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

使用AstraDBLoader的示例