langchain_community.document_loaders.s3_directory.S3DirectoryLoader

class langchain_community.document_loaders.s3_directory.S3DirectoryLoader(bucket: str, prefix: str = '', *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None)[source]

从Amazon AWS S3目录加载。

使用存储桶名称和键名初始化。

参数
  • bucket (str) - S3存储桶的名称。

  • prefix (str) - S3键的前缀。默认为“”

  • region_name (可选[str]) - 与客户端关联的地区的名称。一个客户端与一个地区关联。

  • api_version(《可选》)[str]) – 要使用的 API 版本。默认情况下,botocore 将在创建客户端时使用最新的 API 版本。只有当您想使用客户端的先前 API 版本时,才需要指定此参数。

  • use_ssl(《可选》)[bool]) – 是否使用 SSL。默认情况下,使用 SSL。请注意,并非所有服务都支持非 SSL 连接。

  • verify(《联合》)[strboolNone]) –

    是否验证 SSL 证书。默认情况下,验证 SSL 证书。您可以提供以下值

    • False - 不验证 SSL 证书。即使 use_ssl 为 False,也仍将使用 SSL(除非 use_ssl 为 False),但不会验证 SSL 证书。

    • path/to/cert/bundle.pem - 要使用的 CA 证书捆绑包的文件名。如果想要使用除了 botocore 使用的以外的 CA 证书捆绑包,可以指定此参数。

  • endpoint_url(《可选》)[str]) – 用于构建客户端的完整 URL。通常,botocore 会自动构建与服务通信时使用的适当 URL。可以指定一个完整的 URL(包括“http/https”方案)以覆盖此行为。如果提供了此值,则忽略 use_ssl

  • aws_access_key_id(《可选》)[str]) – 创建客户端时使用的访问密钥。此选项完全可选,如果没有提供,则将自动使用会话配置的凭据。只有当想要覆盖特定客户端使用的凭据时,才需要提供此参数。

  • aws_secret_access_key(《可选》)[str]) – 创建客户端时使用的密钥。与 aws_access_key_id 上述相同。

  • aws_session_token(《可选》)[str]) – 创建客户端时使用的会话令牌。与 aws_access_key_id 上述相同。

  • boto_config(《botocore.client.Config》)) – 高级 boto3 客户端配置选项。如果客户端配置中指定了值,则其值将优于环境变量和配置值,但不会优于显式传递给方法的值。如果在会话上设置了默认配置对象,则创建客户端时使用的配置对象将是调用 merge() 的结果,该调用是将默认配置与提供给此调用的配置合并后得到的配置。

方法

__init__(bucket[, prefix, region_name, ...])

使用存储桶名称和键名初始化。

alazy_load()

Documents 的懒加载器。

aload()

将数据加载到 Document 对象中。

lazy_load()

Documents 的懒加载器。

load()

加载文档。

load_and_split([text_splitter])

加载 Documents 并将其分割成块。

__init__(bucket: str, prefix: str = '', *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None)[源码]

使用存储桶名称和键名初始化。

参数
  • bucket (str) - S3存储桶的名称。

  • prefix (str) - S3键的前缀。默认为“”

  • region_name (可选[str]) - 与客户端关联的地区的名称。一个客户端与一个地区关联。

  • api_version(《可选》)[str]) – 要使用的 API 版本。默认情况下,botocore 将在创建客户端时使用最新的 API 版本。只有当您想使用客户端的先前 API 版本时,才需要指定此参数。

  • use_ssl(《可选》)[bool]) – 是否使用 SSL。默认情况下,使用 SSL。请注意,并非所有服务都支持非 SSL 连接。

  • verify(《联合》)[strboolNone]) –

    是否验证 SSL 证书。默认情况下,验证 SSL 证书。您可以提供以下值

    • False - 不验证 SSL 证书。即使 use_ssl 为 False,也仍将使用 SSL(除非 use_ssl 为 False),但不会验证 SSL 证书。

    • path/to/cert/bundle.pem - 要使用的 CA 证书捆绑包的文件名。如果想要使用除了 botocore 使用的以外的 CA 证书捆绑包,可以指定此参数。

  • endpoint_url(《可选》)[str]) – 用于构建客户端的完整 URL。通常,botocore 会自动构建与服务通信时使用的适当 URL。可以指定一个完整的 URL(包括“http/https”方案)以覆盖此行为。如果提供了此值,则忽略 use_ssl

  • aws_access_key_id(《可选》)[str]) – 创建客户端时使用的访问密钥。此选项完全可选,如果没有提供,则将自动使用会话配置的凭据。只有当想要覆盖特定客户端使用的凭据时,才需要提供此参数。

  • aws_secret_access_key(《可选》)[str]) – 创建客户端时使用的密钥。与 aws_access_key_id 上述相同。

  • aws_session_token(《可选》)[str]) – 创建客户端时使用的会话令牌。与 aws_access_key_id 上述相同。

  • boto_config(《botocore.client.Config》)) – 高级 boto3 客户端配置选项。如果客户端配置中指定了值,则其值将优于环境变量和配置值,但不会优于显式传递给方法的值。如果在会话上设置了默认配置对象,则创建客户端时使用的配置对象将是调用 merge() 的结果,该调用是将默认配置与提供给此调用的配置合并后得到的配置。

async alazy_load() AsyncIterator[Document]

Documents 的懒加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到 Document 对象中。

返回类型

List[Document]

lazy_load() Iterator[Document]

Documents 的懒加载器。

返回类型

Iterator[Document]

load() List[Document]

加载文档。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其拆分为块。块作为文档返回。

不要重写此方法。应将其视为已弃用!

参数

text_splitter (可选[TextSplitter]) – 用于拆分文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

列表[Document]

使用 S3DirectoryLoader 的示例