langchain_community.document_loaders.s3_file.S3FileLoader

class langchain_community.document_loaders.s3_file.S3FileLoader(bucket: str, key: str, *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None, mode: str = 'single', post_processors: Optional[List[Callable]] = None, **unstructured_kwargs: Any)[source]

Amazon AWS S3 文件加载。

使用存储桶和键名初始化。

参数
  • bucket (str) – S3 存储桶名称。

  • key (str) – S3 对象的密钥。

  • region_name (可选 [ str ]) – 与客户端关联的区域的名称。一个客户端与一个区域关联。

  • api_version (可选 [ str ]) – 要使用的 API 版本。默认情况下,botocore 在创建客户端时将使用最新的 API 版本。只有当您想使用客户端的早期 API 版本时,才需要指定此参数。

  • use_ssl (可选[布尔值]) – 是否使用SSL。默认情况下,使用SSL。请注意,并非所有服务都支持非SSL连接。

  • verify (Union[str, bool, None]) –

    是否验证SSL证书。默认情况下,SSL证书可以验证。您可以提供以下值

    • False - 不验证SSL证书。SSL仍然会被使用(除非 use_ssl 为 False),但SSL证书将不会被验证。

    • path/to/cert/bundle.pem - 要使用的CA证书捆绑的文件名。如果您想使用与botocore不同的CA证书捆绑,可以指定此参数。

  • endpoint_url (可选[str]) – 构造客户端时要使用的完整URL。通常,botocore将自动构建用于与服务通信的适当URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则忽略 use_ssl

  • aws_access_key_id (可选[str]) – 创建客户端时使用的访问密钥。这完全可选,如果不提供,将自动使用会话配置的凭据。只有在想要覆盖此特定客户端使用的凭据时,才需要提供此参数。

  • aws_secret_access_key (可选[str]) – 创建客户端时使用的秘密密钥。与aws_access_key_id具有相同的作用。

  • aws_session_token (可选[str]) – 创建客户端时使用的会话令牌。与aws_access_key_id具有相同的作用。

  • boto_config (botocore.client.Config) – boto3客户端的进阶配置选项。如果在客户端配置中指定了值,它的值将优先于环境变量和配置值,但不会覆盖显式传递到方法的值。如果会在会话上设置默认配置对象,则创建客户端时使用的配置对象将是调用 merge() 方法的结果,在默认配置与传入的配置之间。

  • mode (str) – 读取文件的模式。有效选项有:single,paged和elements。

  • post_processors (可选[列表[Callable]]) – 应用到提取元素的后处理函数。

  • **unstructured_kwargs (任意) –

    在调用 partition 时传入的任意附加kwargs。

方法

__init__(bucket, key, *[, region_name, ...])

使用存储桶和键名初始化。

Documents的懒惰加载器。()

将数据加载到Document对象中。

lazy_load()

加载文件。

lazy_load()

加载文件。

load()

加载文件。

load_and_split([text_splitter])

加载Documents并将其拆分为块。

__init__(bucket: str, key: str, *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None, mode: str = 'single', post_processors: Optional[List[Callable]] = None, **unstructured_kwargs: Any)[source]

使用存储桶和键名初始化。

参数
  • bucket (str) – S3 存储桶名称。

  • key (str) – S3 对象的密钥。

  • region_name (可选 [ str ]) – 与客户端关联的区域的名称。一个客户端与一个区域关联。

  • api_version (可选 [ str ]) – 要使用的 API 版本。默认情况下,botocore 在创建客户端时将使用最新的 API 版本。只有当您想使用客户端的早期 API 版本时,才需要指定此参数。

  • use_ssl (可选[布尔值]) – 是否使用SSL。默认情况下,使用SSL。请注意,并非所有服务都支持非SSL连接。

  • verify (Union[str, bool, None]) –

    是否验证SSL证书。默认情况下,SSL证书可以验证。您可以提供以下值

    • False - 不验证SSL证书。SSL仍然会被使用(除非 use_ssl 为 False),但SSL证书将不会被验证。

    • path/to/cert/bundle.pem - 要使用的CA证书捆绑的文件名。如果您想使用与botocore不同的CA证书捆绑,可以指定此参数。

  • endpoint_url (可选[str]) – 构造客户端时要使用的完整URL。通常,botocore将自动构建用于与服务通信的适当URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则忽略 use_ssl

  • aws_access_key_id (可选[str]) – 创建客户端时使用的访问密钥。这完全可选,如果不提供,将自动使用会话配置的凭据。只有在想要覆盖此特定客户端使用的凭据时,才需要提供此参数。

  • aws_secret_access_key (可选[str]) – 创建客户端时使用的秘密密钥。与aws_access_key_id具有相同的作用。

  • aws_session_token (可选[str]) – 创建客户端时使用的会话令牌。与aws_access_key_id具有相同的作用。

  • boto_config (botocore.client.Config) – boto3客户端的进阶配置选项。如果在客户端配置中指定了值,它的值将优先于环境变量和配置值,但不会覆盖显式传递到方法的值。如果会在会话上设置默认配置对象,则创建客户端时使用的配置对象将是调用 merge() 方法的结果,在默认配置与传入的配置之间。

  • mode (str) – 读取文件的模式。有效选项有:single,paged和elements。

  • post_processors (可选[列表[Callable]]) – 应用到提取元素的后处理函数。

  • **unstructured_kwargs (任意) –

    在调用 partition 时传入的任意附加kwargs。

async alazy_load() AsyncIterator[Document]

将数据加载到Document对象中。

返回类型

AsyncIterator[Document]

async aload() List[Document]

加载文件。

返回类型

List[Document]

lazy_load() Iterator[Document]

加载文件。

返回类型

Iterator[Document]

load() List[Document]

加载文件。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其分割成块。块作为文档返回。

不要覆盖此方法。应该将其视为已弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

列表[Document]

S3FileLoader使用示例