langchain_community.document_loaders.s3_file
.S3FileLoader¶
- class langchain_community.document_loaders.s3_file.S3FileLoader(bucket: str, key: str, *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None, mode: str = 'single', post_processors: Optional[List[Callable]] = None, **unstructured_kwargs: Any)[source]¶
从 Amazon AWS S3 文件加载。
使用存储桶和键名初始化。
- 参数
bucket (str) – S3 存储桶名称。
key (str) – S3 对象的密钥。
region_name (可选 [ str ]) – 与客户端关联的区域的名称。一个客户端与一个区域关联。
api_version (可选 [ str ]) – 要使用的 API 版本。默认情况下,botocore 在创建客户端时将使用最新的 API 版本。只有当您想使用客户端的早期 API 版本时,才需要指定此参数。
use_ssl (可选[布尔值]) – 是否使用SSL。默认情况下,使用SSL。请注意,并非所有服务都支持非SSL连接。
verify (Union[str, bool, None]) –
是否验证SSL证书。默认情况下,SSL证书可以验证。您可以提供以下值
False - 不验证SSL证书。SSL仍然会被使用(除非 use_ssl 为 False),但SSL证书将不会被验证。
path/to/cert/bundle.pem - 要使用的CA证书捆绑的文件名。如果您想使用与botocore不同的CA证书捆绑,可以指定此参数。
endpoint_url (可选[str]) – 构造客户端时要使用的完整URL。通常,botocore将自动构建用于与服务通信的适当URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则忽略
use_ssl
。aws_access_key_id (可选[str]) – 创建客户端时使用的访问密钥。这完全可选,如果不提供,将自动使用会话配置的凭据。只有在想要覆盖此特定客户端使用的凭据时,才需要提供此参数。
aws_secret_access_key (可选[str]) – 创建客户端时使用的秘密密钥。与aws_access_key_id具有相同的作用。
aws_session_token (可选[str]) – 创建客户端时使用的会话令牌。与aws_access_key_id具有相同的作用。
boto_config (botocore.client.Config) – boto3客户端的进阶配置选项。如果在客户端配置中指定了值,它的值将优先于环境变量和配置值,但不会覆盖显式传递到方法的值。如果会在会话上设置默认配置对象,则创建客户端时使用的配置对象将是调用
merge()
方法的结果,在默认配置与传入的配置之间。mode (str) – 读取文件的模式。有效选项有:single,paged和elements。
post_processors (可选[列表[Callable]]) – 应用到提取元素的后处理函数。
**unstructured_kwargs (任意) –
在调用 partition 时传入的任意附加kwargs。
方法
__init__
(bucket, key, *[, region_name, ...])使用存储桶和键名初始化。
将数据加载到Document对象中。
加载文件。
加载文件。
load
()加载文件。
load_and_split
([text_splitter])加载Documents并将其拆分为块。
- __init__(bucket: str, key: str, *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None, mode: str = 'single', post_processors: Optional[List[Callable]] = None, **unstructured_kwargs: Any)[source]¶
使用存储桶和键名初始化。
- 参数
bucket (str) – S3 存储桶名称。
key (str) – S3 对象的密钥。
region_name (可选 [ str ]) – 与客户端关联的区域的名称。一个客户端与一个区域关联。
api_version (可选 [ str ]) – 要使用的 API 版本。默认情况下,botocore 在创建客户端时将使用最新的 API 版本。只有当您想使用客户端的早期 API 版本时,才需要指定此参数。
use_ssl (可选[布尔值]) – 是否使用SSL。默认情况下,使用SSL。请注意,并非所有服务都支持非SSL连接。
verify (Union[str, bool, None]) –
是否验证SSL证书。默认情况下,SSL证书可以验证。您可以提供以下值
False - 不验证SSL证书。SSL仍然会被使用(除非 use_ssl 为 False),但SSL证书将不会被验证。
path/to/cert/bundle.pem - 要使用的CA证书捆绑的文件名。如果您想使用与botocore不同的CA证书捆绑,可以指定此参数。
endpoint_url (可选[str]) – 构造客户端时要使用的完整URL。通常,botocore将自动构建用于与服务通信的适当URL。您可以指定一个完整的URL(包括“http/https”方案)来覆盖此行为。如果提供了此值,则忽略
use_ssl
。aws_access_key_id (可选[str]) – 创建客户端时使用的访问密钥。这完全可选,如果不提供,将自动使用会话配置的凭据。只有在想要覆盖此特定客户端使用的凭据时,才需要提供此参数。
aws_secret_access_key (可选[str]) – 创建客户端时使用的秘密密钥。与aws_access_key_id具有相同的作用。
aws_session_token (可选[str]) – 创建客户端时使用的会话令牌。与aws_access_key_id具有相同的作用。
boto_config (botocore.client.Config) – boto3客户端的进阶配置选项。如果在客户端配置中指定了值,它的值将优先于环境变量和配置值,但不会覆盖显式传递到方法的值。如果会在会话上设置默认配置对象,则创建客户端时使用的配置对象将是调用
merge()
方法的结果,在默认配置与传入的配置之间。mode (str) – 读取文件的模式。有效选项有:single,paged和elements。
post_processors (可选[列表[Callable]]) – 应用到提取元素的后处理函数。
**unstructured_kwargs (任意) –
在调用 partition 时传入的任意附加kwargs。
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]¶
加载文档并将其分割成块。块作为文档返回。
不要覆盖此方法。应该将其视为已弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
列表[Document]