langchain_community.document_loaders.s3_directory
.S3DirectoryLoader¶
- class langchain_community.document_loaders.s3_directory.S3DirectoryLoader(bucket: str, prefix: str = '', *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None)[source]¶
从Amazon AWS S3目录加载。
使用存储桶名称和键名初始化。
- 参数
bucket (str) - S3存储桶的名称。
prefix (str) - S3键的前缀。默认为“”
region_name (可选[str]) - 与客户端关联的地区的名称。一个客户端与一个地区关联。
api_version(《可选》)[str]) – 要使用的 API 版本。默认情况下,botocore 将在创建客户端时使用最新的 API 版本。只有当您想使用客户端的先前 API 版本时,才需要指定此参数。
use_ssl(《可选》)[bool]) – 是否使用 SSL。默认情况下,使用 SSL。请注意,并非所有服务都支持非 SSL 连接。
verify(《联合》)[str,bool,None]) –
是否验证 SSL 证书。默认情况下,验证 SSL 证书。您可以提供以下值
False - 不验证 SSL 证书。即使 use_ssl 为 False,也仍将使用 SSL(除非 use_ssl 为 False),但不会验证 SSL 证书。
path/to/cert/bundle.pem - 要使用的 CA 证书捆绑包的文件名。如果想要使用除了 botocore 使用的以外的 CA 证书捆绑包,可以指定此参数。
endpoint_url(《可选》)[str]) – 用于构建客户端的完整 URL。通常,botocore 会自动构建与服务通信时使用的适当 URL。可以指定一个完整的 URL(包括“http/https”方案)以覆盖此行为。如果提供了此值,则忽略
use_ssl
。aws_access_key_id(《可选》)[str]) – 创建客户端时使用的访问密钥。此选项完全可选,如果没有提供,则将自动使用会话配置的凭据。只有当想要覆盖特定客户端使用的凭据时,才需要提供此参数。
aws_secret_access_key(《可选》)[str]) – 创建客户端时使用的密钥。与 aws_access_key_id 上述相同。
aws_session_token(《可选》)[str]) – 创建客户端时使用的会话令牌。与 aws_access_key_id 上述相同。
boto_config(《botocore.client.Config》)) – 高级 boto3 客户端配置选项。如果客户端配置中指定了值,则其值将优于环境变量和配置值,但不会优于显式传递给方法的值。如果在会话上设置了默认配置对象,则创建客户端时使用的配置对象将是调用
merge()
的结果,该调用是将默认配置与提供给此调用的配置合并后得到的配置。
方法
__init__
(bucket[, prefix, region_name, ...])使用存储桶名称和键名初始化。
Documents 的懒加载器。
aload
()将数据加载到 Document 对象中。
Documents 的懒加载器。
load
()加载文档。
load_and_split
([text_splitter])加载 Documents 并将其分割成块。
- __init__(bucket: str, prefix: str = '', *, region_name: Optional[str] = None, api_version: Optional[str] = None, use_ssl: Optional[bool] = True, verify: Union[str, bool, None] = None, endpoint_url: Optional[str] = None, aws_access_key_id: Optional[str] = None, aws_secret_access_key: Optional[str] = None, aws_session_token: Optional[str] = None, boto_config: Optional[botocore.client.Config] = None)[源码]¶
使用存储桶名称和键名初始化。
- 参数
bucket (str) - S3存储桶的名称。
prefix (str) - S3键的前缀。默认为“”
region_name (可选[str]) - 与客户端关联的地区的名称。一个客户端与一个地区关联。
api_version(《可选》)[str]) – 要使用的 API 版本。默认情况下,botocore 将在创建客户端时使用最新的 API 版本。只有当您想使用客户端的先前 API 版本时,才需要指定此参数。
use_ssl(《可选》)[bool]) – 是否使用 SSL。默认情况下,使用 SSL。请注意,并非所有服务都支持非 SSL 连接。
verify(《联合》)[str,bool,None]) –
是否验证 SSL 证书。默认情况下,验证 SSL 证书。您可以提供以下值
False - 不验证 SSL 证书。即使 use_ssl 为 False,也仍将使用 SSL(除非 use_ssl 为 False),但不会验证 SSL 证书。
path/to/cert/bundle.pem - 要使用的 CA 证书捆绑包的文件名。如果想要使用除了 botocore 使用的以外的 CA 证书捆绑包,可以指定此参数。
endpoint_url(《可选》)[str]) – 用于构建客户端的完整 URL。通常,botocore 会自动构建与服务通信时使用的适当 URL。可以指定一个完整的 URL(包括“http/https”方案)以覆盖此行为。如果提供了此值,则忽略
use_ssl
。aws_access_key_id(《可选》)[str]) – 创建客户端时使用的访问密钥。此选项完全可选,如果没有提供,则将自动使用会话配置的凭据。只有当想要覆盖特定客户端使用的凭据时,才需要提供此参数。
aws_secret_access_key(《可选》)[str]) – 创建客户端时使用的密钥。与 aws_access_key_id 上述相同。
aws_session_token(《可选》)[str]) – 创建客户端时使用的会话令牌。与 aws_access_key_id 上述相同。
boto_config(《botocore.client.Config》)) – 高级 boto3 客户端配置选项。如果客户端配置中指定了值,则其值将优于环境变量和配置值,但不会优于显式传递给方法的值。如果在会话上设置了默认配置对象,则创建客户端时使用的配置对象将是调用
merge()
的结果,该调用是将默认配置与提供给此调用的配置合并后得到的配置。
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]¶
加载文档并将其拆分为块。块作为文档返回。
不要重写此方法。应将其视为已弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于拆分文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
列表[Document]