langchain_community.document_loaders.blob_loaders.cloud_blob_loader.CloudBlobLoader

class langchain_community.document_loaders.blob_loaders.cloud_blob_loader.CloudBlobLoader(url: Union[str, AnyPath], *, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Optional[Sequence[str]] = None, show_progress: bool = False)[source]

从云URL或文件加载blob:

示例

loader = CloudBlobLoader("s3://mybucket/id")

for blob in loader.yield_blobs():
    print(blob)

使用URL和glob方法初始化。

使用[CloudPathLib](https://cloudpathlib.drivendata.org/).

参数
  • url (Union[str, AnyPath]) – 加载的云URL。支持s3://, az://, gs://, file://等方案。如果没有提供方案,假定是本地文件。如果提供了文件的路径,则glob/exclude/suffixes将被忽略。

  • glob (str) – 相对于指定路径的glob模式,默认设置为选取所有非隐藏文件

  • exclude (Sequence[str]) – 要从结果中排除的模式,使用glob语法

  • suffixes (Optional[Sequence[str]]) – 提供以仅保留这些后缀的文件,当想保留不同后缀的文件时非常有用。后缀必须包含点,例如“.txt”

  • show_progress (bool) – 如果为真,将在文件加载时显示进度条。这将强制对所有匹配的文件进行迭代以计数,然后再加载它们。

示例

方法

__init__(url, &[, glob, exclude, suffixes, ...])

使用URL和glob方法初始化。

count_matching_files()

计算匹配模式的文件个数,而不加载它们。

from_path(path, &[, encoding, mime_type, ...])

从类似对象的路径加载blob。

yield_blobs()

生成符合请求模式的blob。

__init__(url: Union[str, AnyPath], *, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Optional[Sequence[str]] = None, show_progress: bool = False) None[source]

使用URL和glob方法初始化。

使用[CloudPathLib](https://cloudpathlib.drivendata.org/).

参数
  • url (Union[str, AnyPath]) – 加载的云URL。支持s3://, az://, gs://, file://等方案。如果没有提供方案,假定是本地文件。如果提供了文件的路径,则glob/exclude/suffixes将被忽略。

  • glob (str) – 相对于指定路径的glob模式,默认设置为选取所有非隐藏文件

  • exclude (Sequence[str]) – 要从结果中排除的模式,使用glob语法

  • suffixes (Optional[Sequence[str]]) – 提供以仅保留这些后缀的文件,当想保留不同后缀的文件时非常有用。后缀必须包含点,例如“.txt”

  • show_progress (bool) – 如果为真,将在文件加载时显示进度条。这将强制对所有匹配的文件进行迭代以计数,然后再加载它们。

返回类型

None

示例

count_matching_files() int[source]

计算匹配模式的文件个数,而不加载它们。

返回类型

int

classmethod from_path(path: AnyPath, *, encoding: str = 'utf-8', mime_type: Optional[str] = None, guess_type: bool = True, metadata: Optional[dict] = None) Blob[source]

从类似对象的路径加载blob。

参数
  • path (AnyPath) – 要读取的文件的路径对象,支持 s3://、az://、gs://、file:// 等约定。如果没有提供约定,则假定是本地文件。

  • encoding (str) – 解码字节到字符串时使用的编码

  • mime_type (可选[str]) – 如果提供,将设置为数据的 mime 类型

  • guess_type (bool) – 如果为 True,将从文件扩展名猜测 mime 类型,如果未提供 mime 类型

  • metadata (可选[dict]) – 与 blob 关联的元数据

返回值

Blob 实例

返回类型

Blob

yield_blobs() 可迭代[Blob][source]

生成符合请求模式的blob。

返回类型

<可迭代>[Blob]