`langchain_community.document_loaders.pebblo`.PebbloSafeLoader¶

class langchain_community.document_loaders.pebblo.PebbloSafeLoader(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None, *, classifier_location: str = 'local')[source]¶

PebbloSafeLoader 类是围绕文档加载器的一个包装器，它允许对数据进行分析。

方法

`__init__`(langchain_loader, name[, owner, ...])
`alazy_load`()	文档的懒加载器。
`aload`()	将数据加载到文档对象中。
`calculate_content_size`(page_content)	计算内容的字节数：- 使用特定的编码（例如，UTF-8）对字符串进行编码 - 获取编码字节的长度。
`classify_in_batches`()	分批次对文档进行分类。
`get_file_owner_from_path`(file_path)	从本地文件路径获取所有者。
`get_source_size`(source_path)	获取源路径的大小。
`lazy_load`()	以懒加载方式加载文档。
`load`()	加载文档。
`load_and_split`([text_splitter])	加载文档并分割成块。
`设置发现句子`()
`设置加载器句子`()

参数

langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –
classifier_location (str) –

__init__(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None, *, classifier_location: str = 'local')[source]¶

参数

langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –
classifier_location (str) –

async alazy_load() → AsyncIterator[Document]¶

文档的懒加载器。

返回类型: AsyncIterator[Document]

async aload() → List[Document]¶

将数据加载到文档对象中。

返回类型: List[Document]

static calculate_content_size(page_content: str) → int[源代码]¶

计算内容的字节数：- 使用特定的编码（例如，UTF-8）对字符串进行编码 - 获取编码字节的长度。

参数: page_content (str) – 数据字符串。
返回：: 字符串的字节数。
返回类型: int

classify_in_batches() → None[源代码]¶

批量分类文档。这是为了避免在发送大量文档时API超时。根据page_content的大小生成批次。

返回类型: None

static get_file_owner_from_path(file_path: str) → str[源代码]¶

从本地文件路径获取所有者。

参数: file_path (str) – 本地文件路径。
返回：: 所有者名称。
返回类型: str

get_source_size(source_path: str) → int[源代码]¶

获取源路径的大小。源可以是目录或文件。

参数: source_path (str) – 数据源本地路径。
返回：: 源大小（字节数）。
返回类型: int

lazy_load() → Iterator[Document][源代码]¶

以懒加载方式加载文档。

引发

NotImplementedError – 当懒加载ID未实现时引发
在包装加载器内部。 –

产出

列表 – 从加载器的懒加载中获取文档。

返回类型

迭代器[文档]

load() → List[Document][source]¶

加载文档。

返回：: 从包装的加载器的加载方法中获取文档。
返回类型: 列表

load_and_split(text_splitter: Optional[TextSplitter]) → List[Document]¶

加载文档并将它们分成块。块将作为文档返回。

不要重写此方法。它应该被认为是已弃用！

参数: text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
返回：: 文档列表。
返回类型: 列表[Document]

类方法set_discover_sent() → None[source]¶

返回类型: None

类方法set_loader_sent() → None[source]¶

返回类型: None

使用PebbloSafeLoader的示例¶

Pebblo安全文档加载器

langchain_community.document_loaders.pebblo.PebbloSafeLoader¶

使用PebbloSafeLoader的示例¶

`langchain_community.document_loaders.pebblo`.PebbloSafeLoader¶