langchain_community.document_loaders.pebblo.PebbloSafeLoader

class langchain_community.document_loaders.pebblo.PebbloSafeLoader(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None, *, classifier_location: str = 'local')[source]

PebbloSafeLoader 类是围绕文档加载器的一个包装器,它允许对数据进行分析。

方法

__init__(langchain_loader, name[, owner, ...])

alazy_load()

文档的懒加载器。

aload()

将数据加载到文档对象中。

calculate_content_size(page_content)

计算内容的字节数:- 使用特定的编码(例如,UTF-8)对字符串进行编码 - 获取编码字节的长度。

classify_in_batches()

分批次对文档进行分类。

get_file_owner_from_path(file_path)

从本地文件路径获取所有者。

get_source_size(source_path)

获取源路径的大小。

lazy_load()

以懒加载方式加载文档。

load()

加载文档。

load_and_split([text_splitter])

加载文档并分割成块。

设置发现句子()

设置加载器句子()

参数
  • langchain_loader (BaseLoader) –

  • name (str) –

  • owner (str) –

  • description (str) –

  • api_key (Optional[str]) –

  • load_semantic (bool) –

  • classifier_url (Optional[str]) –

  • classifier_location (str) –

__init__(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None, *, classifier_location: str = 'local')[source]
参数
  • langchain_loader (BaseLoader) –

  • name (str) –

  • owner (str) –

  • description (str) –

  • api_key (Optional[str]) –

  • load_semantic (bool) –

  • classifier_url (Optional[str]) –

  • classifier_location (str) –

async alazy_load() AsyncIterator[Document]

文档的懒加载器。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

static calculate_content_size(page_content: str) int[源代码]

计算内容的字节数:- 使用特定的编码(例如,UTF-8)对字符串进行编码 - 获取编码字节的长度。

参数

page_content (str) – 数据字符串。

返回:

字符串的字节数。

返回类型

int

classify_in_batches() None[源代码]

批量分类文档。这是为了避免在发送大量文档时API超时。根据page_content的大小生成批次。

返回类型

None

static get_file_owner_from_path(file_path: str) str[源代码]

从本地文件路径获取所有者。

参数

file_path (str) – 本地文件路径。

返回:

所有者名称。

返回类型

str

get_source_size(source_path: str) int[源代码]

获取源路径的大小。源可以是目录或文件。

参数

source_path (str) – 数据源本地路径。

返回:

源大小(字节数)。

返回类型

int

lazy_load() Iterator[Document][源代码]

以懒加载方式加载文档。

引发
  • NotImplementedError – 当懒加载ID未实现时引发

  • 在包装加载器内部。

产出

列表 – 从加载器的懒加载中获取文档。

返回类型

迭代器[文档]

load() List[Document][source]

加载文档。

返回:

从包装的加载器的加载方法中获取文档。

返回类型

列表

load_and_split(text_splitter: Optional[TextSplitter]) List[Document]

加载文档并将它们分成块。块将作为文档返回。

不要重写此方法。它应该被认为是已弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回:

文档列表。

返回类型

列表[Document]

类方法set_discover_sent() None[source]
返回类型

None

类方法set_loader_sent() None[source]
返回类型

None

使用PebbloSafeLoader的示例