langchain_community.document_loaders.pebblo
.PebbloSafeLoader¶
- class langchain_community.document_loaders.pebblo.PebbloSafeLoader(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None, *, classifier_location: str = 'local')[source]¶
PebbloSafeLoader 类是围绕文档加载器的一个包装器,它允许对数据进行分析。
方法
__init__
(langchain_loader, name[, owner, ...])文档的懒加载器。
aload
()将数据加载到文档对象中。
calculate_content_size
(page_content)计算内容的字节数:- 使用特定的编码(例如,UTF-8)对字符串进行编码 - 获取编码字节的长度。
分批次对文档进行分类。
get_file_owner_from_path
(file_path)从本地文件路径获取所有者。
get_source_size
(source_path)获取源路径的大小。
以懒加载方式加载文档。
load
()加载文档。
load_and_split
([text_splitter])加载文档并分割成块。
设置发现句子
()设置加载器句子
()- 参数
langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –
classifier_location (str) –
- __init__(langchain_loader: BaseLoader, name: str, owner: str = '', description: str = '', api_key: Optional[str] = None, load_semantic: bool = False, classifier_url: Optional[str] = None, *, classifier_location: str = 'local')[source]¶
- 参数
langchain_loader (BaseLoader) –
name (str) –
owner (str) –
description (str) –
api_key (Optional[str]) –
load_semantic (bool) –
classifier_url (Optional[str]) –
classifier_location (str) –
- static calculate_content_size(page_content: str) int [源代码]¶
计算内容的字节数:- 使用特定的编码(例如,UTF-8)对字符串进行编码 - 获取编码字节的长度。
- 参数
page_content (str) – 数据字符串。
- 返回:
字符串的字节数。
- 返回类型
int
- classify_in_batches() None [源代码]¶
批量分类文档。这是为了避免在发送大量文档时API超时。根据page_content的大小生成批次。
- 返回类型
None
- static get_file_owner_from_path(file_path: str) str [源代码]¶
从本地文件路径获取所有者。
- 参数
file_path (str) – 本地文件路径。
- 返回:
所有者名称。
- 返回类型
str
- get_source_size(source_path: str) int [源代码]¶
获取源路径的大小。源可以是目录或文件。
- 参数
source_path (str) – 数据源本地路径。
- 返回:
源大小(字节数)。
- 返回类型
int
- lazy_load() Iterator[Document] [源代码]¶
以懒加载方式加载文档。
- 引发
NotImplementedError – 当懒加载ID未实现时引发
在包装加载器内部。 –
- 产出
列表 – 从加载器的懒加载中获取文档。
- 返回类型
迭代器[文档]
- load_and_split(text_splitter: Optional[TextSplitter]) List[Document] ¶
加载文档并将它们分成块。块将作为文档返回。
不要重写此方法。它应该被认为是已弃用!
- 参数
text_splitter (可选[TextSplitter]) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。
- 返回:
文档列表。
- 返回类型
列表[Document]