langchain_community.document_loaders.generic
.GenericLoader¶
- class langchain_community.document_loaders.generic.GenericLoader(blob_loader: BlobLoader, blob_parser: BaseBlobParser)[源代码]¶
通用文档加载器。
一个通用文档加载器,允许将任意的blob加载器与blob解析器结合起来。
示例
解析特定的PDF文件
from langchain_community.document_loaders import GenericLoader from langchain_community.document_loaders.parsers.pdf import PyPDFParser # Recursively load all text files in a directory. loader = GenericLoader.from_filesystem( "my_lovely_pdf.pdf", parser=PyPDFParser() ) .. code-block:: python from langchain_community.document_loaders import GenericLoader from langchain_community.document_loaders.blob_loaders import FileSystemBlobLoader loader = GenericLoader.from_filesystem( path="path/to/directory", glob="**/[!.]*", suffixes=[".pdf"], show_progress=True, ) docs = loader.lazy_load() next(docs)
示例实例以更改要加载的文件
# Recursively load all text files in a directory. loader = GenericLoader.from_filesystem("/path/to/dir", glob="**/*.txt") # Recursively load all non-hidden files in a directory. loader = GenericLoader.from_filesystem("/path/to/dir", glob="**/[!.]*") # Load all files in a directory without recursion. loader = GenericLoader.from_filesystem("/path/to/dir", glob="*")
示例实例以更改使用的解析器
from langchain_community.document_loaders.parsers.pdf import PyPDFParser # Recursively load all text files in a directory. loader = GenericLoader.from_filesystem( "/path/to/dir", glob="**/*.pdf", parser=PyPDFParser() )
通用文档加载器。
- 参数
blob_loader (BlobLoader) – 知道如何生成blob的blob加载器
blob_parser (BaseBlobParser) – 知道如何将blob解析为文档的blob解析器
方法
__init__
(blob_loader, blob_parser)通用文档加载器。
文档的懒加载器。
aload
()将数据加载到文档对象中。
from_filesystem
(path, *[glob, exclude, ...])使用文件系统blob加载器创建通用文档加载器。
get_parser
(**kwargs)覆盖此方法以将默认解析器与类关联。
懒加载数据。
load
()将数据加载到文档对象中。
load_and_split
([text_splitter])加载所有文档并将它们分割成句子。
- __init__(blob_loader: BlobLoader, blob_parser: BaseBlobParser) None [源代码]¶
通用文档加载器。
- 参数
blob_loader (BlobLoader) – 知道如何生成blob的blob加载器
blob_parser (BaseBlobParser) – 知道如何将blob解析为文档的blob解析器
- 返回类型
None
- classmethod from_filesystem(path: Union[str, Path], *args, glob: str = '**/[!.]*', exclude: Sequence[str] = (), suffixes: Optional[Sequence[str]] = None, show_progress: bool = False, parser: Union[哑型['default'], BaseBlobParser] = 'default', parser_kwargs: Optional[dict] = None) GenericLoader [source]¶
使用文件系统blob加载器创建通用文档加载器。
- 参数
path (Union[str, Path]) –
加载文档的目录路径或单个文件的路径。如果是文件,则忽略glob、exclude、suffixes
参数。
glob (str) – 使用此glob模式查找文档。
suffixes (可选[Sequence[str]]) – 过滤文档要使用的后缀。如果为None,则加载所有匹配glob的文件。
exclude (序列[str]) – 从加载器中排除的模式的列表。
show_progress (布尔值) – 是否显示进度条(需要tqdm)。作为文件系统加载器的代理。
解析器 (Union[Literal['default'], ~langchain_core.document_loaders.base.BaseBlobParser]) – 一种能够将块解析为文档的块解析器,如果没有提供,则将实例化默认解析器。默认值可以通过传递解析器或设置类属性blob_parser(后者应与继承一起使用)来覆盖。
parser_kwargs (Optional[dict]) – 传递给解析器的关键字参数。
- 返回值
通用文档加载器。
- 返回类型
- static get_parser(**kwargs: Any) BaseBlobParser [source]¶
覆盖此方法以将默认解析器与类关联。
- 参数
kwargs (Any) –
- 返回类型
- load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document] [source]¶
加载所有文档并将它们分割成句子。
- 参数
text_splitter (Optional[TextSplitter]) –
- 返回类型
List[Document]