langchain_community.document_loaders.git.GitLoader

class langchain_community.document_loaders.git.GitLoader(repo_path: str, clone_url: Optional[str] = None, branch: Optional[str] = 'main', file_filter: Optional[Callable[[str], bool]] = None)[source]

加载数据库中的 Git 文件。

数据库名称可以是本地磁盘上的 repo_path,或者远程的 clone_url,将克隆到 repo_path。目前,仅支持文本文件。

每个文档代表一个库中的文件。文件 path 指向本地 Git 数据库,branch 指定从哪个分支加载文件。默认情况下,它从 main 分支加载。

参数
  • repo_path (str) – Git 数据库的路径。

  • clone_url (Optional[str]) – 可选。从克隆的 URL。

  • branch (Optional[str]) – 可选。从加载文件的分支。默认为 main

  • file_filter (Optional[Callable[[str], bool]]) – 可选。一个函数,它接受文件路径并返回一个表示是否加载文件的布尔值。默认为 None。

方法

__init__(repo_path[, clone_url, branch, ...])

param repo_path

Git 数据库的路径。

alazy_load()

文档的懒加载。

aload()

将数据加载到文档对象中。

lazy_load()

文档的懒加载。

加载()

将数据加载到文档对象中。

load_and_split([text_splitter])

加载文档并将其划分为块。

__init__(repo_path: str, clone_url: Optional[str] = None, branch: Optional[str] = 'main', file_filter: Optional[Callable[[str], bool]] = None)[source]
参数
  • repo_path (str) – Git 数据库的路径。

  • clone_url (Optional[str]) – 可选。从克隆的 URL。

  • branch (Optional[str]) – 可选。从加载文件的分支。默认为 main

  • file_filter (Optional[Callable[[str], bool]]) – 可选。一个函数,它接受文件路径并返回一个表示是否加载文件的布尔值。默认为 None。

async alazy_load() AsyncIterator[Document]

文档的懒加载。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

lazy_load() Iterator[Document][source]

文档的懒加载。

返回类型

Iterator[Document]

load() List[Document]

将数据加载到文档对象中。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其分割成块。块作为文档返回。

不要覆盖此方法。应考虑将其弃用!

参数

text_splitter (可选[TextSplitter]) – 用于分割文档的 TextSplitter 实例。默认为 RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

使用 GitLoader 的示例