langchain_text_splitters.markdown.MarkdownHeaderTextSplitter

class langchain_text_splitters.markdown.MarkdownHeaderTextSplitter(headers_to_split_on: List[Tuple[str, str]], return_each_line: bool = False, strip_headers: bool = True)[source]

基于指定的标题分割 markdown 文件。

创建一个新的 MarkdownHeaderTextSplitter。

参数
  • headers_to_split_on (列表[元组[字符串, 字符串]]) – 要跟踪的标题

  • return_each_line (布尔) – 返回带有相关标题的每一行

  • strip_headers (布尔) – 从块的内容中删除分割标题

方法

__init__(headers_to_split_on[, ...])

创建一个新的 MarkdownHeaderTextSplitter。

aggregate_lines_to_chunks(lines)

将具有公共元数据的行组合成块::param lines: 文本行 / 关联的标题元数据

split_text(text)

分割 markdown 文件::param text: Markdown 文件

__init__(headers_to_split_on: List[Tuple[str, str]], return_each_line: bool = False, strip_headers: bool = True)[source]

创建一个新的 MarkdownHeaderTextSplitter。

参数
  • headers_to_split_on (列表[元组[字符串, 字符串]]) – 要跟踪的标题

  • return_each_line (布尔) – 返回带有相关标题的每一行

  • strip_headers (布尔) – 从块的内容中删除分割标题

aggregate_lines_to_chunks(lines: List[LineType]) List[Document][source]

将具有公共元数据的行组合成块::param lines: 文本行 / 关联的标题元数据

参数

lines (列表[LineType]) –

返回类型

列表[Document]

split_text(text: str) List[Document][source]

分割 markdown 文件::param text: Markdown 文件

参数

text (字符串) –

返回类型

列表[Document]

使用 MarkdownHeaderTextSplitter 的示例