class langchain_text_splitters.html.HTMLHeaderTextSplitter(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]

基于指定标题分割HTML文件。需要lxml包。

创建一个新的HTMLHeaderTextSplitter。

参数
  • headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组的列表,映射到(任意)的元数据键。允许的标题值:h1, h2, h3, h4, h5, h6,例如 [("h1", "标题 1"), ("h2", "标题 2")]。

  • return_each_element (bool) – 返回带有相关标题的每个元素。

方法

__init__(headers_to_split_on[, ...])

创建一个新的HTMLHeaderTextSplitter。

aggregate_elements_to_chunks(elements)

将具有共同元数据的项目组合成块

split_text(text)

分割HTML文本字符串

split_text_from_file(file)

分割HTML文件

split_text_from_url(url)

从网络URL分割HTML

__init__(headers_to_split_on: List[Tuple[str, str]], return_each_element: bool = False)[source]

创建一个新的HTMLHeaderTextSplitter。

参数
  • headers_to_split_on (List[Tuple[str, str]]) – 我们想要跟踪的标题元组的列表,映射到(任意)的元数据键。允许的标题值:h1, h2, h3, h4, h5, h6,例如 [("h1", "标题 1"), ("h2", "标题 2")]。

  • return_each_element (bool) – 返回带有相关标题的每个元素。

aggregate_elements_to_chunks(elements: List[ElementType]) List[Document][source]

将具有共同元数据的项目组合成块

参数

elements (List[ElementType]) – 带有相关标识信息和元数据的HTML元素内容

返回类型

List[Document]

split_text(text: str) List[Document][source]

分割HTML文本字符串

参数

text (str) – HTML文本

返回类型

List[Document]

split_text_from_file(file: Any) List[Document][source]

分割HTML文件

参数

file (Any) – HTML文件

返回类型

List[Document]

split_text_from_url(url: str) List[Document][source]

从网络URL分割HTML

参数

url (str) – 网页URL

返回类型

List[Document]

使用HTMLHeaderTextSplitter的示例