langchain_text_splitters.html.HTMLSectionSplitter

class langchain_text_splitters.html.HTMLSectionSplitter(headers_to_split_on: List[Tuple[str, str]], xslt_path: Optional[str] = None, **kwargs: Any)[源代码]

基于指定的标签和字体大小分割HTML文件。需要lxml库。

创建一个新的HTMLSectionSplitter。

参数
  • headers_to_split_on (列表[元组[str, str]]) - 我们想要跟踪的标题的元组列表,映射到元数据的任意键。允许的标题值:h1, h2, h3, h4, h5, h6,例如:[(“h1”, “标题 1”),(“h2”, “标题 2”)].

  • xslt_path (可选[str]) - 文档转换的xslt文件路径。

  • passed. (如果未提供,使用默认值) -

  • layouts. (用于使用不同格式和) –

  • kwargs (任意) –

方法

__init__(headers_to_split_on[, xslt_path])

创建一个新的HTMLSectionSplitter。

convert_possible_tags_to_header(html_content)

create_documents(texts[, metadatas])

从一个文本列表中创建文档。

split_documents(documents)

分割文档。

split_html_by_headers(html_doc)

split_text(text)

分割HTML文本字符串

split_text_from_file(file)

分割HTML文件

__init__(headers_to_split_on: List[Tuple[str, str]], xslt_path: Optional[str] = None, **kwargs: Any) None[来源]

创建一个新的HTMLSectionSplitter。

参数
  • headers_to_split_on (列表[元组[str, str]]) - 我们想要跟踪的标题的元组列表,映射到元数据的任意键。允许的标题值:h1, h2, h3, h4, h5, h6,例如:[(“h1”, “标题 1”),(“h2”, “标题 2”)].

  • xslt_path (可选[str]) - 文档转换的xslt文件路径。

  • passed. (如果未提供,使用默认值) -

  • layouts. (用于使用不同格式和) –

  • kwargs (任意) –

返回类型

None

convert_possible_tags_to_header(html_content: str) str[来源]
参数

html_content (str) –

返回类型

str

create_documents(texts: List[str], metadatas: Optional[List[dict]] = None) List[Document][来源]

从一个文本列表中创建文档。

参数
  • texts (List[str]) –

  • metadatas (Optional[List[dict]]) –

返回类型

List[Document]

split_documents(documents: Iterable[Document]) List[Document][来源代码]

分割文档。

参数

documents (Iterable[Document]) –

返回类型

List[Document]

split_html_by_headers(html_doc: str) List[Dict[str, Optional[str]]][来源代码]
参数

html_doc (str) –

返回类型

列表[[字符串, 可选[字符串]]]

split_text(text: str) List[Document][来源代码]

分割HTML文本字符串

参数

text (str) – HTML 文本

返回类型

List[Document]

split_text_from_file(file: Any) List[Document][来源代码]

分割HTML文件

参数

file (Any) – HTML 文件

返回类型

List[Document]

HTMLSectionSplitter 的使用示例