langchain_text_splitters 0.2.3

langchain_text_splitters.base

base.Language(value)

编程语言的枚举。

base.TextSplitter(chunk_size, chunk_overlap, ...)

用于将文本分割成块的应用接口。

base.TokenTextSplitter([encoding_name, ...])

使用模型分词器将文本分割成标记。

base.Tokenizer(chunk_overlap, ...)

分词器数据类。

函数

base.split_text_on_tokens(*, text, tokenizer)

根据分词器分割传入的文本并返回块。

character.CharacterTextSplitter([separator, ...])

按字符分割文本。

character.RecursiveCharacterTextSplitter([...])

递归地按字符分割文本。

html.ElementType

元素类型作为类型字典。

html.HTMLHeaderTextSplitter(headers_to_split_on)

根据指定的标题分割HTML文件。

html.HTMLSectionSplitter(headers_to_split_on)

根据指定的标签和字体大小分割HTML文件。

json.RecursiveJsonSplitter([max_chunk_size, ...])

konlpy.KonlpyTextSplitter([separator])

使用Konlpy包分割文本。

latex.LatexTextSplitter(**kwargs)

尝试根据LaTeX格式化布局元素分割文本。

langchain_text_splitters.markdown

markdown.ExperimentalMarkdownSyntaxTextSplitter([...])

一个用于处理Markdown语法的实验性文本分割器。

markdown.HeaderType

将标题类型作为类型化的字典。

markdown.LineType

将行类型作为类型化的字典。

markdown.MarkdownHeaderTextSplitter(...[, ...])

根据指定的标题分割Markdown文件。

markdown.MarkdownTextSplitter(**kwargs)

尝试根据Markdown格式化标题分割文本。

langchain_text_splitters.nltk

nltk.NLTKTextSplitter([separator, language])

使用NLTK包进行文本分割。

langchain_text_splitters/python

python.PythonCodeTextSplitter(**kwargs)

尝试根据Python语法分割文本。

langchain_text_splitters/sentence_transformers

sentence_transformers.SentenceTransformersTokenTextSplitter([...])

使用句子模型分词器将文本分割成标记。

langchain_text_splitters/spacy

spacy.SpacyTextSplitter([separator, ...])

使用Spacy包进行文本分割。