langchain_text_splitters.konlpy.KonlpyTextSplitter¶
- class langchain_text_splitters.konlpy.KonlpyTextSplitter(separator: str = '\n\n', **kwargs: Any)[来源]¶
- 使用 Konlpy 包进行文本分割。 - 非常适合分割韩文文本。 - 初始化 Konlpy 文本分割器。 - 方法 - __init__([separator])- 初始化 Konlpy 文本分割器。 - atransform_documents(documents, **kwargs)- 异步转换文档列表。 - create_documents(texts[, metadatas])- 从文本列表中创建文档。 - from_huggingface_tokenizer(tokenizer, **kwargs)- 使用 HuggingFace tokenizer 进行计数的文本分割器。 - from_tiktoken_encoder([encoding_name, ...])- 使用 tiktoken encoder 进行计数的文本分割器。 - split_documents(documents)- 分割文档。 - split_text(text)- 分割传入的文本并返回块。 - transform_documents(documents, **kwargs)- 通过分割文档转换文档序列。 - 参数
- separator (str) – 
- kwargs (Any) – 
 
 - __init__(separator: str = '\n\n', **kwargs: Any) None[来源]¶
- 初始化 Konlpy 文本分割器。 - 参数
- separator (str) – 
- kwargs (Any) – 
 
- 返回类型
- None 
 
 - async atransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document]¶
- 异步转换文档列表。 
 - create_documents(texts: List[str], metadatas: Optional[List[dict]] = None) List[Document]¶
- 从文本列表中创建文档。 - 参数
- texts (List[str]) – 
- metadatas (Optional[List[dict]]) – 
 
- 返回类型
- List[Document] 
 
 - classmethod from_huggingface_tokenizer(tokenizer: Any, **kwargs: Any) TextSplitter¶
- 使用 HuggingFace tokenizer 进行计数的文本分割器。 - 参数
- tokenizer (Any) – 
- kwargs (Any) – 
 
- 返回类型
 
 - classmethod from_tiktoken_encoder(encoding_name: str = 'gpt2', model_name: Optional[str] = None, allowed_special: Union[Literal['all'], AbstractSet[str]] = {}, disallowed_special: Union[Literal['all'], Collection[str]] = 'all', **kwargs: Any) TS¶
- 使用 tiktoken encoder 进行计数的文本分割器。 - 参数
- encoding_name (str) – 
- model_name (可选[str]) – 
- allowed_special (联合[Literal['all'], ~typing.AbstractSet[str]]) – 
- disallowed_special (联合[Literal['all'], ~typing.Collection[str]]) – 
- kwargs (Any) – 
 
- 返回类型
- TS