langchain_ai21.semantic_text_splitter.AI21SemanticTextSplitter¶
- class langchain_ai21.semantic_text_splitter.AI21SemanticTextSplitter(chunk_size: int = 0, chunk_overlap: int = 0, client: Optional[Any] = None, api_key: Optional[SecretStr] = None, api_host: Optional[str] = None, timeout_sec: Optional[float] = None, num_retries: Optional[int] = None, **kwargs: Any)[source]¶
- 根据不同的主题和段落,将文本分割成连贯 易读的单位。 - 创建一个新的TextSplitter。 - 方法 - __init__([chunk_size, chunk_overlap, ...])- 创建一个新的TextSplitter。 - atransform_documents(documents, **kwargs)- 异步地将文档列表进行转换。 - create_documents(texts[, metadatas])- 从文本列表中创建文档。 - from_huggingface_tokenizer(tokenizer, **kwargs)- 使用HuggingFace分词器进行计数的文本分割器。 - from_tiktoken_encoder([编码名称, ...])- 使用tiktoken编码器来计算长度的文本分割器。 - split_documents(documents)- 分割文档。 - split_text(source)- 将文本分割成多个部分。 - split_text_to_documents(source)- 将文本分割成多个文档。 - transform_documents(documents, **kwargs)- 通过分割文档来转换文档序列。 - 参数
- chunk_size (int) – 
- chunk_overlap (int) – 
- client (可选[Any]) – 
- api_key (可选[SecretStr]) – 
- api_host (可选[str]) – 
- timeout_sec (可选[float]) – 
- num_retries (可选[int]) – 
- kwargs (Any) – 
 
 - __init__(chunk_size: int = 0, chunk_overlap: int = 0, client: Optional[Any] = None, api_key: Optional[SecretStr] = None, api_host: Optional[str] = None, timeout_sec: Optional[float] = None, num_retries: Optional[int] = None, **kwargs: Any) None[source]¶
- 创建一个新的TextSplitter。 - 参数
- chunk_size (int) – 
- chunk_overlap (int) – 
- client (可选[Any]) – 
- api_key (可选[SecretStr]) – 
- api_host (可选[str]) – 
- timeout_sec (可选[float]) – 
- num_retries (可选[int]) – 
- kwargs (Any) – 
 
- 返回类型
- None 
 
 - asyncatransform_documents(documents: Sequence[Document], **kwargs: Any) Sequence[Document]¶
- 异步地将文档列表进行转换。 
 - create_documents(texts: List[str], metadatas: Optional[List[dict]] = None) List[Document][源代码]¶
- 从文本列表中创建文档。 - 参数
- texts (列表[字符串]) – 
- metadatas (可选[列表[字典]]) – 
 
- 返回类型
- 列表[文档] 
 
 - classmethod from_huggingface_tokenizer(tokenizer: Any, **kwargs: Any) TextSplitter¶
- 使用HuggingFace分词器进行计数的文本分割器。 - 参数
- tokenizer (任何类型) – 
- kwargs (Any) – 
 
- 返回类型
 
 - classmethod from_tiktoken_encoder(
- 使用tiktoken编码器来计算长度的文本分割器。 - 参数
- encoding_name (str) – 
- model_name (Optional[str]) – 
- allowed_special (Union[Literal['all'], typing.AbstractSet[str]]) – 
- disallowed_special (Union[Literal['all'], typing.Collection[str]]) – 
- kwargs (Any) – 
 
- 返回类型
- TS 
 
 - split_text_to_documents(source: str) List[Document[source]¶
- 将文本分割成多个文档。 - 参数
- source (str) – 指定文本输入进行文本分割 
- 返回类型
- 列表[文档] 
 
 - transform_documents(documents: Sequence[Document, **kwargs: Any) Sequence[Document¶
- 通过分割文档来转换文档序列。 - 参数
- documents (Sequence[Document]) – 
- kwargs (Any) – 
 
- 返回类型
- Sequence[Document]