langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader

class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]

从 Hugging Face Hub 数据集中加载数据。

初始化 HuggingFaceDatasetLoader。

参数
  • path (str) – 数据集的路径或名称。

  • page_content_column (str) – 页面内容列名。默认为“text”。

  • name (可选[str]) – 数据集配置的名称。

  • data_dir (可选[str]) – 数据集配置的数据目录。

  • data_files (可选): 路径列表,指向源数据文件。

  • cache_dir (可选): 数据读/写目录。

  • keep_in_memory (可选): 是否将数据集复制到内存中。

  • save_infos (默认为False): 保存数据集信息(校验和、大小、切分等)。

  • use_auth_token (可选): 适用于数据集托管中心的远程文件的载体令牌。

  • num_proc (可选): 进程数。

方法

__init__(path[, page_content_column, name, ...])

初始化 HuggingFaceDatasetLoader。

alazy_load()

Document的懒加载器。

aload()

将数据加载到Document对象中。

lazy_load()

懒加载文档。

load()

将数据加载到Document对象中。

load_and_split([text_splitter])

加载Documents并分割成块。

parse_obj(page_content)

__init__(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]

初始化 HuggingFaceDatasetLoader。

参数
  • path (str) – 数据集的路径或名称。

  • page_content_column (str) – 页面内容列名。默认为“text”。

  • name (可选[str]) – 数据集配置的名称。

  • data_dir (可选[str]) – 数据集配置的数据目录。

  • data_files (可选): 路径列表,指向源数据文件。

  • cache_dir (可选): 数据读/写目录。

  • keep_in_memory (可选): 是否将数据集复制到内存中。

  • save_infos (默认为False): 保存数据集信息(校验和、大小、切分等)。

  • use_auth_token (可选): 适用于数据集托管中心的远程文件的载体令牌。

  • num_proc (可选): 进程数。

asyncalazy_load() AsyncIterator[Document]

Document的懒加载器。

返回类型

AsyncIterator[Document]

asyncaload() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

lazy_load() Iterator[Document]

懒加载文档。

返回类型

Iterator[Document]

load() List[Document]

将数据加载到Document对象中。

返回类型

List[Document]

load_and_split(text_splitter: Optional[TextSplitter]) List[Document]

加载文档并将它们分割成块。这些块以Document的形式返回。

不要重写此方法。应该将其视为已弃用!

参数

text_splitter (Optional[TextSplitter]) – 用于分割文档的TextSplitter实例。默认使用RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

List[Document]

parse_obj(page_content: Union[str, object]) str[source]
参数

page_content (Union[str, object]) –

返回类型

str

使用HuggingFaceDatasetLoader的示例