langchain_community.document_loaders.hugging_face_dataset
.HuggingFaceDatasetLoader¶
- class langchain_community.document_loaders.hugging_face_dataset.HuggingFaceDatasetLoader(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]¶
从 Hugging Face Hub 数据集中加载数据。
初始化 HuggingFaceDatasetLoader。
- 参数
path (str) – 数据集的路径或名称。
page_content_column (str) – 页面内容列名。默认为“text”。
name (可选[str]) – 数据集配置的名称。
data_dir (可选[str]) – 数据集配置的数据目录。
data_files (可选): 路径列表,指向源数据文件。
cache_dir (可选): 数据读/写目录。
keep_in_memory (可选): 是否将数据集复制到内存中。
save_infos (默认为False): 保存数据集信息(校验和、大小、切分等)。
use_auth_token (可选): 适用于数据集托管中心的远程文件的载体令牌。
num_proc (可选): 进程数。
方法
__init__
(path[, page_content_column, name, ...])初始化 HuggingFaceDatasetLoader。
Document的懒加载器。
aload
()将数据加载到Document对象中。
懒加载文档。
load
()将数据加载到Document对象中。
load_and_split
([text_splitter])加载Documents并分割成块。
parse_obj
(page_content)- __init__(path: str, page_content_column: str = 'text', name: Optional[str] = None, data_dir: Optional[str] = None, data_files: Optional[Union[str, Sequence[str], Mapping[str, Union[str, Sequence[str]]]]] = None, cache_dir: Optional[str] = None, keep_in_memory: Optional[bool] = None, save_infos: bool = False, use_auth_token: Optional[Union[bool, str]] = None, num_proc: Optional[int] = None)[source]¶
初始化 HuggingFaceDatasetLoader。
- 参数
path (str) – 数据集的路径或名称。
page_content_column (str) – 页面内容列名。默认为“text”。
name (可选[str]) – 数据集配置的名称。
data_dir (可选[str]) – 数据集配置的数据目录。
data_files (可选): 路径列表,指向源数据文件。
cache_dir (可选): 数据读/写目录。
keep_in_memory (可选): 是否将数据集复制到内存中。
save_infos (默认为False): 保存数据集信息(校验和、大小、切分等)。
use_auth_token (可选): 适用于数据集托管中心的远程文件的载体令牌。
num_proc (可选): 进程数。
- load_and_split(text_splitter: Optional[TextSplitter]) List[Document] ¶
加载文档并将它们分割成块。这些块以Document的形式返回。
不要重写此方法。应该将其视为已弃用!
- 参数
text_splitter (Optional[TextSplitter]) – 用于分割文档的TextSplitter实例。默认使用RecursiveCharacterTextSplitter。
- 返回
文档列表。
- 返回类型
List[Document]