langchain_community.utilities.tensorflow_datasets.TensorflowDatasets

class langchain_community.utilities.tensorflow_datasets.TensorflowDatasets[源代码]

基于:BaseModel

TensorFlow数据集的访问。

当前实现只能与可以存入内存中的数据集协同工作。

TensorFlow Datasets 是一个已准备好使用的数据集集合,可用于 TensorFlow 或其他 Python 机器学习框架,如 Jax。所有数据集都以 tf.data.Datasets 的形式暴露。要开始,请参阅指南:https://tensorflowcn.cn/datasets/overview 和数据集列表:https://tensorflowcn.cn/datasets/catalog/

概述#所有数据集

您必须提供 sample_to_document_function:一个将数据集特定格式的样本转换为 Document 的函数。

示例:

dataset_name

要加载的数据集的名称

split_name

要加载的划分名称。默认为“train”。

load_max_docs

加载文档数量的限制。默认为 100。

sample_to_document_function

一个将数据集样本转换为 Document 的函数

示例

from langchain_community.utilities import TensorflowDatasets

def mlqaen_example_to_document(example: dict) -> Document:
    return Document(
        page_content=decode_to_str(example["context"]),
        metadata={
            "id": decode_to_str(example["id"]),
            "title": decode_to_str(example["title"]),
            "question": decode_to_str(example["question"]),
            "answer": decode_to_str(example["answers"]["text"][0]),
        },
    )

tsds_client = TensorflowDatasets(
        dataset_name="mlqa/en",
        split_name="train",
        load_max_docs=MAX_DOCS,
        sample_to_document_function=mlqaen_example_to_document,
    )

通过解析和验证关键字参数中的输入数据来创建一个新的模型。

如果输入数据无法解析为有效模型,则引发 ValidationError。

参数 dataset_name : str = ''
参数 load_max_docs : int = 100
参数 sample_to_document_function : Optional[Callable[[Dict], Document]] = None
参数 split_name : str = 'train'
lazy_load() Iterator[Document][source]

懒加载所选数据集。

返回一个包含文档的迭代器。

返回类型

迭代器[文档]

load() List[文档][source]

下载数据集。

返回值:文档列表。

返回类型

列表[文档]