langchain_community.utilities.tensorflow_datasets
.TensorflowDatasets¶
- class langchain_community.utilities.tensorflow_datasets.TensorflowDatasets[源代码]¶
基于:
BaseModel
TensorFlow数据集的访问。
当前实现只能与可以存入内存中的数据集协同工作。
TensorFlow Datasets 是一个已准备好使用的数据集集合,可用于 TensorFlow 或其他 Python 机器学习框架,如 Jax。所有数据集都以 tf.data.Datasets 的形式暴露。要开始,请参阅指南:https://tensorflowcn.cn/datasets/overview 和数据集列表:https://tensorflowcn.cn/datasets/catalog/
概述#所有数据集
- 您必须提供 sample_to_document_function:一个将数据集特定格式的样本转换为 Document 的函数。
示例:
- dataset_name¶
要加载的数据集的名称
- split_name¶
要加载的划分名称。默认为“train”。
- load_max_docs¶
加载文档数量的限制。默认为 100。
- sample_to_document_function¶
一个将数据集样本转换为 Document 的函数
示例
from langchain_community.utilities import TensorflowDatasets def mlqaen_example_to_document(example: dict) -> Document: return Document( page_content=decode_to_str(example["context"]), metadata={ "id": decode_to_str(example["id"]), "title": decode_to_str(example["title"]), "question": decode_to_str(example["question"]), "answer": decode_to_str(example["answers"]["text"][0]), }, ) tsds_client = TensorflowDatasets( dataset_name="mlqa/en", split_name="train", load_max_docs=MAX_DOCS, sample_to_document_function=mlqaen_example_to_document, )
通过解析和验证关键字参数中的输入数据来创建一个新的模型。
如果输入数据无法解析为有效模型,则引发 ValidationError。
- 参数 dataset_name : str = ''¶
- 参数 load_max_docs : int = 100¶
- 参数 split_name : str = 'train'¶