langchain_community.document_loaders.hugging_face_model.HuggingFaceModelLoader

class langchain_community.document_loaders.hugging_face_model.HuggingFaceModelLoader(*, search: Optional[str] = None, author: Optional[str] = None, filter: Optional[str] = None, sort: Optional[str] = None, direction: Optional[str] = None, limit: Optional[int] = 3, full: Optional[bool] = None, config: Optional[bool] = None)[源代码]

Hugging Face Hub 加载模型信息,包括 README 内容。

该加载器通过 Hugging Face 模型 API 获取和加载模型元数据和 README 文件。该 API 允许您根据模型标签、作者等特定标准进行搜索和过滤。

API URL: https://hugging-face.cn/api/models DOC URL: https://hugging-face.cn/docs/hub/en/api

示例

from langchain_community.document_loaders import HuggingFaceModelLoader

# Initialize the loader with search criteria
loader = HuggingFaceModelLoader(search="bert", limit=10)

# Load models
documents = loader.load()

# Iterate through the fetched documents
for doc in documents:
    print(doc.page_content)  # README content of the model
    print(doc.metadata)      # Metadata of the model

初始化 HuggingFaceModelLoader。

参数
  • search (可选字符串,默认值 None) - 根据仓库名称和用户名中的子字符串进行过滤。

  • author (可选字符串,默认值 None) - 通过作者或组织过滤模型。

  • filter (可选[字符串]) – 根据标签过滤。

  • sort (可选[字符串]) – 排序时使用的属性。

  • direction (可选[字符串]) – 排序的顺序。

  • limit (可选[整数]) – 限制获取的模型数量。

  • full (可选[布尔值]) – 是否获取大多数模型数据。

  • config (可选[布尔值]) – 是否获取仓库的配置。

属性

BASE_URL

README_BASE_URL

方法

__init__(*[, search, author, filter, sort, ...])

初始化 HuggingFaceModelLoader。

alazy_load()

Documents 的懒加载。

aload()

将数据加载到 Document 对象中。

fetch_models()

从 Hugging Face Hub 获取模型信息。

fetch_readme_content(model_id)

获取给定模型的 README 内容。

lazy_load()

懒加载模型信息,包括 README 内容。

load()

将数据加载到 Document 对象中。

load_and_split([text_splitter])

加载数据并分割成块。

__init__(*, search: Optional[str] = None, author: Optional[str] = None, filter: Optional[str] = None, sort: Optional[str] = None, direction: Optional[str] = None, limit: Optional[int] = 3, full: Optional[bool] = None, config: Optional[bool] = None)[源代码]

初始化 HuggingFaceModelLoader。

参数
  • search (可选字符串,默认值 None) - 根据仓库名称和用户名中的子字符串进行过滤。

  • author (可选字符串,默认值 None) - 通过作者或组织过滤模型。

  • filter (可选[字符串]) – 根据标签过滤。

  • sort (可选[字符串]) – 排序时使用的属性。

  • direction (可选[字符串]) – 排序的顺序。

  • limit (可选[整数]) – 限制获取的模型数量。

  • full (可选[布尔值]) – 是否获取大多数模型数据。

  • config (可选[布尔值]) – 是否获取仓库的配置。

async alazy_load() AsyncIterator[Document]

Documents 的懒加载。

返回类型

AsyncIterator[Document]

async aload() List[Document]

将数据加载到 Document 对象中。

返回类型

列表[文档]

fetch_models() List[dict][source]

从 Hugging Face Hub 获取模型信息。

返回类型

列表[dict]

fetch_readme_content(model_id: str) str[source]

获取给定模型的 README 内容。

参数

model_id (字符串) –

返回类型

字符串

lazy_load() Iterator[Document][source]

懒加载模型信息,包括 README 内容。

返回类型

迭代器[文档]

load() List[Document]

将数据加载到 Document 对象中。

返回类型

列表[文档]

load_and_split(text_splitter: Optional[TextSplitter] = None) List[Document]

加载文档并将其分割成块。块作为文档返回。

不要覆盖此方法。应考虑将其废弃!

参数

text_splitter (可选TextSplitter) – 用于分割文档的TextSplitter实例。默认为RecursiveCharacterTextSplitter。

返回

文档列表。

返回类型

列表[文档]