langchain_community.utilities.arxiv.ArxivAPIWrapper

class langchain_community.utilities.arxiv.ArxivAPIWrapper[source]

Bases: BaseModel

ArxivAPI的包装器。

使用前,您需要安装 arxiv Python 包。请访问https://lukasschwab.me/arxiv.py/index.html。此包装器将使用 Arxiv API 进行搜索和获取文档摘要。默认情况下,它将返回前 k 个结果的文档摘要。如果查询采用 arxiv 标识符的形式(见 https://info.arxiv.org/help/find/index.html),则将返回与 arxiv 标识符对应的论文。它通过 doc_content_chars_max 限制文档内容。如果您不想限制内容大小,请将 doc_content_chars_max 设置为 None。

top_k_results

用于 arxiv 工具的顶级评分文档数量

ARXIV_MAX_QUERY_LENGTH

用于 arxiv 工具的查询截断限制。

continue_on_failure

如果为 True,则在失败时继续加载其他 URL。

类型

bool

load_max_docs

加载文档数量的限制

load_all_available_meta

如果为 True:加载的文档的 metadata 包含所有可用的元信息(见 https://lukasschwab.me/arxiv.py/index.html#Result),如果为 False:则 metadata 只包含发表日期、标题、作者和摘要。

doc_content_chars_max

可选的文档内容长度的截断限制

示例

from langchain_community.utilities.arxiv import ArxivAPIWrapper
arxiv = ArxivAPIWrapper(
    top_k_results = 3,
    ARXIV_MAX_QUERY_LENGTH = 300,
    load_max_docs = 3,
    load_all_available_meta = False,
    doc_content_chars_max = 40000
)
arxiv.run("tree of thought llm")

通过解析和验证来自关键字参数的输入数据来创建一个新的模型。

如果输入数据无法解析成有效的模型,则引发 ValidationError。

参数ARXIV_MAX_QUERY_LENGTH: int = 300
参数arxiv_exceptions: Any = None
参数continue_on_failure: bool = False
参数doc_content_chars_max: Optional[int] = 4000
参数 load_all_available_meta: bool = False
参数 load_max_docs: int = 100
参数 top_k_results: int = 3
get_summaries_as_docs(query: str) List[Document][源代码]

执行arxiv搜索,并返回包含内容摘要的文档列表。

如果发生错误或未找到文档,将返回错误文本。为https://lukasschwab.me/arxiv.py/index.html#Search提供包装

参数

query (str) – 原文本搜索查询

返回类型

List[Document]

is_arxiv_identifier(query: str) bool[源代码]

检查一个查询是否为arxiv标识符。

参数

query (str) –

返回类型

bool

lazy_load(query: str) Iterator[Document][源代码]

执行Arxiv搜索,获取前k个结果的PDF文档,将它们加载为Documents,并返回。

返回: 文档,其中document.page_content为文本格式

执行Arxiv搜索,下载前k个结果作为PDF,将它们加载为Documents,并返回。

参数

query (str) – 原文本搜索查询

返回类型

迭代器[文档]

load(query: str) List[Document][源代码]

执行Arxiv搜索,获取前k个结果的PDF文档,将它们加载为Documents,并返回。

返回值:包含文档.page_content的文本格式的文档列表

执行arXiv搜索,下载前k个结果作为PDF文件,将其加载为文档,并返回一个列表。

参数

query (str) – 原文本搜索查询

返回类型

List[Document]

run(query: str) str[源代码]

执行arXiv搜索,并以两个换行符分隔的单字符串返回每篇文章的发布日期、标题、作者和摘要。

如果发生错误或未找到文档,将返回错误文本。为https://lukasschwab.me/arxiv.py/index.html#Search提供包装

参数

query (str) – 原文本搜索查询

返回类型

字符串

使用ArxivAPIWrapper的示例