langchain_community документ_загрузчиков.p Přensorovicians.grobid.GrobidParser

class langchain_community.文档_加载器.解析器.grobid.GrobidParser(segment_sentences: bool = 'false', grobid_server: str = 'http://localhost:8070/api/processFulltextDocument')[源代码]

使用 Grobid 加载 PDF 文章文件。

方法

__init__(segment_sentences[, grobid_server])

lazy_parse(blob)

懒加载解析接口。

parse(blob)

急切地将 blob 解析成文档或文档列表。

process_xml(file_path, xml_data, ...)

处理 Grobid 的 XML 文件。

参数
  • segment_sentences (布尔值) –

  • grobid_server (字符串) –

__init__(segment_sentences: bool, grobid_server: str = 'http://localhost:8070/api/processFulltextDocument') None[source]
参数
  • segment_sentences (布尔值) –

  • grobid_server (字符串) –

返回类型

None

lazy_parse(blob: Blob) Iterator[Document][source]

懒加载解析接口。

子类必须实现此方法。

参数

blob (Blob) – Blob 实例

返回

文档生成器

返回类型

Iterator[Document]

parse(blob: Blob) List[Document]

急切地将 blob 解析成文档或文档列表。

这是交互式开发环境中的一个便利方法。

生产应用应优先使用 lazy_parse 方法。

子类通常不应重写此解析方法。

参数

blob (Blob) – Blob 实例

返回

文档列表

返回类型

列表[文档]

process_xml(file_path: str, xml_data: str, segment_sentences: bool) Iterator[Document][源代码]

处理 Grobid 的 XML 文件。

参数
  • file_path (str) –

  • xml_data (str) –

  • segment_sentences (布尔值) –

返回类型

Iterator[Document]

使用 GrobidParser 的示例