`langchain_community документ_загрузчиков.p Přensorovicians.grobid`.GrobidParser¶

class langchain_community.文档_加载器.解析器.grobid.GrobidParser(segment_sentences: bool = 'false', grobid_server: str = 'https://:8070/api/processFulltextDocument')[源代码]¶

使用 Grobid 加载 PDF 文章文件。

方法

`__init__`(segment_sentences[, grobid_server])
`lazy_parse`(blob)	懒加载解析接口。
`parse`(blob)	急切地将 blob 解析成文档或文档列表。
`process_xml`(file_path, xml_data, ...)	处理 Grobid 的 XML 文件。

参数

segment_sentences (布尔值) –
grobid_server (字符串) –

__init__(segment_sentences: bool, grobid_server: str = 'https://:8070/api/processFulltextDocument') → None[source]¶

参数

segment_sentences (布尔值) –
grobid_server (字符串) –

返回类型

None

lazy_parse(blob: Blob) → Iterator[Document][source]¶

懒加载解析接口。

子类必须实现此方法。

参数: blob (Blob) – Blob 实例
返回: 文档生成器
返回类型: Iterator[Document]

parse(blob: Blob) → List[Document]¶

急切地将 blob 解析成文档或文档列表。

这是交互式开发环境中的一个便利方法。

生产应用应优先使用 lazy_parse 方法。

子类通常不应重写此解析方法。

参数: blob (Blob) – Blob 实例
返回: 文档列表
返回类型: 列表[文档]

process_xml(file_path: str, xml_data: str, segment_sentences: bool) → Iterator[Document][源代码]¶

处理 Grobid 的 XML 文件。

参数

file_path (str) –
xml_data (str) –
segment_sentences (布尔值) –

返回类型

Iterator[Document]

使用 GrobidParser 的示例¶

Grobid

langchain_community документ_загрузчиков.p Přensorovicians.grobid.GrobidParser¶

使用 GrobidParser 的示例¶

`langchain_community документ_загрузчиков.p Přensorovicians.grobid`.GrobidParser¶