langchain_experimental.data_anonymizer.presidio.PresidioReversibleAnonymizer

class langchain_experimental.data_anonymizer.presidio.PresidioReversibleAnonymizer(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]

使用微软Presidio的反向匿名化器。

参数
  • analyzed_fields (可选[列表[字符串]]) – 要检测和匿名化的字段列表。默认值为微软Presidio支持的所有实体。

  • operators (可选[字典[字符串,操作员配置]]) – 要用于匿名化的操作员。操作员允许对检测到的个人敏感信息进行自定义匿名化。了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/

  • languages_config (可选[字典]) – NLP引擎的配置。列表中的第一个语言将作为self.anonymize(...)指定无语言时的主要语言。了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/

  • faker_seed (可选[整数]) – 初始化faker时使用的种子。默认值为None,此时faker将随机播种并生成随机值。

  • add_default_faker_operators (布尔值) –

属性

anonymizer_mapping

返回匿名化映射。这是匿名化映射的逆版本。

deanonymizer_mapping

返回匿名化映射

方法

__init__([analyzed_fields, operators, ...])

param analyzed_fields

要检测和匿名化的字段列表。

add_operators(operators)

向匿名化器添加操作员

add_recognizer(recognizer)

向分析器添加一个识别器

anonymize(text[, language, allow_list])

匿名化文本。

deanonymize(text_to_deanonymize[, ...])

解匿名化文本

load_deanonymizer_mapping(file_path)

从JSON或YAML文件加载解匿名化映射。

reset_deanonymizer_mapping()

重置解匿名化映射

save_deanonymizer_mapping(file_path)

将解匿名化映射保存到JSON或YAML文件。

__init__(analyzed_fields: Optional[List[str]] = None, operators: Optional[Dict[str, OperatorConfig]] = None, languages_config: Optional[Dict] = None, add_default_faker_operators: bool = True, faker_seed: Optional[int] = None)[source]
参数
  • analyzed_fields (可选[列表[字符串]]) – 要检测和匿名化的字段列表。默认值为微软Presidio支持的所有实体。

  • operators (可选[字典[字符串,操作员配置]]) – 要用于匿名化的操作员。操作员允许对检测到的个人敏感信息进行自定义匿名化。了解更多: https://microsoft.github.io/presidio/tutorial/10_simple_anonymization/

  • languages_config (可选[字典]) – NLP引擎的配置。列表中的第一个语言将作为self.anonymize(...)指定无语言时的主要语言。了解更多: https://microsoft.github.io/presidio/analyzer/customizing_nlp_models/

  • faker_seed (可选[整数]) – 初始化faker时使用的种子。默认值为None,此时faker将随机播种并生成随机值。

  • add_default_faker_operators (布尔值) –

add_operators(operators: Dict[str, OperatorConfig]) None

向匿名化器添加操作员

参数

operators (Dict[str, OperatorConfig]) – 需要添加到匿名化器的操作符。

返回类型

None

add_recognizer(recognizer: EntityRecognizer) None

向分析器添加一个识别器

参数

recognizer (EntityRecognizer) – 需要添加到分析器的识别器。

返回类型

None

anonymize(text: str, language: Optional[str] = None, allow_list: Optional[List[str]] = None) str

匿名化文本。

参数
  • text (str) –

  • language (Optional[str]) –

  • allow_list (Optional[List[str]]) –

返回类型

str

deanonymize(text_to_deanonymize: str, deanonymizer_matching_strategy: ~typing.Callable[[str, ~typing.Dict[str, ~typing.Dict[str, str]]], str] = <function exact_matching_strategy>) str

解匿名化文本

参数
  • text_to_deanonymize (str) –

  • deanonymizer_matching_strategy (Callable[[str, Dict[str, Dict[str, str]]], str]) –

返回类型

str

load_deanonymizer_mapping(file_path: Union[Path, str]) None[source]

从JSON或YAML文件加载解匿名化映射。

参数

file_path (Union[Path, str]) – 加载映射的文件路径。

返回类型

None

示例:.. code-block:: python

anonymizer.load_deanonymizer_mapping(file_path="path/mapping.json")

reset_deanonymizer_mapping() None[source]

重置解匿名化映射

返回类型

None

save_deanonymizer_mapping(file_path: Union[Path, str]) None[source]

将解匿名化映射保存到JSON或YAML文件。

参数

file_path (Union[Path, str]) – 保存映射的文件路径。

返回类型

None

示例:.. code-block:: python

anonymizer.save_deanonymizer_mapping(file_path="path/mapping.json")

使用 PresidioReversibleAnonymizer 的示例