PRIVACY-TEXT—IMAGE(section)

Citation Author(s):
Xiaoxu
Li
Submitted by:
Xiaoxu Li
Last updated:
Tue, 03/11/2025 - 02:37
DOI:
10.21227/02fa-nv65
Data Format:
License:
0
0 ratings - Please login to submit your rating.

Abstract 

Annotating the scene text in the PRIVATY-TEXT-IMAGE dataset was done in Adobe Photoshop.   To maintain the rationality of the annotation operation, the images' aesthetics, and the textures' consistency around the deleted text areas, we utilized the content-aware fill feature of Photoshop.   This feature can enhance intelligent editing and modification capabilities during the image processing, automatically analyze the image content around the private text areas, and generate matching filling content to make the images look more natural and complete.  

Instructions: 

隐私数据集文档

在图像隐私保护技术的研究方面,我们构建了一个名为 PRIVACY-TEXT-IMAGE 的真实场景隐私数据集。该数据集包含 2000 张图像,涵盖各种隐私类型,例如 ID 卡、银行卡、车牌、医疗记录和门牌号。它旨在增强模型检测和擦除复杂隐私文本的能力。

 

数据集未发布通知

重要提示:目前仅发布一小部分数据集用于有限的研究目的。由于其内容的敏感性和隐私考虑,完整数据集仍然受到限制。

 

限量出版的原因

隐私和道德风险:数据集包含大量真实的个人敏感信息(如身份证号、银行卡号、病历等)。直接公开发布可能导致个人隐私泄露,违反隐私保护规定(如 GDPR)。

数据敏感性:部分图片涉及真实场景下的隐私场景(如病历、身份证等)。公开发布后存在滥用风险,这可能会对个人或机构造成潜在伤害。

标注成本和复杂性:数据集的标注需要人工细致的处理。使用 Adobe Photoshop 的内容感知填充功能来保证注释的合理性和图像的美观性。费时费力,且涉及版权问题,因此暂时不支持大规模共享。

技术限制:数据集中的隐私文本背景复杂、字体多样、遮挡条件丰富,需要特定的预处理和标注规范,非专业人士可能无法有效利用。

 

数据集获取方法

如果您需要获取此数据集用于研究目的,请通过以下电子邮件与我们联系:

电子邮件:xiaoxuli379@gmail.com

我们将根据具体需求评估合作的可能性,并提供必要的技术支持。感谢您的理解和支持!

Dataset Files

    Files have not been uploaded for this dataset