基于文本分类的隐私政策合规性分析

VSole2022-05-26 05:56:31

介绍

本文针对GDPR中的第13章对隐私政策进行合规性研究。

GDPR第13章对APP隐私政策进行了以下如图1所示的9项规定,例如1. Collect Personal Info → Data Retention Period 代表如果APP要收集用户信息,则必须告知用户数据保留期限

图1

方法

图2

本文提出的方法如上图2所示,输入一篇隐私政策文本,首先进行文本分类,然后进行合规性验证,输出检测结果。

文本分类

对隐私政策文本的每个句子分为以下10类(1.收集个人信息CPI;2. 数据保存期限DRP;3.数据处理目的DPP;4.个人信息控制者的联系方式CD;5.用户的访问权RA;6.用户修改/销毁权PRE;7.用户限制对个人信息处理的权利RRP;8.用户拒绝处理数据的权利ROP;9.用户对数据的转移权利RDP;10.用户投诉权RLC):

图3

合规性验证

GDPR第13章的9项规定(图1)可以表示为“if A holds, then B must be satisfied”,A即“APP需要收集个人信息”,B即“隐私政策中需要向用户告知的内容”,其又可以进行如下表示(图4):

图4

也就是说,如果一个隐私政策是合规的,它要么“并未说明要收集用户个人信息”,要么“告知了用户所有必要内容”,于是通过第一步的文本分类任务可以直接进行合规性验证(文本分类任务中,第1类为“收集个人信息”,用于判断文本中是否有句子表明了要收集个人信息;第2-10类为隐私政策中需要告知用户的必要内容),即如果隐私政策合规,那么该隐私政策中的句子的预测标签要么不存在1,要么就要同时包含2-10

结果

本文用了SVM(将n-gram和tf-idf作为特征)、BiLSTM和BERT作为三个不同的分类模型,其结果如下图:

图5

文本分类文本分析
本作品采用《CC 协议》,转载必须注明作者和本文链接
从本专栏开始,作者正式研究Python深度学习、神经网络及人工智能相关知识。一.RNN文本分类1.RNN循环神经网络英文是Recurrent Neural Networks,简称RNN。假设有一组数据data0、data1、data2、data3,使用同一个神经网络预测它们,得到对应的结果。RNN常用于自然语言处理、机器翻译、语音识别、图像识别等领域。本文将采用词向量、TFIDF两种方式进行实验。
一.文本分类文本分类旨在对文本集按照一定的分类体系或标准进行自动分类标记,属于一种基于分类体系的自动分类。牛亚峰老师将传统的文本分类流程归纳如下图所示。在传统的文本分类中,基本上大部分机器学习方法都在文本分类领域有所应用。本文将采用词向量、TFIDF两种方式进行实验。
本文针对GDPR中的第13章对隐私政策进行合规性研究。 GDPR第13章对APP隐私政策进行了以下如图1所示的9项规定,例如1. Collect Personal Info → Data Retention Period 代表如果APP要收集用户信息,则必须告知用户数据保留期限
Python人工智能第10篇介绍TF实现CNN图像分类任务
AI安全论文第20篇是RAID19 Android位置数据(POI)泄露分析的译文,希望您喜欢
根据 MarketsandMarkets 公司 2018 年发布的《安全市场中人工智能》报告,全球人工智能赋能安全市场规模在 2017 年已达 39.2 亿美元,预计 2025 年将达到 348.1 亿美元,平均每年增长率超过 30%。
针对当前的入侵检测方法普遍存在准确率与泛化性较低的问题,提出了一种基于卷积神经网络(Convolutional Neural Network,CNN)和权重缩减门控循环单元(Weight Reduction Gated Recurrent Unit,WRGRU)的网络入侵检测模型(CNN-WRGRU)。该模型首先利用 CNN 进行入侵检测数据集的特征提取,其次利用 WRGRU 来学习数据特征之间的
AI服务层统一管理模型服务,服务上线推理之后由AI服务层统一对外提供服务。AI服务层支持不同模型服务的编排、模型服务的AB测试和模型服务的监控。
随着入侵者的攻击手段日趋智能化、复杂化,传统的机器学习技术对异常攻击行为的检测有效性在下降。近年来,深度学习以其独特的学习机制,利用大数据和高算力达到学习的高准确率。通过广泛的文献调查,目前已经有很多基于深度学习设计的入侵检测系统。本综述在对传统机器学习技术和深度学习技术进行对比后,详述了基于深度学习和数据集的入侵检测系统。
VSole
网络安全专家