基于垃圾短信发往方向频次流量的大数据相关性分析

相关专题: 大数据 中国联通

秦保根,男,1985年毕业于南京邮电学院电信工程系,高级工程师,享受国务院特殊津贴,中国联通科技成果评审专家、结算专家、评标专家,江西联通高级经理。

摘要:

垃圾短信纷繁多样,给电信运营商的拦截带来极大的困扰,通过基于短信发往的所属本地网方向、频次及流量的垃圾短信大数据相关性分析,解决了这一难题,供各电信运营商参考。

作者简介:

1.前言

根据相关资料显示,仅有0.7%以下的用户表示没有收到过垃圾短信,用户每周平均收到的垃圾短信数量为12 条。此外,电信运营商每月退网用户中垃圾短信用户占近一半,并造成大量欠费,尤其是后付费用户漫游异地后,其话单记录需要过一定时间后,方能向其归属地发回账单,造成欠费!因此,依法治理垃圾短信,是促进社会主义政治文明及精神文明建设、构建和谐社会、净化社会环境、打击违法犯罪的必然需要,是保障人民群众合法权益的根本使然。

垃圾短信诈骗和传播违法短信等活动日益猖獗,主要表现如下:

假冒银行或银联名义发送手机违法短信进行诈骗或者敲诈勒索公私财物;

散布淫秽、色情、赌博、暴力、凶杀、恐怖内容或者教唆犯罪、传授犯罪方法;

非法销售枪支、弹药、爆炸物、走私车、毒品、迷魂药、淫秽物品、假钞、假发票或者明知是犯罪所得赃物;

发布假中奖、假婚介、假招聘,或者引诱、介绍他人卖淫嫖娼的;

多次发送干扰他人正常生活的,以及含有其他违反宪法、法律、行政法规禁止性规定的内容;

极少数境内外敌对势力、敌对分子和对社会心怀不满的人,编造、传播一些明显带有诽谤、煽动性内容的手机违法短信,企图破坏社会稳定。

2.建议的技术方案

2.1以前垃圾短信防范系统存在的缺点:

仅通过对短信关键字进行匹配识别拦截;

仅对某一时段超频发送短信的用户进行识别拦截。

以上方式,易造成对正常用户的误判,且对垃圾短信的识别量非常有限。

2.2 实施的组网及处理流程

为在公众通信网上,提高垃圾短信判别的准确率,大幅减少垃圾短信的传送,使经济诈骗、垃圾广告、不法短信传播得到及时的甄别堵截,建议如下的垃圾短信拦截方案:

垃圾短信判别系统组网图,如图1所示,判断可疑垃圾短信的流程,如图2所示。

3.实施的主要步骤

在此,我们首先定义“可疑短信接收方向”,它是指:在某一时间段内,某A地之某一电信运营商发往其他异地本地网(Bn地)短信数量X,若大于或接近其发往所在地(A地)的本地网短信数量Y,则该异地本地网(Bn地)称为“可疑短信接收方向”,“可疑短信接收方向”(Bn地)可能同时存在不止一个,即n>=1。比如:假设南昌联通(A)发往长沙(B1)、海口(B2)、东莞(B3)所有三个运营商(联通、电信及移动)的短信数量,若大于或接近其发往南昌本地三个运营商(联通、电信及移动)的短信数量,则长沙、海口、东莞称为“可疑短信接收方向”,如表1所示。

“可疑短信号码”:是指可疑短信接收方向的所有发信号码中,剔除电信运营商设定的白名单号码和吉祥号码后的发信号码。

具体来说:参照图1所示的可疑短信判别系统组网图,按照图2所示的判断可疑垃圾短信的流程,除重大节日:如春节、元宵、端午、中秋、国庆、元旦、五一、圣诞平安、情人节、父亲节、母亲节等外,垃圾短信分析判别服务器的短信话单采集模块,从短信中心采集短信话单,统计分析及判别模块分析某一个或多个时间段内超频发信号码的可疑短信接收方向及其可疑短信号码,对可疑垃圾短信方向发信号码的关联情况进行统计分析,再从计费帐务系统中提取该部分发信号码的用户信息资料进行鉴别,将判定为垃圾短信的号码列为黑名单,放入短信中心限制其短信发送,具体步骤如下:

步骤1,短信话单采集模块通过FTP从短信中心实时获得原始话单数据,对某一或多个时间段内(如每日8:00-12:00、13:00-17:00、19:00-23:00或按天等等)发信号码的超频短信话单(如在设定的某个时间段内超频发送100条以上短信,其他时间段超频发送短信数可以设定为150条等)进行分拣;

步骤2,可疑垃圾短信统计分析及判别模块,按本地网归属手机H码或小灵通长途区号统计短信接收数,将短信接收数大于或接近(如:50%以上)发信号码所在本地网的异地本地网(城市)列为可疑短信接收方向,在可疑短信接收方向的发信号码库中,剔除电信运营商设定的白名单号码和吉祥号码后,剩余部分列为可疑短信号码;

步骤3,分析可疑短信号码在所有可疑短信方向的短信发送数占该号码短信发送总数之比的数值,如该数值大于50%(如表2),则继续步骤4,否则返回到步骤1;

步骤4,从计费营帐系统中,调取该部分可疑短信号码的用户信息资料,进行鉴别,若同时所有设定条件:信用度为0、近期入网(如当月入网)、入网后极少接收短信(如接收短信少于三条)、且极少通话记录(剔除电信运营商免费客户号码通话记录后,通话记录少于三条),则将可疑短信号码定义为可疑垃圾短信号码,并继续往下,否则返回到步骤1;

步骤5,将可疑垃圾短信号码,列为黑名单,放入短信中心,在一定时间内(如七天或三个月等,根据具体规定设定),限制其短信发送,返回到步骤1。

鉴于部分垃圾短信发送方式越来越隐蔽和狡猾,对于实施以上规则后,仍没有截停的垃圾短信号码,可按照以下规则,予以二次过滤,提高拦截效果:

统计用户入网时间至6个月,以捕捉部分开卡时间和开始使用时间差较长的准预付费的“养卡”号码。

增加总量控制,加长统计时间,按如按某4个小时、6小时等区段统计,其累计发送总数量≥电信运营商设定的超频数量,如200条、300条、500条等,按上述步骤3判断分析。

个别真实的正常新入网用户,在入网后,会以短信方式告知亲朋好友,有可能被识别为垃圾短信用户,可采取对个别已错列黑名单的用户结合营帐系统中取得的通话、流量等正常使用行为情况进行复核,一旦出现正常通话和流量,则将该号码立即从黑名单中剔除。

电信运营商,应将垃圾短信黑名单用户拦截记录,提供给客服,便于投诉处理时的查询和解释。

通过以上二次过滤,再次提高垃圾短信的拦截质量和效率,有效率达到99%以上,目前拦截效果很好。

4.结束语

基于发送方向、频次流量的垃圾短信大数据相关性分析,通过采集某一个或多个时间段内超频发信号码的可疑短信接收方向、可疑短信号码,对可疑垃圾短信方向发信号码的关联情况进行统计分析,再从计费帐务系统中提取该部分发信号码的用户信息资料进行鉴别,将判定为垃圾短信的号码列为黑名单,放入短信中心限制其短信发送。该方法极大地提高垃圾短信判别的准确率,大幅减少垃圾短信的传送,使经济诈骗、垃圾广告、不法短信传播得到及时的甄别堵截。

作者:秦保根


微信扫描分享本文到朋友圈
扫码关注5G通信官方公众号,免费领取以下5G精品资料
  • 1、回复“YD5GAI”免费领取《中国移动:5G网络AI应用典型场景技术解决方案白皮书
  • 2、回复“5G6G”免费领取《5G_6G毫米波测试技术白皮书-2022_03-21
  • 3、回复“YD6G”免费领取《中国移动:6G至简无线接入网白皮书
  • 4、回复“LTBPS”免费领取《《中国联通5G终端白皮书》
  • 5、回复“ZGDX”免费领取《中国电信5GNTN技术白皮书
  • 6、回复“TXSB”免费领取《通信设备安装工程施工工艺图解
  • 7、回复“YDSL”免费领取《中国移动算力并网白皮书
  • 8、回复“5GX3”免费领取《R1623501-g605G的系统架构1
  • 本周热点本月热点

     

      最热通信招聘

      最新招聘信息

    最新技术文章

    最新论坛贴子