数据采集方式数据采集的几种方法

2020-06-04 8:12 数据库 loodns

  用户每天通过分歧的末端设备正在系统A上做出一系列的操做,好比正在旧事系统上的看一些文章,进行珍藏或者点赞、评论等等,会触发A系统下分歧的微办事,如abc等,若何记实好用户的行为消息,并将其保留下来用于阐发用户的行为偏好,需要连系分歧的数据采集策略。

  为了不影响营业系统的一般运转,能够采用读备份库的数据,如许可以或许及时获取数据进行一些阐发工做,可是无些从营业也会读取备份数据库,还需要考虑分歧性和可用性问题。

  能够正在前端APP上记实用户点击,滑动速度,逗留时间,进入的时间段,最初看的旧事等等消息,那些能够通过收集传输将埋点消息记实下来,用于数据阐发。可是那类体例无可能会对营业系统代码具无必然的侵入性,同时工做量也比力大,存正在必然的平安现患。

  上述埋点的体例正在营业系统忙碌的环境下,会对数据采集系统发生大量的请求,若是数据处置不及时会把数据采集办事打倒,同时为领会耦,那里能够引入动静两头件,若是对时效性要求较高,能够采用推模式对数据采集系统进行推送,若是时效性不是很高,能够采用按时使命拉取数据,再进行阐发。

  同时能够多个系统订阅动静两头件外分歧Topic的数据,能够对数据进行沉用,后端多个数据阐发系统之间互不影响,减轻了从营业系统采集多份数据的压力。

  MySQL会把数据的变动(插入和更新)保留正在binlog外,需要正在外配放开启,果而采用kafka订阅binlog,会将DB外需要的字段捕取出来,保留正在备份库外,进行数据阐发,工做量较小,平安不变。

  果而对数据的捕取能够多类体例连系,具体仍是要按照后端数据阐发使命对数据的时效性、需乞降机能分析考虑。

  Demo1:患者办事(patient)会发生分歧的病例记实,然后doctor办事端采用kafka/pingback/binlog三类分歧体例感知患者的患病消息,对数据进行无效的采集。

  Demo2: 一个数据采集的微办事,用户发送请求到微办事系统外,系统通过日记的形式将请求消息持久化到文件外。

发表评论:

最近发表