数据接入规范-日志和文件
修订历史
日期
修改说明
部门
修改人
数据接入需求
基于数据采集需求,初步判断数据的接入源是否可以从日志和文件进行获取。联系技术研发部同事,请求数据源接入的位置参数,通过配置化方式定期读取服务器指定位置的日志和文件,通过程序清洗日志,分割成字段装载到数据仓库贴源层。
数据接入流程
1.数据中心分析组接到TAPD数据接入需求之后,分析接入数据属于数据接口列表的哪个系统,在对应的系统标题下添加模板,参照APP-app_login_log。
和需求发起人进行沟通,确定提供数据的方式(数据库、文件、接口等),让需求发起人补充详细的数据口径,补充到需求要求里面,指定数据仓库组或平台组的一个人进行转发。
2.数据仓库组或平台组根据需求描述。跟数据源提供方(可以是需求发起方、也可以是技术研发部门)沟通,让其补充模板里的位置参数。
3.数据源提供方根据模板要求,提供位置配置参数。
4.数据仓库组或平台组在接入数据后,整理数据格式,编写日志清洗转换脚本,并补充装载目标表信息。
5.数据中心分析组对最终接入的数据进行验收,并通知需求发起人如何获得接入数据。
数据源接入模板
需求要求(分析组补充)
tapd需求单号:1002513
提起人:xxx(Richard.chen)
需求单号内容:
???
提供数据方式:
数据库、文件、接口
详细的数据口径:???
位置配置参数(技术研发部补充)
配置参数
参数取值
服务器地址
192.168.1.1
端口类型
ftp
端口号
系统用户名
user
密码
pwd
日志路径
日志文件通配符
xxx/yyyymmdd/AppLog
app_login_log_[yyyymmdd].json
日志内容分割规则
文字描述
接入模型字段(仓库组补充)
字段名
注释
字段类型
必填
必填
必填
必填
必填
必填
抽取参数(仓库组补充)
配置参数
参数取值
抽数周期
每天
抽数时间
7:00
文件名匹配条件
1:全量匹配抽取(匹配通配符即抽取)
2:日期匹配抽取(仅抽取通配符日期字段匹配数据日期条件的文件)
数据日期格式
Yyyymmdd
Yyyy-mm-dd
数据日期条件
1:上一天日期
2:当前时间日期
3:当前时间归属周周日
4:当前时间归属月一号
日志清洗转换脚本(仓库组补填)
补充脚本位置即可,如t8t-bi-dsc\log-app\log-app.py
装载目标表(仓库组补填)
配置参数
参数取值
stg层表名称
必填
stg层表描述
必填
ods层表名称
必填
ods层表描述
必填
数据接口列表
PC
H5
APP
app_login_log
l
需求单号(分析组补充)
tapd需求单号:xxxxxxx
提起人:xxx(Richard.chen)
l
位置配置参数(技术研发部补充)
配置参数
参数取值
服务器地址
192.168.1.1
端口类型
ftp
端口号
系统用户名
user
密码
pwd
日志路径
日志文件通配符
xxx/yyyymmdd/AppLog
app_login_log_[yyyymmdd].json
日志内容分割规则
文字描述
l
接入模型字段(仓库组补充)
字段名
注释
字段类型
必填
必填
必填
必填
必填
必填
l
抽取参数(仓库组补充)
配置参数
参数取值
抽数周期
每天
抽数时间
7:00
文件名匹配条件
1:全量匹配抽取(匹配通配符即抽取)
2:日期匹配抽取(仅抽取通配符日期字段匹配数据日期条件的文件)
数据日期格式
Yyyymmdd
Yyyy-mm-dd
数据日期条件
1:上一天日期
2:当前时间日期
3:当前时间归属周周日
4:当前时间归属月一号
l
日志清洗转换脚本(仓库组补填)
补充脚本位置即可,如t8t-bi-dsc\log-app\log-app.py
l
装载目标表(仓库组补填)
配置参数
参数取值
stg层表名称
必填
stg层表描述
必填
ods层表名称
必填
ods层表描述
必填
app_diary_log
小程序