数据迁移方案
目录
1.数据迁移概述
2
2.旧系统数据采集
2
2.1
线下全量拷贝
2
2.
2
线上增量复制
2
3.
数据整理
2
3
.1
数据备份
2
3
.2
数据核实
3
3
.3
数据补录
3
3.4数据校验
3
4数据清洗
3
4
.1
数据清洗流程
3
4
.2
数据清洗全过程监控
4
4
.3
异常数据处理
4
4
.
4
重复数据
5
5
数据转换整合
5
5
.1旧系统数据字典整理
5
5
.2旧系统数据质量分析
5
5
.3新系统数据字典整理
5
5
.4新旧系统数据差异分析
6
5
.5
建立新旧系统数据之间的映射关系
6
5
.6新旧系统数据整合
7
6
数据迁移
8
6
.1数据迁移基础数据
8
6
.2数据迁移实施路径
8
6.
3数据迁移实施进度计划
11
6
.4主要风险及防范措施
11
5
.
5
数据迁移保障措施
12
7
系统切换
12
7.1系统切换准备工作
12
7.2系统切换方法
12
7.3系统切换方式分析
13
7.4系统回退方案
13
1.数据迁移概述
对现有
X单位
应用系统管理的数据资源进行摸排,根据信息资源标准规范进行数据导入和格式转换,统一整理和合并重复数据,协助各
X单位工作人员
对数据进行检查和复核,保
证数据的准确性,保证平台在历史数据集基础上稳定运行。
2.旧系统数据采集
旧系统数据采集是指对
XX单位
系统中的基础信息
资源、业务信息资源等数据进行
采集获取,结合
XXX单位
建设实际情况,本项目中可采
用以下两种数据采集方式。
2.1
线下全量拷贝
利用现有各系统中存储设备的操作系统命令在系统停机状态下直接拷贝要迁移的
全量数据至移动硬盘等移动存储介质中,并将拷贝的数据经过整理、清洗、转换、验证
与测试等操作后在新建
XX单位
系统上进行复用。
2.
2
线上增量复制
新建
XX单位
系统上线后,通过第三方数据同步工具从原各
X单位
系统中增量复制自上次全量拷贝时间节点以来新增、修改、删除的数据,同样针对增量复制的数据经过整理、清洗、转换、验证与测试等操作后在新建
XX单位
系统上进行复用。线上增量复制的数据需要通过新旧系统之间的网络进行传输,因此须具备高可靠性的网络传输环境。
3.
数据整理
结合实际业务扩展情况整理新系统数据字典。整理工作包括表结构整理、表内数据生成和校验规则整理、表间关系整理、表间数据校验规则整理、二级代码表整理、分库分表规则整理等,可划分为数据备份、数据核实、数据补录、数据校验四个环节。数据
整理工作同时依托数据整理工具和人工操作来实现。
3
.1
数据备份
在数据整理前必须对旧系统数据进行备份,一是建立统一的数据库便于数据转换,二是保证历史数据的可追溯性。一旦在新系统中业务办理出现问题,则可以通过追溯历史数据来判断是数据资源整合错误,还是新系统程序存在问题。此外,数据迁移过程可能是一个往复的过程,必须对每个阶段的迁移结果做备份,以追溯新的业务经办系统对
迁移结果的经办过程。
3
.2
数据核实
个人基础数据主要包括姓名、性别、编号、民族和出生日期等,必须保证基础信息的准确和完整。将业务部门个人基础数据与
X部门
权威数据进行比对以保证基础信息的准确性。具体做法:业务单位个人基础信息与
X单位
基础信息进行逐一比对,比对一致确认为正确信息;比对不一致的信息,打印采集表通过业务部门反馈给个人进行确认,
需要修改的信息要求相关部门出具有效证明,
相应单位进行核实修改。
编制自动核对程序对数据进行核对,根据核对结果将数据分为三类:一、核对无误;
二、核对出现错误,转为人工核对;三、完全需要人工核对的,打印数据核对表并提交工作人员核对数据。
3
.3
数据补录
数据补录针对旧系统没有收录的
X单位
指标体系要求及新系统中需要扩充的业务数据,这些数据多数是非电子格式或非结构数据,或者旧系统中已收录但数据结构和格式与新系统相差太大,无法通过数据整理工具整合,需对这些数据进行人工补录或通过工具软件转换补录到新系统中。数据补录工作在数据整理工作中是一项重要的、独立的工作任务,需要有人工或数据补录软件支持本项工作的完成,必须将其放在同软件设计开发同等重要的位置。
3.4数据校验
数据校验是为保证数据的完整性进行的一种验证操作。用一种指定的算法对
原始数
据
计算出一个校验值,接收方用同样的算法计算一次校验值,如果两次计算得到的检验
值相同,则说明数据是完整的。
4数据清洗
4
.1
数据清洗流程
对于数据迁移过程中的
“
脏数据
”
,需要进行数据过滤清洗。
“
脏数据
”
主要包括:不
完整的数据、错误的数据、重复的数据等几类,经过数据结构分析,通过数据整合工具
的数据清洗功能,实现数据自动或手动清洗,为数
据整合提供完整规范的数据。
数据清洗分为以下几步:
1.
元素化
将非标准的数据格式化成标准的结构化数据。
2.
标准化
根据元数据进行数据元素标准化。
3.
校验
对标准化的元素进行一致性校验,即在内容上修改错误。
4.
匹配
在其他记录中寻找相似的记录,发现重复记录。
5.
消除重复记录
根据匹配结果进行处理,删除部分记录或者合并
多个记录为一个完整信息的记录。
6.
归档
归档整理完成的数据。
图
:
数据清洗流程
4
.2
数据清洗全过程监控
本次项目涉及
XXX单位
多个系统的业务数据清洗,需提供可视化工具,对数
据清洗的全过程进行监控。
数据清洗工具提供清洗过程全程可视化监控,包括数据映射,数据转换及数据装载等,同时提供数据清洗全程的日志进行详细记录,确保数据清洗过程中出现异常时有源可查,保障系统运行。
4
.3
异常数据处理
数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。由于编码和标准规范不统一等问题,数据中可能存在
一些无效值和缺失值,需要给予适当的处理。
1.
残缺数据处理
大多数情况下,缺失的数据信息必须手工填入(即手工清理)。某些缺失信息也可
以从本数据源或其他数据源推导出来。
2.
错误数据
用统计分析的方法识别可能的错误数据或异常数据,如偏差分析、识别不遵守分布或回归方程的值,也可以用简单规则库(常识性规则、业务特定规则等)检查数据值,
或使用不同属性间的约束、外部的数据来检测和清理数据。
4
.
4
重复数据
数据库中属性值相同的记录被认为是重复记录,通过判断记录间的属性值是否相等
来检测记录是否相同,相同的记录可合并为一条
记录(即合并
/
清除)。
5
数据转换整合
5
.1旧系统数据字典整理
数据转换工作开展之前,需要收集和整理旧系统数据字典。数据字典包括个人基本
信息、单位基本信息等全部业务数据的字典。
数据字典整理具体工作包括字典代表整理、表结构整理、表内数据生成和校验规则
整理、表间关系整理、表间数据校验规则整理等。
5
.2旧系统数据质量分析
对现有数据进行质量分析,提出数据补充采集方案,制定数据转换方案,进行数据转换的设计开发等。
1.
XXX单位
与数据迁移人员制定数
据整理和校验的一致方案,共同制订校验
规则和标准;
2.
数据迁移人员根据校验规则对旧系统数据进行校验,编写《数据质量分析报告》;
3.
XXX单位
将当前系统中的错误数据进行
整改、采集缺失的数据;
4.
XXX单位
将数据结果修正到旧系统中,需要严格校验数据是否符合校验要
求、是否符合数据迁移标准;
5.
如果存在问题数据,继续回到错误数据所在系统进行维护,完成后继续通过检查
程序进行验证;
6.
全部都完成校验和修改后,进入系统数据迁移的准备阶段。
5
.3新系统数据字典整理
结合实际业务扩展情况整理新系统数据字典。具体整理工作包括:表结构整理、表内数据生成和校验规则整理、表间关系整理、表间数据校验规则整理、二级代码表整理
等、分库分表规则整理等。
5
.4新旧系统数据差异分析
分析旧系统数据库设计方案和数据构成,分析新系统的数据库设
计方案和数据结构,
整理新旧系统数据库设计方案的差异和数据库表结构的设计差异,形成《新旧系统数据
库差异分析报告》,为新系统之间的数据对照和数据转换提供支持。
新旧系统数据分析按子系统进行,多个系统共享的数据库表统一进行差异分析。数
据差异分析具体内容应该包括:数据组成、数据来源、数据用途、分库方案、分表方案、
交换要求等。
5
.5
建立新旧系统数据之间的映射关系
通过新旧系统数据指标差异,以及数据整理结果,建立新旧系统之间的映射关系,
编写《新旧系统数据映射对照表》。
新旧系统数据间的映射关系应该包括:表间映射关系、表字段映射关系、二级代码映射关系、数据自动补全规则等。
利用可视化映射组件支持多种数据映射规则,根据映射规则与数据转换规则实现数
据转换。数据映射规则如下图所示:
图
:
数据映射规则
数据转换支持多源数据映射关系,采用图形化的配置界面构建数据转换模型,对于
分布式的、多源异构数据库,支持字符集转换、数据类
型转换、记录拆分、记录合并、汉字拼音转换、参照转换、空值判断、日期转换、聚集运算等多种转换方式,保证数据
库的正确性、准确性、同一性。
5
.6新旧系统数据整合
1.
数据整合方式
数据整合目前有如下
3
种方式:
(
1
)采用专业数据整合工具,并可根据业务适当定制,满足数据整合的通用需求
与个性化需求。
(
2
)开发数据整合的程序,利用程序进行数据整合。
(
3
)其他数据整合方式。
数据整合的几种方式之中,采用专业数据整合工具进行数据整合的方式较为理想,
整合效率高且功能强大,本项目宜采用数据整合工具,按照统一的标准与规范进行整合。
数据整合工具原则上需在配置好相应的参数之后自动运行,并支持整合策略的配置。
2.
数据整合工具
数据整合工具包括可视化数据映射、数据转
换、监控管理、安全加密、数据整合、
平台内核等六部分,其构架如下图所示:
图
:
数据整合工具结构
数据整合工具体系架构如下:
(
1
)数据映射组件:用于对数据整合流程以及数据映
射关系进行可视化建模,提
供映射关系自动分析,支持手工纠错,完全可视化
的界面,操作简易方便。
(
2
)监控管理组件:用于提供监控数据整合执行过程的功能,并可以配置数据整
合的执行策略,如定时执行、周期执行等。
(
3
)数据转换组件:根据数据映射规则,数据转换规则,进行数据转换。整个转
换过程提供可视化监控,配合日志,可轻松地掌握整个转换过程。
(
4
)数据整合组件:整合多来源数据。
(
5
)数据安全加密组件,用于对需要传输和有安全需求的数据进行加密,确保其
在传输过程中的安全。
(
6
)数据整合工具的内核采用微内核原理设计,采用
XML
解析器实现引擎
构建。
其协作过程是根据业务需求,使用映射组件开发数据整合过程,将其发布为批处理
文件。使用转换组件调用批处理文件,实现自动化执行。通过可视化的监控管理组件实现运行情况的全程监控。
3.
数据整合内容
XXX单位
整合的内容主要包括
“
基础信息、业务数据和共
享数据
”
三个类别,
根据业务需求与数据来源采用适宜的数据汇集与整合方式进行数据整合,支持业务应用,
数据整合的内容具体如下:
(
1
)基础信息资源是指标识人员、单位、标准等基本属性和基本状态,在业务办
理中保持相对稳定的信息资源。
(
2
)业务经办信息资源是指在
X单位
各类业务办理过程中产生的,直接支持
X
省
XX单位
平台各项业务办理和对外服务的信息资源。
(
3
)共享数据主要包括对外共享数据和外部接入数据。
6
数据迁移
6
.1数据迁移基础数据
根据
XX单位
现有系统调研,目前
X单位
和
X单位
部署的软件系统共计
X
,其中
X单位
统一部署的系统数据在
X单位
存储,本项目仅考虑
X单位
侧部署系统相关数据的迁移。
6
.2数据迁移实施路径
数据迁移涉及每个时期、每个阶段以及每个对象的基础数据、业务数据以及政策法规数据等,数据涉及面广、数据来源复杂。如何保证数据迁移过程中数据的完整性和正确性,特别是保障对象(人员和单位)的基础数据的准确性和完整性,不但是数据转换
工作的重点,也是数据转换工作的难点。
1
、数据迁移流程
(
1
)详细说明待迁移的数据源,包括数据的存放方式、数据量、数据的时间跨度;
(
2
)编写数据转换的测试计划和校验计划;
(
3
)识别迁移的内容(包括具体的业务内容及时间段的数据
),
评估各种迁移数
据的记录数据所用的存储空间;
(
4
)编制《数据分析报告》;
(
5
)制定数据转换的详细实施步骤;
(
6
)准备数据迁移环境;
(
7
)测试数据迁移涉及的技术;
(
8
)实施数据迁移;
(
9
)数据迁移后的校验;
(
10
)数据迁移方案的再设计和处理性能优化。
2
、制定数据迁移的实施方案和应急方案
数据迁移人员和用户明确制定如何转换数据的具体策略。针对不匹配和可能存在问题的数据进行细致沟通,制订针对每项问题数据的具体迁移原则及迁移方案。形成《数
据迁移方案》《数据迁移校验方案》以及《应急方案》。
用户确认旧系统数据已经完成信息修正后,交付数据迁移人员确认数据结果,如果
具备转换条件,则进入数据迁移阶段。
数据迁移人员根据旧系统数据结构和关系等
信息,形成转换迁移的具体执行命令。
转换内容和保留原则需要用户方确认。
同时,数据转换过程中需要对转换工作提供质量保障措施。
(
1
)全员统一思想,加强认识,加强责任心,避免由于人为疏忽带来的数据质量
问题,另一方面加大数据核对工作,将现有数据与原有系统数据进行核对,以保
证基础
的正确性;
(
2
)增强采集数据的正确性;
(
3
)在数据转换过程中,加大数据测试力度,保证原始数据正确无误地转换过来。
对于数据正确性的验证,可以采用两种方式:一是采取新旧系统数据对比;二是通过新
系统来测试转换数据的正确性。
3
、模拟数据迁移
通过多次模拟数据迁移,校验数据转换结果的准确性,以及掌握迁移一次的周期,
为以后的正式迁移做好风险估计,提高正式转换的准确性、安全性。
模拟数据迁移次数越多,数据迁移的质量会越高,由
于一次模拟数据转换比较耗时,
因此进行过多的次数也会降低数据迁移的效率,因此一定要使每一次的数据迁移的
效果
达到最好。
通过《数据迁移校验方案》的方法进行数据转换的校验。
对于校验出来的问题需要有
BUG
列表进行记载,并分类为数据转换脚本问题、源
数据问题、软件程序问题等等
为了使每次模拟数据迁移的效果达到最好,在模拟迁移后,校验出来的问题,通过
修改数据转换脚本,同时给数据打补丁,直到本次转换检
查出来的问题修改结束。
在每次模拟数据迁移结束后,出一份《模拟数据转换报告》用来说明本次迁移的目的,迁移总共用去了多少时间,主要存在的问题等等。
4
、运行数据迁移
在多次模拟数据迁移后,数据迁移的准确性和稳定性都已经可靠,数据迁移就符合了系统试运行条件,在其他试运行条件都符合要求后,系统开始试运行,首先则必须做
新旧系统的切换,进行最后的正式数据迁移。
试运行数据迁移涉及用户停办业务系统,以及停办业务系统需要多长时间。因此务必沟通确认好停系统的时点和停多长时间。停系统务必在一个业务周期结束后进行,不能在业务周期之间进行,而且要保证各个系统的业务周期一致,这样数据的状态才能保
持一致。
检查试运行正式迁移的环境是否符合要求,例如:内存、
表空间、磁盘空间等等。
5
、数据正式迁移
步骤和试运行数据迁移基本一致。确定数据采集时点,确定负责人;
数据备份工作时点,确定负责人;
确定数据转换、校验时点,确定负责人;
正式进行数据迁移;
做好数据迁移后的验证工作,包括明细验证和总数验证。
6
、检查转换与迁移后数据的完整性与正确性
完成数据转换与迁移后,需要原数据使用方的用户协同一起进行转换后的数据验证。
首先,通过统一的数据验证工具,实现参保人数、待遇享受人数、统筹支付金额等多个维度的关键信息的新旧系统的一致性,也可指定周期,与现有的统计报表进行比对
分析。
第二,也可在旧系统和新系统中,模拟同一笔业务进行
业务结果的一致性验证。
第三,尤其是涉及参保人员待遇享受情况和待遇计算情况的,可对关键算法、基金
支出情况、起付线等关键数据的测算结果进行验证。
同时数据的完整性和验证性也是数据转换实施方案中的重要
内容。在每次实施转换
方案后,都需要进行验证。
6.
3数据迁移实施进度计划
针对
XXX单位
项目中的数据迁移工作将历时
X
个月完成,在进行数据迁移实
施工作前须完成相关
IT
基础设施平台的搭建和网络及相关接口的打通,具体迁移实施
进度计划如下:
1
、第一个月,完成旧系统数据的线下全量拷贝、数据整理、清洗、转换整合等工
作;
2
、第二个月,完成
3
次模拟迁移演练,每次模拟迁移演练历
时
10
天;
3
、第三个月,完成正式迁移工作与系统切换工作。
6
.4主要风险及防范措施
根据已往的数据整合及迁移工作经验,数据迁移中可能遇到问题及相关解决方案总
结归纳如下:
迁移保障措施表表
风险
风险估计
保障措施
数据及系统迁移的组织
缺乏统一的组织管理体系,协调工作难以开展。
在系统建设初期即成立专项工作小组,明确责任到人,明确需要进行配合的各方人员,制定系统切换领导小组工作计划与工作内容。
数据及系统迁移计划
数据及系统迁移计划不能按时执行导致系统建设延期。
明确系统迁移各阶段里程碑,定期召开系统切换工作组会议,系统切换参与人员编写工作日志、进度报告,建立数据及系统迁移跟踪机制和快速反应机制,根据系统迁移过程中出现的问题实时调整工作计划与工作内容。
原数据库设
计资料缺失
风险
原有数据库设计无法获取,影响数据迁移工作
对数据结构、系统配置参数、开发接口等的情况非常熟悉和了解,此项工作在系统建设中,不具有风险因素。
数据迁移中的风险
数据迁移过程中可能出现破坏原始数据资源的问题
数据切换使用的原始数据资源必须与生产数据库相互隔离,上线后原始数据也需备份留存。
5
.
5
数据迁移保障措施
数据在整个转换过程中,安全、平稳过渡是第一位的,需要采用如下措施保证数据
资源迁移安全:
(
1
)数据备份
迁移前,对旧系统数据进行备份以保证历史数据的可追溯性,该保障措施在数据整
理阶段完成。
(
2
)数据测试
数据测试分为两个层次测试,一个是数据监测性测试,就是在数据迁移完成后,测试数据的转换正确性;二是验证性测试,验证性测试通过功能测试的新系统办理实际业
务来验证数据迁移的正确性。在实际操作中,可以通过试运行新系统的功能模块,特别是查询、报表功能,检查数据的准确性;或者先将新系统的数据恢复到旧系统迁移前一天的状态,然后将最后一天发生在旧系统上的业务全部补录到新系统,检查有无异常,
并和旧系统比较最终产生的结果
数据测试是一个关键环节,关系到系统切换的成功与否,所以必须加大测试力度来保证数据迁移的正确性。而与数据测试相关的系统功能测试也必须重视,因为如果系统
功能存在问题,则数据测试也就无法保证正确性。
7
系统切换
7.1系统切换准备工作
在进行系统切换前,须完成以下准备工作:
1
、针对数据迁移和系统切换工作须提前给相关单位进行通告。
2
、针对数据迁移和系统切换工作须在数据迁移的模拟演练开始之前向司法厅及各
下辖单位发布相关接口标准。
3
、针对系统切换工作须在全省各种媒体进行宣传通告。
7.2系统切换方法
1.
直接切换法
在某一确定时间,旧系统停止运行,新系统投入运行,新系统一般要经过较详细的测试和模拟运行。这种方法的优点是转换过程简单快捷,使用的费用也很低;缺点是使
用这种转换方法具有很大的风险。
2.
并行切换法
在新系统投入运行时,旧系统并不停止运行,而是与新系统同时运行一段时间,对
照两者的输出,利用旧系统对新系统进行检验
经过一段时间后在验证新系统处理准确可靠后,旧系统停止运行。这种方法缺点是费用和工作量都很大,优点是安全保险,能
够更多地保存可能丢失的数据。
3.
试点过渡法
先选用新系统的某一部分代替旧系统作为试点逐步地代替整个旧系统。这种方法优
点简单安全,成本也很低,缺点是可能存在新旧系统出现冲突的情况。
7.3系统切换方式分析
XXX单位
涉及的业务及相关联的内外部系统很多。在系统切换时,本项目采用
“
直接切换法
”
。新系统在投入运行前,必须经过详细的测试和模拟运行,验证新系统处理准确可靠,将风险降低到最低,并做出
详细风险预案后,方可上线切换运行。
系统切换还需要考虑,在系统部署培训和数据迁移方案准备充分的前提下,选择一
个时间段(根据项目实施具体情况,确定需要
两天或者三天
),
完成新系统的切换使用,
届时将暂停该
X单位
各业务系统,新入监犯人可在系统切
换完成后进行补录处理。
7.4系统回退方案
本次数据迁移使用了全新的硬件系统,包括全新的数据库服务器、存储设备等,因此,不需要在原有数据库平台上执行任何修改的操作,如果在系统切换过程中,因为种
种原因导致无法成功,仅需要启用原有系统,继续提供服务即可。
在系统切换完成,新系统正式上线投入使用后,因为
新的数据已经进入了新的系统,
如果此时发现重大问题导致系统无法使用,则需要将新数据重新导出再导入旧系统,启
用旧系统重新提供服务即可。
数据迁移方案.docx