17 数据迁移

1 关系型数据库迁移

从基于关系型数据库应用迁移到 MongoDB 的理由

高并发需求 (数千 – 数十万 ops) ，关系型数据库不容易扩展
快速迭代 – 关系型模式太严谨
灵活的 JSON 模式
大数据量需求
地理位置查询
多数据中心跨地域部署

应用迁移难度

关系型到关系型 – 相对简单

Oracle -> MySQL, Oracle – PostgreSQL

关系型到文档型 – 相对复杂

Oracle -> MongoDB

需要考虑:

总体架构 (从单体式到分布式)
模式设计(从关系模型到文档模型)
SQL语句/存储过程/JDBC/ORM
数据迁移 (如何处理已有数据?)

总体架构

从单体到分布式，需要考虑:

3x 的计算资源
3x 的存储资源
网络

Alt Image Text

模式设计

针对已有关系模型，考虑如何用文档模型进行设计

Alt Image Text

迁移的主战场

Alt Image Text

RDBMS
- 存储过程
- 运维工具、脚本
- 权限设置
- 数据库监控备份及恢复
Storage Layer
- 典型的关系型数据库部署在 SAN 上 MongoDB支持 SAN, 但是使用本地存储
- 可以最大化的提高性能
JDBC
- MongoDB 没有原生态 JDBC, 而是采用自带的驱动程序:
  - 自带连接池管理
  - 事务支持
SQL
- MongoDB 不支持SQL的增删改，结果集也不是 ResultSet
ORM
- ORM: Object Relational Mapping 转换关系型到POJO对象模型
- 不需要，但是可以有ODM
- ODM:Object Document Model
  - Spring Data
  - mongoose

数据迁移

迁移时应用往往已经上线相当长一段时间，如何迁移这些数据到 MongoDB?

数据库导出+导入
批量迁移工具
实时同步工具
应用主导迁移

2 数据迁移方式及工具

数据迁移

如何迁移已有数据到 MongoDB?

Alt Image Text

1. 数据库导出导入

步骤:

停止现有的基于 RDBMS 的应用
使用 RDBMS 的数据库导出工具，将数据库表导出到 CSV 或者 JSON(如 mysqldump)
使用 mongoimport 将 CSV 或者 JSON 文件导入 MongoDB 数据库
启动新的 MongoDB 应用

备注:

适用于一次性数据迁移
需要应用/数据库下线，较长的下线时间

数据库导出导入: mysql - mongo

Alt Image Text

mysqldump

mysqldump -hdemodb.tapdata.net -uroot -p inventory -T /var/lib/mysql-files

-T excel :

Alt Image Text

# cat customers.txt

"1001","Sally","Thomas","sally.thomas@acme.com" 
"1002","George","Bailey",gbailey@foobar.com
...

# mongoimport -d xxx -c customers --type=csv --headerline customers.txt 
# mongoimport -d xxx -c products --type=csv --headerline products.txt 
# mongoimport -d xxx -c orders --type=csv --headerline orders.txt