gdmbase导入工具有3种方式:1、cypher-loader 支持全量/增量装载;2、cypher-import 支持全量/增量装载;3、loadcsv 通过客户端加载数据再以cypher语句的形式插入数据。导出工具: cypher-export 将图中的全部数据导出csv文件。导入导出的数据形式均为文本格式,例如csv、txt的文本数据。
cypher-loader手册讲解
cypher-loader 在安装目录/bin下进行启动执行 ,配置文件cypher-loader.yaml在安装目录/conf下
使用cypher-loader装载时会自动创建图、点边标签,因此只需按照配置文件填写即可。
影响性能的参数
segmentCount: 1 可以简单理解给一个图预分配的空间数,这个空间是随着数据量逐渐增长,增长到一定数据量会到达限制,因此需要提前评估数据量合理配置有利于提升装载速度,一般亿级以下配1就可以,10亿级以下可配3。配置文件中也有介绍如何估算。
poolSize: 1 线程池数,建议不易配置过大,一般物理cpu/4,过大会引起cpu负荷计算。
cacheMode: 0 小数据量用 0 ,亿级以上大数据量用分组模式。
#单文件读取线程,若配置多线程,建议配置4以上,10亿级以下数据量可用,若数据量较大,且机器cpu在64以上,可配8 4 4。
fileReadThread: 4
#单文件解析线程
fileParseThread: 2
#数据计算线程
dataCalculateThread: 2
complexTime: true 此配置一般配false即可,看下false下的支持的时间类型是否满足。
以下是yaml常规配置格式,包含点pk、点标签、点属性等等设定,这里注意下点pk的概念,简单理解就是一个逻辑的stringid 用于进行增量唯一校验,用此id查找百亿级的检索都是毫秒级返回,因此业务上有大数据量应用时可利用。常见的例如人的身份证号等。
cypher-import手册地址
其余cypher-loader取别主要在使用方式和表头的识别上,其余基本一致。用import工具需要配置csv文件的表头格式,cypher-loader的表头则是在yaml文件中配置。
示例数据
这里需要注意一下点pk长度,若超出配置长度会报错。
loadcsv手册
loadcsv属于一种小数据量级的客户端导入工具,可在命令行执行也可在web页面中执行。
调用说明需指明文件路径,是否有表头,若有会自动跳过第一行,详细的可看手册,简单易懂。
1、全量装载时,点的pk需要按照标签进行去重,全量装载时不会进行去重校验,若不去重用pk查的时候会有多个结果返回。
2、装载时需要确定点pk长度,长度过长会影响内存空间的扩充,且需要选对应支持的长度配置。
3、边若有增量的修改情况,建议给边也配置pk值,后续可利用边pk值进行增量更新。
export手册
执行时,按照参数调用即可
文章
阅读量
获赞