能否提供较详细的图数据库GDM离线导入案例？

【GDM版本】:3.1.0
【操作系统】：Linux
【CPU】: Intel i7-7800x 12核
【数据集】Twitter-2010（点4千万，边14亿，无属性）
【问题描述】：

使用图数据GDM里自带的文档中提供的步骤，使用在线导入性能很差，平均1~2分钟才能导入1万边，全部导入完毕需要100天。
尝试使用离线导入，但是文档中提供的案例、步骤并不详细，一直导入失败。

回答 0

暂无回答

LuckyYoung

感谢您的提问，希望我接下来的回答能给到您帮助。

GDMBASE的离线装载主要分为三个环节：

数据清洗/准备；

编写数据配置文件；

执行装载；

一、数据清洗规则要求

清洗数据前，需要我们对图模型概念的有一定了解，结合待测数据完成建模工作。
离线装载支持csv格式的文本数据的导入。数据文件第一行作为数据表头，用于描述表结构，需满足以下表头规范：

点文件示例：

:ID:type:nullable:adflag,col_name1:col_type1:nullable,col_name2:col_type2:nullable

（1）如上所示，表头数据中，不同列之间的数据以英文逗号分隔，列内部列名、数据类型、是否可为空等信息则以英文冒号分隔。（也支持其他符号分隔，但不可设置相同）
（2）ID列必须在所有属性列前面。ID列前用冒号标识。
（3）关于表头nullable字段：为true表示该列值允许为空，为false表示该列值不允许为空。
（4）关于adflag：a代表升序（ascending），d代表降序（descending）。
（5）离线装载支持的数据类型有：Integer、Long、float、Double、String、Date、Boolean。

点数据文件示例

:ID:String:False:A,title:String:True,creationDate:date:True
1099511627777,Album 0 of Mahinda Perera,2010-05-12 10:31:59
1649267441666,Album 1 of Mahinda Perera,2010-08-19 02:17:35
6047313952771,Album 2 of Mahinda Perera,2011-12-27 06:09:17
3848290697220,Album 3 of Mahinda Perera,2011-04-26 12:29:37

边文件示例

:ID:String:False:A,source:String:False,target:String:False,prop:Float:True

其中:ID:String:False:A为固定写法，表示当前列为关系ID，第二列为起点ID，第三列为终点ID，后续列为属性列。

边数据文件示例

:ID:String:False:A,source:String:True,target:String:True,weight:String:True
10,2b29f13d75e9,53c27a35e90401,202718

二、编写数据配置文件

完成数据清洗后，根据实际数据模型，编写配置文件，命名为：cfg.ini

数据配置示例

[virtual.csv]
table_type=3
table_name=CertPerson

[Person.csv]
table_type=4
table_name=Person
parent_name=CertPerson
col_separator=,

[Phone.csv]
table_type=4
table_name=Phone
parent_name=CertPerson
col_separator=,

[Call.csv]
table_type=5
table_name=Call
parent_name=CertPerson
begin_label_name=Phone
end_label_name=Phone
col_separator=,

[Own.csv]
table_type=5
table_name=Own
parent_name=CertPerson
begin_label_name=Person
end_label_name=Phone
col_separator=,

关键配置项说明

每一个标签存放在一个数据文件中

Virtual.csv为虚拟文件，用于表示将数据装载到某个图中。根据实际情况，修改table_name为所需要的图名。

点文件配置项编写。Person.csv为点对应的文件名，table_type=4,表示当前文件数据为顶点数据，table_name表示标签名，parent_name表示当前顶点数据装载到哪一个图中。实际使用中，请保证该参数值与virtual.csv下的table_name一致。col_separator表示csv文件分隔符。

分隔符支持常见特殊符号，请保证分隔符所用符号在数据列中不存在，否则可能导致装载失败。

边文件配置项编写。Call.csv为边对应的文件名，table_type=5,表示当前文件数据为关系数据，table_name表示关系名称，begin_label_name与end_label_name分别表示起点标签与终点标签名，请确保该名称在当前数据集中存在。

按照如上方式，为所有待导入的csv文件编写导入配置。编写好cfg.ini配置文件后，将文件使用 Unix(LF) 换行符，并转换为UTF-8 编码，放置于数据集所在的目录下即完成离线装载的数据准备工作。

三、离线装载

前置条件

部署GDMBASE；

按照GDMBASE离线装载要求的数据格式清洗完成测试数据（csv文件）；

编写数据配置文件cfg.ini，并存放在数据文件同级目录下；

退出gstore进程，在离线状态下执行装载；

执行装载流程

切换到bin目录下，执行装载命令：

./gstore-loader -C {数据文件绝对路径}/cfg.ini -F

等待装载程序提示success后，表示装载已完成，输入exit退出装载进程；

分别启动gstore、gdm-server.sh和相关组件工具，即可执行测试。

一般地，推荐使用tmux窗口进行窗口管理，可保持窗口中的进程持续稳定运行，并可实时查看运行日志；也可以使用nohup命令，使进程在后台持续运行。

发布于 2022/11/25 14:38

LuckyYoung

------------------这里是示例补充-----------------

原始数据

以twitter的测试数据集为例，原始数据（twitter_rv.net）截取前5行，打开效果如下。

数据清洗

在经过建模和清洗后，得到两份文件：vertex.csv和relation.csv。

vertex.csv

:ID:String:False:A
12
13
14
15
16
17

relation.csv

:ID:String:False:A,source:String:False,target:String:False
1,12,13
2,12,14
3,12,15
4,12,16
5,12,17

注意：

需要为清晰的csv文件添加标题，以便装载程序识别；

分隔符不做特殊限制，此处采用英文逗号作为列数据分隔符，也可采用其他分隔符号，但须保证该符号未在数据（值）中出现；

分隔符必须是单个文件内统一的，比如标题采用英文逗号分隔列，则数据之间也须保持一致；

在清洗关系时，需要为数据赋ID。

数据配置文件

为上述清洗完成的数据文件编写导入配置如下。

[virtual.csv]
table_type=3
table_name=graph

[vertex.csv]
table_type=4
table_name=vertex
parent_name=graph
col_separator=,

[relation.csv]
table_type=5
table_name=relation
parent_name=graph
begin_label_name=vertex
end_label_name=vertex
col_separator=,

完成上述工作后，将数据配置文件与数据文件存放在相同目录下，执行gstore-loader并调用配置文件即可实现GDMBASE的离线数据装载。

发布于 2022/11/25 15:18