【GDM版本】:3.1.0
【操作系统】:Linux
【CPU】: Intel i7-7800x 12核
【数据集】Twitter-2010(点4千万,边14亿,无属性)
【问题描述】:
------------------这里是示例补充-----------------
以twitter的测试数据集为例,原始数据(twitter_rv.net)截取前5行,打开效果如下。
12 13
12 14
12 15
12 16
12 17
在经过建模和清洗后,得到两份文件:vertex.csv和relation.csv。
:ID:String:False:A
12
13
14
15
16
17
:ID:String:False:A,source:String:False,target:String:False
1,12,13
2,12,14
3,12,15
4,12,16
5,12,17
注意:
- 需要为清晰的csv文件添加标题,以便装载程序识别;
- 分隔符不做特殊限制,此处采用英文逗号作为列数据分隔符,也可采用其他分隔符号,但须保证该符号未在数据(值)中出现;
- 分隔符必须是单个文件内统一的,比如标题采用英文逗号分隔列,则数据之间也须保持一致;
- 在清洗关系时,需要为数据赋ID。
为上述清洗完成的数据文件编写导入配置如下。
[virtual.csv]
table_type=3
table_name=graph
[vertex.csv]
table_type=4
table_name=vertex
parent_name=graph
col_separator=,
[relation.csv]
table_type=5
table_name=relation
parent_name=graph
begin_label_name=vertex
end_label_name=vertex
col_separator=,
完成上述工作后,将数据配置文件与数据文件存放在相同目录下,执行gstore-loader并调用配置文件即可实现GDMBASE的离线数据装载。
感谢您的提问,希望我接下来的回答能给到您帮助。
一、数据清洗规则要求
点文件示例:
点数据文件示例
边文件示例
边数据文件示例
二、编写数据配置文件
数据配置示例
关键配置项说明
三、离线装载
前置条件
执行装载流程