阿里云starrocks（阿里云盘tv版）

admin 379 2023-04-04

阿里云服务器优惠多，折扣错，惊喜多，请咨询：www.wqiis.com

本文目录一览：

1、starrocks部分服务器挂了不能写数据
2、StarRocks#StarRocks(表设计概述)
3、5分钟搞定MySQL/PostgreSQL/Oracle到StarRocks数据迁移同步-CloudCanal实战

starrocks部分服务器挂了不能写数据

存档文件名称不符合。

starrocks部分服务器无法识别存档位置才会出现这样的情况，系统必须要有英文的存档文件才行。必须是英文字母开头的，这样才能完全识别。最有效的办法就是重新安装操作系统，安装系统的时候，把我的文档改成英文名，只要是英文字母开头就可以。

去官网下载4820T的32位驱动和应用程序（4745除了显卡驱动用32位4820的显卡驱动，其他的用原来的64位驱动就可以。如果全用4820T的32位驱动也可以。

StarRocks#StarRocks(表设计概述)

StarRocks中, 一张表的列可以分为维度列(也成为key列)和指标列(value列), 维度列用于分组和排序, 指标列可通过聚合函数SUM, COUNT, MIN, MAX, REPLACE, HLL_UNION, BITMAP_UNION等累加起来. 因此, StarRocks的表也可以认为是多维的key到多维指标的映射。

在StarRocks中, 表中数据按列存储, 物理上, 一列数据会经过分块编码压缩等操作, 然后持久化于非易失设备, 但在逻辑上, 一列数据可以看成由相同类型的元素构成的数组. 一行数据的所有列在各自的列数组中保持对齐, 即拥有相同的数组下标, 该下标称之为序号或者行号. 该序号是隐式, 不需要存储的, 表中的所有行按照维度列, 做多重排序, 排序后的位置就是该行的行号。

查询时, 如果指定了维度列的等值条件或者范围条件, 并且这些条件中维度列可构成表维度列的前缀, 则可以利用数据的有序性, 使用range-scan快速锁定目标行. 例如: 对于表table1: (event_day, siteid, citycode, username)➜(pv); 当查询条件为event_day 2020-09-18 and siteid = 2, 则可以使用范围查找; 如果指定条件为citycode = 4 and username in ["Andy", "Boby", "Christian", "StarRocks"], 则无法使用范围查找。

我的理解是shortkey index表是表的行对应的其起始维度的key。这些key也是存储在不同的行上，列式存储？？但是维度列的前缀是什么意思？？怎么对应行号的（Per-column cardinal index）？？？

StarRocks的排序键对比传统的主键具有:

需要注意的点：

一般用明细模型来处理的场景有如下特点：

注意事项

在数据分析领域，有很多需要对数据进行统计和汇总操作的场景：

原理：

StarRocks会将指标列按照相同维度列进行聚合。当多条数据具有相同的维度时，StarRocks会把指标进行聚合。从而能够减少查询时所需要的处理的数据量，进而提升查询的效率。

由于存储引擎会为主键建立索引，而在导入数据时会把主键索引加载在内存中，所以主键模型对内存的要求比较高，还不适合主键特别多的场景。目前primary主键存储在内存中，为防止滥用造成内存占满，限制主键字段长度全部加起来编码后不能超过127字节。目前比较适合的两个场景是：

原有的表模型整体上采用了读时合并(Merge-On-Read)的策略，写入时处理简单高效，但是读取(查询)时需要在线合并多版本。由于Merge算子的存在使得谓词无法下推和索引无法使用，严重影响了查询性能。而主键模型通过主键约束，保证同一个主键下仅存在一条记录，这样就完全避免了Merge操作。

StarRocks中为加速查询，在内部组织并存储数据时，会把表中数据按照指定的列进行排序，这部分用于排序的列（可以是一个或多个列），可以称之为Sort Key。明细模型中Sort Key就是指定的用于排序的列（即 DUPLICATE KEY 指定的列），聚合模型中Sort Key列就是用于聚合的列（即 AGGREGATE KEY 指定的列），更新模型中Sort Key就是指定的满足唯一性约束的列（即 UNIQUE KEY 指定的列）。

如何选择排序列

适用场景

Bloom Filter（布隆过滤器）是用于判断某个元素是否在一个集合中的数据结构，优点是空间效率和时间效率都比较高，缺点是有一定的误判率。

适用场景

理解StarRocks表设计 @ StarRocks_table_design @ StarRocks Docs

5分钟搞定MySQL/PostgreSQL/Oracle到StarRocks数据迁移同步-CloudCanal实战

CloudCanal 2.1.0.x 版本开始支持 StarRocks 作为对端的数据迁移同步能力

本文通过 MySQL-StarRocks 的数据迁移同步案例简要介绍这个源端的能力。链路特点：

StarRocks 提供了多种导入方式。CloudCanal 采用了 StreamLoad 的方式进行导入，源端的消息会转成字节流，通过 HTTP 协议发往 StarRocks。

相比直接通过 SQL 写入的方式，StreamLoad 方式会有更好的性能，写入的数据直接经 FE 转发给 BE 处理。如果直接采用 SQL 写入，在 FE 侧，会有额外的 SQL 解析开销。

CloudCanal 提供了 StreamLoad 可配置的丰富参数，包括：

过快的写入会导致 StarRocks 来不及 compaction，从而产生异常。CloudCanal 提供了两个任务参数，支持在一批数据写入后自动停顿一段时间，避免这种问题。参数为：

CloudCanal 任务详情页，点击参数修改，即可调整

StarRocks 作为实时数仓，采用主键模型或者聚合模型较多。CloudCanal默认采用主键模型，能够实时同步源端的 INSERT / UPDATE / DELETE 。

基于 StreamLoad 的写入方式，实际写入对端的操作均为 INSERT。CloudCanal 同步时会自动将 UPDATE/DELETE 转成INSERT语句，并修改 __ops 值，StarRocks 会自动进行compaction。

StarRocks 不支持 \n 等特殊符号写入，CloudCanal 任务通过参数设置( enableEscape 参数) 开启自动转义。

对于高流量的场景，建议使用 4G 及以上的任务规格配置，并且对相关参数进行调优，调优建立在任务无 GC 问题、对端 StarRocks 没有 compaction 瓶颈的情况下。

本文简单介绍了如何使用 CloudCanal 进行MySQL到StarRocks 的数据迁移同步。各位读者朋友，如果你觉得还不错，请点赞、评论加转发吧。

默认任务参数配置下，如果导入数据过于频繁可能会任务异常，这时候可以调节上文提到的fullBatchWaitTimeMs和increBatchWaitTimeMs参数或者调整StarRocks的Server侧的合并策略。下图为StarRocks官方提供的常见问题FAQ

CloudCanal-免费好用的企业级数据同步工具，欢迎品鉴。

了解更多产品可以查看官方网站：

CloudCanal社区：

阿里云starrocks（阿里云盘tv版）

标签：阿里云starrocks