量化新手初识流数据表
发布日期:2021-05-07 14:14:31 浏览次数:11 分类:原创文章

本文共 674 字,大约阅读时间需要 2 分钟。

研究量化交易时遇到一个概念:流数据表。

  • 流数据(data stream)

    流数据是一组顺序、大量、快速、连续到达的数据序列。由多个(数千个)数据源持续生成的数据。

    数据流可被视为一个随时间延续而无限增长的动态数据集合。

    应用场景:网络监控、传感器网络、航空航天、气象测控、金融服务…

    此类数据需要按记录或根据滑动时间窗口按顺序进行递增式处理,可以解析出网站点击量、人员和实物的地理位置…以便迅速对新情况做出反应。

  • 流数据数据源

    据华为分类,流数据普遍产生于四个方面:

    1. 日志
    2. 物联网
    3. 车联网
    4. StreamingML
  • 流数据与量化交易

    比较常用的量化交易策略框架是基于事件驱动。

    而事件驱动的本质正好与流数据相切和:迅速对新情况做出反应。

    本质上,事件驱动的量化处理的是证券市场产生的日志。

  • 实时流计算

    实时流,指计算框架按事件逐条实时处理,ono-by-one的数据流;

    计算,指数学计算、数据分析、算法模型执行;

    实时流计算,指实时处理当下正在发生的流数据,逐条大数据分析或运行机器学习算法。

    数据分析越及时,价值越大。

    在这里插入图片描述

  • 流式处理和批处理

    介绍流数据的文章都会提到流式处理和批处理的区别。

    流处理:
    1. 实时处理大数据,秒到毫秒的延迟
    2. Spark、Flink、Storm
    3. 对滚动事件窗口内的数据或仅对最近的数据记录进行查询或处理
    4. 数据大小:单挑记录或包含几条记录的微批量数据
    5. 针对简单的响应函数、聚合、滚动指标
    批处理:
    1. 几分钟、几小时甚至一天及以上
    2. 对数据集中的所有或大部分数据进行查询或处理
    3. 数据大小:大批量数据
    4. 针对复杂分析
  • References


上一篇:量化中offer、bid、ask、best bid
下一篇:量化新手初识docker

发表评论

最新留言

路过,博主的博客真漂亮。。
[***.116.15.85]2025年03月29日 04时12分20秒