前言
上一篇博客主要尝试了基于tslearn的单变量时间序列聚类,多变量时间序列的方法经过一番搜索也没有找到合适的方式,因此考虑借助强大的时间序列特征提取工具tsfresh与KMeans尝试多变量时间序列的聚类实验
基于日消费总额+日消费次数的时间序列聚类
一、tsfresh
tsfresh可以提取的时间序列特征数量相当全面,其中对特征的中文解读建议查看以下两篇博客:
- https://www.jianshu.com/p/de2f7d333b9f
- https://www.jianshu.com/p/073f2c0dab39
对具体如何使用还是得好好地啃官方文档:
- https://tsfresh.readthedocs.io/en/latest/
二、实验说明
实验利用日消费总额+日消费次数时间序列两个变量,首先基于tsfresh提取相关特征并利用Kmeans完成聚类
1.输入数据
源数据的格式如下:user, type, date1, date2, date3, …, daten,tsfresh对输入数据的格式有要求,所以首先需要对数据进行处理
import pandas as pd
def transform_data