Apriori是经典的购物篮分析算法。该算法用SQL实现难度较大,所以考虑用C++实现。
花了两天,代码例如以下。原创转载请注明出处
//Apriori.c #include #include #include
眼下仅仅实现到产生频繁集合,支持度默认计数2。在g++环境下编译 g++ -g Apriori.c -o apr
測试数据例如以下:
4
3 I1 I2 I6
4 I1 I2 I3 I5
3 I2 I3 I7
5 I1 I3 I5 I6 I2
输出例如以下:
用ORACLE格式化数据导出成文件,C++处理后返回文件给ORACLE,传到推荐数据库中就可以完毕这个算法的全流程。
当然眼下还仅仅是儿童玩具,由于全部的数据都是放在内存里的,数据量一大这个代码就不有用了。
C++牛逼的地方在于能够直接调用linux底层的接口处理这一类问题。比方当内存不足时数据存到磁盘。我们这边内存有几十G。订单总量不超过1G。所以这个代码应该够用了,不够用时能够再扩展