安居多伦多
  • 多市生活
    • 多市生活
    • 加国税务
    • 旅游度假
    • 生活安全
    • 行车安全
    • 窍门集锦
  • 多市书苑
    • 热门
    • 小说
    • 教育
  • 家居信息
    • 家居信息
    • 房屋保养
    • 房屋贷款
    • 房屋租赁
    • 房屋建筑
    • 房前屋后
    • 家居风水
  • 健康保健
    • 健康保健
    • 饮食起居
    • 食品安全
    • 健身锻炼
  • 书苑账户
    • 书苑登入
    • 书苑注册
    • 忘记书苑密码
    • 书苑账户信息
    • 关于我们
    • 联系我们
    • 隐私政策
多伦多书苑
在线书籍:随时阅读,随身听书。
所有书籍 | 人文 | 人物 | 人生 | 健康 | 儿童 | 医学 | 历史 | 历史 | 古典 | 哲学宗教 | 商业 | 外国 | 寓言 | 小说 | 教育 | 风水 | 管理 | 语言 |
为使本公益资源网站能继续提供免费阅读,请勿屏蔽广告。谢谢!报告弹出广告被滥用。
  1. 安居多伦多
  2. 网上书苑
  3. IT
  4. AI
  5. 机器学习实战

机器学习实战

2022-03-09 0人点赞 0条评论
点赞
x
语速1.0: 2.0
进度0:

上一页   |   返回目录   |   下一页

12.5 示例:从新闻网站点击流中挖掘

好了,本章的最后一个例子很酷,而你有可能正在想:“伙计,这个算法应该很快,因为只有1400条推文!”你的想法是正确的。下面在更大的文件上看下运行效果。在源数据集合中,有一个kosarak.dat文件,它包含将近100万条记录1。该文件中的每一行包含某个用户浏览过的新闻报道。一些用户只看过一篇报道,而有些用户看过2498篇报道。用户和报道被编码成整数,所以查看频繁项集很难得到更多的东西,但是该数据对于展示FP-growth算法的速度十分有效。

1. Hungarian online news portal clickstream retrieved July 11, 2011;

from Frequent Itemset Mining Dataset Repository,http://fimi.ua.ac.be/data/, donated by Ferenc Bodon.

首先,将数据集导入到列表:

>>> parsedDat = [line.split() for line in open('kosarak.dat').readlines()]接下来需要对初始集合格式化:

>>> initSet = fpGrowth.createInitSet(parsedDat)

然后构建FP树,并从中寻找那些至少被10万人浏览过的新闻报道。

>>> myFPtree, myHeaderTab = fpGrowth.createTree(initSet, 100000)

在我这台简陋的笔记本电脑上,构建树以及扫描100万行只需要几秒钟,这展示了FP-growth算法的强大威力。下面需要创建一个空列表来保存这些频繁项集:

>>> myFreqList = []>>> fpGrowth.mineTree(myFPtree, myHeaderTab, 100000, set([]), myFreqList)

接下来看下有多少新闻报道或报道集合曾经被10万或者更多的人浏览过:

>>> len(myFreqList)

9

总共有9个。下面看看都是哪些:

>>> myFreqList

[set(['1']), set(['1', '6']), set(['3']), set(['11', '3']), set(['11', '3','6']), set(['3', '6']), se可以使用其他设置来查看运行结果,比如降低置信度级别。

上一页   |   返回目录   |   下一页

类似书籍

Python机器学习实践指南
Python机器学习实践指南
Python机器学习手册:从数据预处理到深度学习
Python机器学习手册:从数据预处理到深度学习
Python机器学习——预测分析核心算法
Python机器学习——预测分析核心算法
Author:

标签: 暂无
最后更新:2022-03-09
< 上一篇

本书评论

取消回复

©2021 安居多伦多 - 版权所有

本站由 好事来 Hostlike.com 提供技术支持。