MapReduce
MapReduce它是属于并发计算,MapReduce是一个海量数据分流处理技术,自身是基于hadoop平台
###传统Hash应用 流量分发
选择key对象(cookie、随机值等)
Hash() % max
对应到不同机器
一致性哈希算法设计目标是为了解决英特网中的热点(hot spot)问题
分而治之 最基本的海量技术思想
大数据两—按数据划分
早起搜索引擎中的网页存储系统,单机存储数千万网页,几十亿的网页需要通过几百台单机服务器存储,url为key
分布式文件系统,按block(64-256M)来话费组织文件
大流量—按流量划分
覆盖的大流量互联网服务
南方流量分到电信机房,北方流量分到联通机房
搜索引擎将query作为key来划分
大计算—按输入数据,划分计算任务
MapReduce按输入数据来划分
###云计算技术难点
单机系统变为分布式集群系统
稳定性和容错能力
数据一致性
弱一致
强一致
难点:
任何消息存在丢失的可能
任何单机存在故障的风险
MapReduce简介
MapReduce ...
big-data
未读centos主副节点linux环境搭建
linux centos6.5安装(略)
VMvare 安装一台以后克隆两台做负节点机器
网络环境配置
默认只用桥接网络即可上网,缺点是自动分配ip会存在局域网内ip冲突
建立局域网DHCP网络
vm菜案:编辑->虚拟网络编辑器
删除默认vm8网络
添加vm8网络
选择NAT模式(不用修改,系统会自动生成)点击应用 、 确定
vm左下角网络图标先切回桥接模式初始化网络,ok以后再切回NAT模式
进入虚拟机配置网络12cd /etc/sysconfig/network-scripts/vi ifcfg-eth0
配置参数123456789101112EVICE="eth0"BOOTPROTO="static"#HWADDR="00:0C:29:86:2D:28"#IPV6INIT="yes"#NM_CONTROLLED="yes"ONBOOT="yes"#TYPE="Ethernet"#UUID= ...
big-data
未读hadoop集群安装centos6.5安装
(略)
环境要求
linux环境3台(一主两副)可上网
###安装步骤
安装JDK
添加虚拟机本机文件目录共享
启动虚拟机,进入虚拟机机器开始配置安装
共享文件目录:/mnt/hgfs
安装jdk123cp jdk-6u45-linux-x64.bin /usr/local/src/cd /usr/local/src./jdk-6u45-linux-x64.bin ##执行安装 ,看到done表示安装完成
配置jdk环境变量12345678910## 编辑环境变量vi ~/.bashrc## 文件末尾加入export JAVA_HOME=/usr/local/src/jdk1.6.0_45export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/libexport PATH=$PATH:$JAVA_HOME/bin## 执行加载配置source ~/.bashrc
同理安装剩下两台配置环境变量
安装hadoop
复制hadoop文件到/usr/local/src
解压文件tar -zxvf hadoop-1. ...
big-data
未读hadoop常见问题-put 上传文件失败报错
错误代码123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616217/12/24 11:14:21 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /t.txt could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1920) at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java: ...
推荐系统
给予人口统计推荐
基于内容推荐
电影相似度
物品元数据
电影格式:年代、片名、描述、类别、清洁、角色
基于协同过滤的推荐
推荐系统原则:
在合适的场景,合适的时机,通过合适的渠道,把合适的内容推给合适的用户
推荐系统的作用
提升用户忠诚:让用户习惯
提升用户粘性:让用户喜欢
提升销售额:整体营销收入
提升交叉销售:发现用户更多需求,满足其需求销售更多相关服务
提升长尾销售:市场虽小,但数量众多
提升毛利:商家业务目标
Rating Prediction (平分预测)
Top-N Recommendation (Top-N推荐)
推荐系统怎么样才算好?
交互设计要好
从数据角度:质量要很高,占30%
从领域知识的角度
从模型的角度
什么时候需要推荐系统?
系统过载?
足够反馈
搜索无法解决的
搜索引擎 vs 推荐系统
搜索 vs 推荐
能用关键词描述需求
不知道自己需要什么或者难以描述
互补
逛(移动端)
数据 显示反馈
红星、垃圾桶
问题
样本少
评分不靠谱
数据 隐式反馈:隐式数据收集
浏览
点击
购买
...
big-data
未读hadoop集群搭建
centos安装、网络配置
java安装
1234#vi ~/.bashrcexport JAVA_HOME=/usr/local/src/jdk1.6.0_45export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/libexport PATH=$PATH:$JAVA_HOME/bin
hadoop安装配置
解压安装包tar -zxvf hadoop-1.2.1-bin.tar.gz
配置123456789101112131415161718192021222324252627282930313233343536cd /usr/local/src/hadoop-1.2.1/conf# vi mastersmaster# vi slavesslave1slave2# vi core-site.xml<configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/local ...
big-data
未读链接八斗:面试技巧视频:链接:https://pan.baidu.com/s/1eTDoQeY 密码:seek预习视频:http://svip.badouxueyuan.cn/space.php预习视频:http://v.badouxueyuan.cn/space.php?do=video&cid=5三期视频:http://three.badouxueyuan.cn/space.php?do=video&cid=8三期学长分享:远程调试hdfs 链接:https://pan.baidu.com/s/1i6WfTIl 密码:yy8m八斗ppt:链接:https://pan.baidu.com/s/1dFVWVbb 密码:u7br八斗工具包和资料:资料合集:下载地址:http://pan.baidu.com/s/1qXLALFu 密码:bm9e八斗五期直播:https://pan.baidu.com/s/1kVkr7ef 密码:qsdw所有的代码链接:https://pan.baidu.com/s/1i54Dx7B 密码:k3tv代码,工具,软件包 。链接:https:// ...
title: centos7 bash: fuser: command not found 解决办法category: linuxtag :centos7
centOs7 bash: fuser: command not found 解决办法
提示没有fuser 需要安装psmisc 123456789Psmisc软件包包含三个帮助管理/proc目录的程序。安装下列程序: fuser, killall,pstree和pstree.x11(到pstree的链接)简短说明fuser 显示使用指定文件或者文件系统的进程的PID。killall 杀死某个名字的进程,它向运行指定命令的所有进程发出信号。pstree 树型显示当前运行的进程。pstree.x11 与pstree功能相同,只是在退出前需要确认。Psmisc 安装依赖关系Psmisc 依赖于: Bash, Binutils, Coreutils, Diffutils, GCC, Gettext, Glibc, Grep, Make, Ncurses, Sed.
安装psmisc1yum install psmisc
cent ...