Alex的博客

big-data

发表于2017-12-24 hadoop

MapReduce MapReduce它是属于并发计算，MapReduce是一个海量数据分流处理技术，自身是基于hadoop平台 ###传统Hash应用流量分发选择key对象（cookie、随机值等） Hash（） % max 对应到不同机器一致性哈希算法设计目标是为了解决英特网中的热点（hot spot）问题分而治之最基本的海量技术思想大数据两—按数据划分早起搜索引擎中的网页存储系统，单机存储数千万网页，几十亿的网页需要通过几百台单机服务器存储，url为key 分布式文件系统，按block(64-256M)来话费组织文件大流量—按流量划分覆盖的大流量互联网服务南方流量分到电信机房，北方流量分到联通机房搜索引擎将query作为key来划分大计算—按输入数据，划分计算任务 MapReduce按输入数据来划分 ###云计算技术难点单机系统变为分布式集群系统稳定性和容错能力数据一致性弱一致强一致难点：任何消息存在丢失的可能任何单机存在故障的风险 MapReduce简介 MapReduce ...

big-data

未读

Centos主副节点linux环境搭建

发表于2017-12-24 hadoop

centos主副节点linux环境搭建 linux centos6.5安装（略） VMvare 安装一台以后克隆两台做负节点机器网络环境配置默认只用桥接网络即可上网，缺点是自动分配ip会存在局域网内ip冲突建立局域网DHCP网络 vm菜案：编辑->虚拟网络编辑器删除默认vm8网络添加vm8网络选择NAT模式（不用修改，系统会自动生成）点击应用、确定 vm左下角网络图标先切回桥接模式初始化网络，ok以后再切回NAT模式进入虚拟机配置网络12cd /etc/sysconfig/network-scripts/vi ifcfg-eth0 配置参数123456789101112EVICE="eth0"BOOTPROTO="static"#HWADDR="00:0C:29:86:2D:28"#IPV6INIT="yes"#NM_CONTROLLED="yes"ONBOOT="yes"#TYPE="Ethernet"#UUID= ...

big-data

未读

Hadoop集群安装

发表于2017-12-24 hadoop

hadoop集群安装centos6.5安装（略）环境要求 linux环境3台（一主两副）可上网 ###安装步骤安装JDK 添加虚拟机本机文件目录共享启动虚拟机，进入虚拟机机器开始配置安装共享文件目录：/mnt/hgfs 安装jdk123cp jdk-6u45-linux-x64.bin /usr/local/src/cd /usr/local/src./jdk-6u45-linux-x64.bin ##执行安装，看到done表示安装完成配置jdk环境变量12345678910## 编辑环境变量vi ~/.bashrc## 文件末尾加入export JAVA_HOME=/usr/local/src/jdk1.6.0_45export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/libexport PATH=$PATH:$JAVA_HOME/bin## 执行加载配置source ~/.bashrc 同理安装剩下两台配置环境变量安装hadoop 复制hadoop文件到/usr/local/src 解压文件tar -zxvf hadoop-1. ...

big-data

未读

Hadoop常见问题

发表于2017-12-24 hadoop

hadoop常见问题-put 上传文件失败报错错误代码123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960616217/12/24 11:14:21 WARN hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: java.io.IOException: File /t.txt could only be replicated to 0 nodes, instead of 1 at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1920) at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java: ...

big-data

未读

Hadoop生态圈

发表于2017-12-24 hadoop

hadoop生态圈生态圈图 HDFS: 分布式文件存储 Hbase(key-val) 分布式存储数据库数据计算框架 MapReduce 执行计算任务。需要自己写代码，负责计算，不负责存储 MapReduce做离线，Strom适合做实时 Strom：处理流式数据 Hive sql语言，执行Hive时调用Mapreduce做查询 Mahout 查询，算法封装 RDBMS Online Engine 例如线上推荐引擎 Zookeeper 选择主副节点，hadoop1.0没有引入，2.0引入 ###应用举例示例图 QPS:每秒处理相应请求数

big-data

未读

推荐系统

发表于2017-12-24 hadoop

推荐系统给予人口统计推荐基于内容推荐电影相似度物品元数据电影格式：年代、片名、描述、类别、清洁、角色基于协同过滤的推荐推荐系统原则：在合适的场景，合适的时机，通过合适的渠道，把合适的内容推给合适的用户推荐系统的作用提升用户忠诚：让用户习惯提升用户粘性：让用户喜欢提升销售额：整体营销收入提升交叉销售：发现用户更多需求，满足其需求销售更多相关服务提升长尾销售：市场虽小，但数量众多提升毛利：商家业务目标 Rating Prediction （平分预测） Top-N Recommendation （Top-N推荐）推荐系统怎么样才算好？交互设计要好从数据角度：质量要很高,占30% 从领域知识的角度从模型的角度什么时候需要推荐系统？系统过载？足够反馈搜索无法解决的搜索引擎 vs 推荐系统搜索 vs 推荐能用关键词描述需求不知道自己需要什么或者难以描述互补逛（移动端）数据显示反馈红星、垃圾桶问题样本少评分不靠谱数据隐式反馈：隐式数据收集浏览点击购买 ...

big-data

未读

Hadoop集群搭建

发表于2017-12-10 hadoop

hadoop集群搭建 centos安装、网络配置 java安装 1234#vi ~/.bashrcexport JAVA_HOME=/usr/local/src/jdk1.6.0_45export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/libexport PATH=$PATH:$JAVA_HOME/bin hadoop安装配置解压安装包tar -zxvf hadoop-1.2.1-bin.tar.gz 配置123456789101112131415161718192021222324252627282930313233343536cd /usr/local/src/hadoop-1.2.1/conf# vi mastersmaster# vi slavesslave1slave2# vi core-site.xml<configuration> <property> <name>hadoop.tmp.dir</name> <value>/usr/local ...

big-data

未读

中文分词

发表于2017-12-10 hadoop

中文分词登陆词:词表里面有的未登录次: 词表外的词正想切词反向切词切分词图有向无环图(DAG) 贝斯公式

big-data

未读

Hadoop集群搭建

发表于2017-12-10 hadoop

链接八斗：面试技巧视频：链接：https://pan.baidu.com/s/1eTDoQeY 密码：seek预习视频：http://svip.badouxueyuan.cn/space.php预习视频：http://v.badouxueyuan.cn/space.php?do=video&cid=5三期视频：http://three.badouxueyuan.cn/space.php?do=video&cid=8三期学长分享：远程调试hdfs 链接：https://pan.baidu.com/s/1i6WfTIl 密码：yy8m八斗ppt：链接：https://pan.baidu.com/s/1dFVWVbb 密码：u7br八斗工具包和资料：资料合集：下载地址：http://pan.baidu.com/s/1qXLALFu 密码：bm9e八斗五期直播：https://pan.baidu.com/s/1kVkr7ef 密码：qsdw所有的代码链接：https://pan.baidu.com/s/1i54Dx7B 密码：k3tv代码，工具，软件包。链接：https:// ...

linux

未读

Centos7 Bash: Fuser: Command Not Found 解决办法

发表于2017-12-07 linux centos7

title: centos7 bash: fuser: command not found 解决办法category: linuxtag :centos7 centOs7 bash: fuser: command not found 解决办法提示没有fuser 需要安装psmisc 123456789Psmisc软件包包含三个帮助管理/proc目录的程序。安装下列程序: fuser, killall,pstree和pstree.x11(到pstree的链接)简短说明fuser 显示使用指定文件或者文件系统的进程的PID。killall 杀死某个名字的进程，它向运行指定命令的所有进程发出信号。pstree 树型显示当前运行的进程。pstree.x11 与pstree功能相同，只是在退出前需要确认。Psmisc 安装依赖关系Psmisc 依赖于: Bash, Binutils, Coreutils, Diffutils, GCC, Gettext, Glibc, Grep, Make, Ncurses, Sed. 安装psmisc1yum install psmisc cent ...