-
利用BI搭建零售业数据信息平台
所属栏目:[大数据] 日期:2021-03-07 热度:67
某百货公司是全市规模最大的以零售为主、多元化经营的股份制商业企业。拥有员工数千人,经营国内外品牌2300余种,年商品销售额逾10亿人元。 销售体量如此庞大的企业近几年在IT建设上出现了问题,集团内部的信息化数据有些跟不上业务扩张的步伐。虽然该集团很[详细]
-
基因数据处理70之Picard安装没成功
所属栏目:[大数据] 日期:2021-03-07 热度:90
1.下载: https://github.com/broadinstitute/picard.git 2.安装: hadoop@Master:~/xubo/tools/picard$ ant clone-htsjdkBuildfile: /home/hadoop/xubo/tools/picard/build.xmlclone-htsjdk: [exec] Cloning into 'htsjdk'... [echo] Checking out HTSJDK t[详细]
-
OBIEE RPD开发
所属栏目:[大数据] 日期:2021-03-07 热度:145
A parent-child hierarchy is a hierarchy of members that all have the same type. This contrasts?with level-based hierarchies,where members of the same type occur only at a single level of the?hierarchy. The most common real-life occurrence[详细]
-
推荐 | 9个最佳的大数据处理编程语言
所属栏目:[大数据] 日期:2021-03-06 热度:52
大数据的浪潮仍在继续。它渗透到了几乎所有的行业,信息像洪水一样地席卷企业,使得软件越发庞然大物,比如Excel看上去就变得越来越笨拙。数据处理不再无足轻重,并且对精密分析和强大又实时处理的需要变得前所未有的巨大。 那么,在巨大的数据集中进行筛选[详细]
-
基因数据处理36之qc-metrics安装
所属栏目:[大数据] 日期:2021-03-06 热度:59
更多代码请见:https://github.com/xubo245/SparkLearning Spark中组件Mllib的学习之基础概念篇 1解释 Read and variant metrics,useable for pipeline quality control purposes qc-metrics主要是用于read和变异的度量,流水线质量控制的目的 2.代码: git[详细]
-
基因数据处理34之使用samtools和bcftools进行变异分析
所属栏目:[大数据] 日期:2021-03-06 热度:152
1.指令: (1) samtools mpileup -vf Homo_sapiens_assembly19chr20 .fasta NA12878_snp_A2G_chr20_225058 .sorted .bam NA12878_snp_A2G_chr20_225058 .variants 或者: samtools mpileup -vf Homo_sapiens_assembly19chr20 .fasta NA12878_snp_A2G_chr20_[详细]
-
推荐系统技术 --- 文本相似性计算(二)
所属栏目:[大数据] 日期:2021-03-06 热度:153
第一篇地址:推荐系统技术之文本相似性计算(一) 上一篇中我们的小明已经中学毕业了,今天这一篇继续文本相似性的计算。 首先前一篇不能解决的问题是因为我们只是机械的计算了词的向量,并没有任何上下文的关系,所以思想还停留在机器层面,还没有到更高的[详细]
-
基因数据处理37之bdg-formats编译成功
所属栏目:[大数据] 日期:2021-03-06 热度:88
更多代码请见:https://github.com/xubo245/AdamLearning 1解释 bdg-formats是在spark平台上用avro定义的基因处理的数据格式,包括read、sam、vcf、databaseannotion在云平台上的格式,主要用于Adam系统中 2.代码: 【2】下载 编译: mvn clean package -Dsk[详细]
-
《hadoop进阶》PeopleRank从社交关系中挖掘价值用户
所属栏目:[大数据] 日期:2021-03-06 热度:166
转载请注明出处: 转载自? Thinkgamer的CSDN博客: blog.csdn.net/gamer_gyt 代码下载地址:点击查看 1:PageRank 与 PeopleRank 2:需求分析:挖掘CSDN博客的价值用户 3:算法模型:PeopleRank算法 4:架构设计:从数据准备到PR算法的MR化 5:程序开发:had[详细]
-
XTU 1247 Robb#39;s Problem
所属栏目:[大数据] 日期:2021-03-06 热度:127
Robb’s Problem [ Submit Code ] [ Top 20 Runs ] Acceteped : 48 ? Submit : 335 Time Limit : 1000 MS ? Memory Limit : 65536 KB ? Description Robb’s Problem 题目描述 Robb想知道阶乘 n ! 第 m 位数码是什么? 输入 第一行是一个整数 T , ( 1 ≤ T[详细]
-
基因数据处理38之dbSnpId到omimId的映射表
所属栏目:[大数据] 日期:2021-03-06 热度:169
1.下载: 首先收到【2】,来源是【2】 【1】中有描述: You can also get those SNPs with an OMIM ID number by downloading from the dbSNP FTP site: the OmimVarLocusIdSNP table contains the information you need for your organisim of interest (hu[详细]
-
基因数据处理39之mango安装记录
所属栏目:[大数据] 日期:2021-03-06 热度:182
更多代码请见:https://github.com/xubo245/AdamLearning 1解释 mango安装记录 mango主要是在adam上实现 可视化平台 A scalable genome browser 2.代码: git clone https: //github.com/bigdatagenomics/mango.git cd mangomvn clean package -DskipTests[详细]
-
Multiply Strings ---leetcode
所属栏目:[大数据] 日期:2021-03-02 热度:151
Given two numbers represented as strings,return multiplication of the numbers as a string. Note: The numbers can be arbitrarily large and are non-negative. Converting the input string to integer is? NOT ?allowed. You should? NOT ?use inter[详细]
-
大素数测试和大数素因子分解
所属栏目:[大数据] 日期:2021-03-01 热度:113
小黄书第19章p82页根据合数的拉宾-米勒测试可得到素数的必要条件。 参考资料。 以POJ1811 Prime Test 为例。 #includestdio.h#includemath.h#includestdlib.h#includealgorithmusing namespace std;typedef long long LL;const int S=20;LL pfact[10005],[详细]
-
从人性出发,5步挖掘用户需求
所属栏目:[大数据] 日期:2021-03-01 热度:53
做一个产品之前,常常最要做的就是挖掘用户的需求。也有了那些用户调研,市场分析,竞品分析等等,最后落地成产品功能。很多大拿都说过,要满足人性七宗罪等。但往往落实下来很难,感觉很虚,作者也迷茫了一段时间。恰巧这次美团架空了大众点评的事情,让作[详细]
-
数据处理的两个基本问题
所属栏目:[大数据] 日期:2021-03-01 热度:109
第八章 ? 本章概述 : 1. ????????? 计算机是进行数据处理、运算的机器,那么有两个基本的问题就包含在其中 : 1) ?? 处理的数据在什么地方? 2) ?? 要处理的数据有多长? 这两个问题,在机器指令中必须给以明确或隐含的说明,否则计算机就无法工作。 2. ???[详细]
-
如何将机器学习技术应用到文本挖掘中
所属栏目:[大数据] 日期:2021-03-01 热度:126
本挖掘典型地运用了机器学习技术,例如聚类,分类,关联规则,和预测建模。这些技术揭示潜在内容中的意义和关系。文本发掘应用于诸如竞争情报,生命科学,客户呼声,媒体和出版,法律和税收,法律实施,情感分析和趋势识别。 在本篇博客帖中,你将会学习到如[详细]
-
述符有多好和在特殊情况下如何考虑相似性等问题
所属栏目:[大数据] 日期:2021-03-01 热度:78
http://bb.iyaya.com/linyifan2006/riji-14417556.html http://bb.iyaya.com/2007121/riji-14417521.html http://bb.iyaya.com/132618hh/riji-14417543.html http://bb.iyaya.com/438586550/riji-14417544.html http://bb.iyaya.com/53231288/riji-14417546.[详细]
-
大数据分析技术生态圈一览
所属栏目:[大数据] 日期:2021-03-01 热度:163
大数据分析技术生态圈一览 人人都说大数据,但很多人对这个领域并非真正地了解。为了帮助你,我们决定制作这份厂商图标和目录。它并不是全面列出了这个领域的每家厂商,而是深入探讨大数据分析技术领域。我们希望这份资料新颖、实用。 作者: 来源:网络 | 2[详细]
-
医疗行业大数据应用案例(华大基因、大数据预测早产、大数据调配
所属栏目:[大数据] 日期:2021-03-01 热度:166
文章从华大基因推出肿瘤基因检测服务、大数据预测早产儿病情、广东省人民医院利用大数据调配床位3个医疗行业大数据应用案例中,以应用背景、数据源、图说场景、实现途径、应用效果5个视角去看待大数据在医疗的应用状况。 案例一:华大基因推出肿瘤基因检测服[详细]
-
搭建大数据处理集群(Hadoop,Spark,Hbase)
所属栏目:[大数据] 日期:2021-03-01 热度:96
搭建Hadoop集群 配置每台机器的 /etc/hosts保证每台机器之间可以互访。 120.94.158.190 master 120.94.158.191 secondMaster 1、创建hadoop用户 先创建hadoop组 sudo addgroup hadoop 然后再建一个hadoop用户加入到hadoop组,(前一个为组,后一个为用户) s[详细]
-
【杭电oj】1715 - 大菲波数(大数递推)
所属栏目:[大数据] 日期:2021-03-01 热度:128
点击打开题目 大菲波数 Time Limit: 1000/1000 MS (Java/Others)????Memory Limit: 32768/32768 K (Java/Others) Total Submission(s): 17138????Accepted Submission(s): 5689 Problem Description Fibonacci数列,定义如下: f(1)=f(2)=1 f(n)=f(n-1)+f(n-[详细]
-
数据处理---Spring Batch之基础
所属栏目:[大数据] 日期:2021-02-28 热度:132
? ? ? Spring框架提供了强大的底层结构,基于此,Spring出现了很多方面的应用。Spring Batch就是其一,它是一个轻量级的,完全面向Spring的批处理框架,可以应用于企业级大量的数据处理系统。Spring Batch以POJO和大家熟知的Spring框架为基础,使开发者更容[详细]
-
数据处理---Spring Batch之实践
所属栏目:[大数据] 日期:2021-02-28 热度:56
上面介绍了Spring Batch的基本概念和简单的demo项目,显然这些还是不够实际使用的。下面我们来更多的代码实践。 ? ? ? ? 在上面的基础项目上面,我们来更多的修改: ? ? ? ? 不用项目默认的hsql DB,用mysql,让ItemReader,ItemWriter 支持mysql; ? ? ? ? 支[详细]
-
Pentaho BI Server的启动过程详解(二)
所属栏目:[大数据] 日期:2021-02-28 热度:176
时隔好久现在接着上一篇来继续聊一下Pentaho BI Server的启动过程,今天主要讲的就一个类PentahoSystem。 软件版本 Pentaho BIServer 5.0.1-ce 关于PentahoSystem 在上一篇文章里已经介绍过在SolutionContextListener中当应用启动时分调用PentahoSystem的ini[详细]