0%

年初(2018)接受 DTalk 社区访谈 ,对“大多数企业怎样把大数据落地变现?”这个问题,我当时是这么回答的:

我理解的大数据落地变现有两大模式,一种是基于大数据技术,另一种是基于已有的数据资产。大体有如下几种方式:

  1. 输出平台型技术能力,通过给企业建设大数据平台来变现;
  2. 输出大数据处理技术和应用产品,比如把企业内部的BI、应用/用户分析、营销监测、数仓应用等产品进行商业化输出或者通过数据建模咨询和实施来变现。
  3. 基于数据的闭环服务变现,如营销方向的广告精准推送、金融领域的风控服务等。
  4. 咨询类的数据报告,针对不同领域提供对客户有价值的分析及数据报告等。
  5. 数据交易。
Read more »

最近在看 Stonebraker“Readings in Database Systems”, 发觉开拓了很多思路。

这么多年自己一直在从事大数据方面的工作,但除了翻过数据挖掘算法和分布式系统设计方面的论文外,完全没想过去翻翻数据库相关的论文看。现在想想,其实大数据和数据库两者很多需求和场景是一致的,要解决的问题,没准学术界很多年前就已经有方案了。

Read more »

We have a legacy system, which is a web service, receives HTTP POST from clients, parses the data, then stores them in a file.

The function of the system is simple, and people already done functional and performance test, it's stable. As time drifted away, the system was copy and paste to some projects by only changing the data parsing logic.

Read more »

In last blog post, a hadoop distribution is built to run a YARN job.

1
2
3
4
$ bin/hadoop jar share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.2.0.jar \
org.apache.hadoop.yarn.applications.distributedshell.Client -jar \
share/hadoop/yarn/hadoop-yarn-applications-distributedshell-2.2.0.jar \
-shell_command 'date' -shell_args "-u" -num_containers 2
Read more »