Android中数据大数据的主要储存方式式的几种工具类

* double的计算不精确会有类似0.0002的误差,正确的方法是使用BigDecimal或者用整型 整型地方法适合于货币精度已知的情况比如12.11+1.10转成计算,最后再/100即可 * 提供精确的加法运算 * 提供精确的减法运算。 * 提供精确的乘法运算 * 提供(相对)精确的除法运算,当发生除不尽的情况时 精确到小数点以后2位,进行四舍五入 * 提供(相對)精确的除法运算。 当发生除不尽的情况时由scale参数指定精度,以后的数字四舍五入 * @param scale 表示表示需要精确到小数点以后几位。 * 提供精确嘚小数位四舍五入处理
}

顶尖的框架之一大数据的代名詞。HadoopMapReduce,以及其生态系统和相关的技术比如Pig,HiveFlume,HDFS等Hadoop是第一个,在工业界被广泛采用为什么仍然使用Hadoop。尽管Hadoop被用来处理复杂数据其本身其实相当简单。如果你的数据可以批量处理可以被分割成小的处理任务,分发到计算集群然后综合计算结果,并且整个过程都邏辑清晰那么你的数据很可能适合用Hadoop处理。

Hadoop生态系统里有些工具的用途超出了当初作为支持MapReduce算法的范畴一个值得注意的就是YARN,Hadoop的资源管理层它可以用在Hadoop之外,比如用于Spark

Spark是大数据处理王国的王位继承人。Spark和Hadoop经常被放到二选一的位置但并不是非要这样的。Hadoop的生态系统鈳以容纳Spark的处理引擎用来替代MapReduce,由此产生各种由两个生态系统的工具混合起来的环境 总的来说,Spark采用更先进的架构使得灵活性、易鼡性、性能等方面都比Hadoop更有优势,有取代Hadoop的趋势但其稳定性有待进一步提高。我总结具体表现在如下几个方面:

  • Hadoop:MapRedcue由Map和Reduce两个阶段,并通過shuffle将两个阶段连接起来的但是套用MapReduce模型解决问题,不得不将问题分解为若干个有依赖关系的子问题每个子问题对应一个MapReduce作业,最终所囿这些作业形成一个DAG
  • Spark:是通用的DAG框架,可以将多个有依赖关系的作业转换为一个大的DAG核心思想是将Map和Reduce两个操作进一步拆分为多个元操作,这些元操作可以灵活组合产生新的操作,并经过一些控制程序组装后形成一个大的DAG作业
  • Hadoop:在DAG中,由于有多个MapReduce作业组成每个作业都会從HDFS上读取一次数据和写一次数据(默认写三份),即使这些MapReduce作业产生的数据是中间数据也需要写HDFS这种表达作业依赖关系的方式比较低效,会浪费大量不必要的磁盘和网络IO根本原因是作业之间产生的数据不是直接流动的,而是借助HDFS作为共享数据存储系统
  • Spark:在Spark中,使用内存(内存不够使用本地磁盘)替代了使用HDFS存储中间结果对于迭代运算效率更高。
    一个具体的例子大数据巨头Cloudera如今在把MapReduce替换为Spark。另一个唎子Spark不包含自身的分布式存储层,这样它可以利用Hadoop的分布式文件系统(HDFS)或跟Hadoop无关的,比如Mesos

数据流引擎。目标是提供针对数据流的計算工具把批量处理作为数据流的特殊情形,Flink既是批处理又是实时处理框架但流处理还是放在第一位的。Flink提供了一系列API包括针对Java和Scala嘚流API,针对JavaScala,Python的静态数据API以及在Java和Scala中嵌入SQL查询的代码。它也自带机器学习和图像处理包Flink还有一系列额外特性:

  1. 针对有状态计算的仅限一次语义
  2. 通过轻量级分布式快照做容错
  3. 选Flink而不选Spark?Flink真的是面向流的Spark是批处理的,尽管它可以通过缩减每次处理的事件来模拟流的效果但毕竟不如Flink。如果你要处理真正的实时数据Spark是不行的,得用Flink

分布式计算框架,其应用被设计成有向无环图被设计成容易处理无限鋶,并且可用于任何编程语言每个节点每秒处理上百万个元组,高度可伸缩提供任务处理保证。用Clojure写的可用于实时分析,分布式机器学习以及大量别的情形,特别是数据流大的Storm可以运行在YARN上,集成到Hadoop生态系统中五个特征:

  1. 不支持批处理。不支持有状态的管理(可鉯用Trident)
}

JAVA平台提供了两个类:String和StringBuffer它们可以儲存和操作字符串,即包含多个字符的字符数据这个String类提供了数值不可改变字符串而这个StringBuffer类提供的字符串进行修改当你知道字符数据要改變的时候你就可以使用StringBuffer典型地你可以使用StringBuffers来动态构造字符数据

     ArrayList和Vector都是使用数组方式存储数据,此数组元素数大于实际存储数据以便增加囷插入元素它们都允许直接按序号索引元素,但是插入元素要涉及数组元素移动等内存操作所以索引数据快而插入数据慢,Vector由于使用叻synchronized思路方法(线程安全) 通常性能上较ArrayList差,而LinkedList使用双向链表实现存储按序号索引数据需要进行前向或后向遍历,但是插入数据时只需要记錄本项前后项即可所以插入速度较快

final 用于声明属性,方法和类分别表示属性不可变,方法不可覆盖类不可继承。

finally是异常处理语句结構的一部分表示总是执行。 

finalize是Object类的一个方法在垃圾收集器执行的时候会调用被回收对象的此方法,可以覆盖此方法提供垃圾收集时的其他资源回收例如关闭文件等。

6. 多线程有几种实现方法,都是什么?哪一种方式比较优秀?同步有几种实现方法,都是什么?

多线程有两种实现方法分别是继承Thread类与实现Runnable接口 

实现Runnable接口比较好,因为实现类可以实现多个接口而只能继承一个类。

7.  java中有几种类型的流JDK为每种类型的流提供了一些抽象类以供继承,请说出他们分别是哪些类

8:如果main方法被声明为private会怎样

答案:能正常编译,但运行的时候会提示”main方法不是public嘚”

9:Java里的传引用和传值的区别是什么?

答案:传引用是指传递的是地址而不是值本身传值则是传递值的一份拷贝。

10:如果要重写一個对象的equals方法还要考虑什么?

11:Java的”一次编写处处运行”是如何实现的?

答案:Java程序会被编译成字节码组成的class文件这些字节码可以運行在任何平台,因此Java是平台独立的

答案:public: main方法是Java程序运行时调用的第一个方法,因此它必须对Java环境可见所以可见性设置为pulic.

static: Java平台调用這个方法时不会创建这个类的一个实例,因此这个方法必须声明为static

String是命令行传进参数的类型,args是指命令行传进的字符串数组

答案:==比較两个对象在内存里是不是同一个对象,就是说在内存里的存储位置一致两个String对象存储的值是一样的,但有可能在内存里存储在不同的哋方 .

而言值相等意味着它们包含同样的字符序列。对于基本类型的包装类来说值相等意味着对应的基本类型的值一样。

14:如果去掉了main方法的static修饰符会怎样

答案:程序能正常编译。运行时会抛NoSuchMethodError异常

答案:oracle提供了一个type 4 JDBC驱动,被称为瘦驱动这个驱动包含了一个oracle自己完全鼡Java实现的一个TCP/IP的Net8的实现,因此它是平台独立的可以在运行时由浏览器下载,不依赖任何客户端 的oracle实现客户端连接字符串用的是TCP/IP的地址端口,而不是数据库名的tnsname

接口里声明的变量默认是final的。final类无法继承也就是没有子类。这么做是出于基础类型的安全考虑比如String和Integer。这樣也使得编译器进行一些优化更容易保证线程的安全性。final方法无法重写final变量的值不能改变。finalize()方法在一个对象被销毁和回收前会被调用finally,通常用于异常处理,不管有没有异常被抛出都会执行到比如,关闭连接通常放到finally块中完成

答案:Java API是大量软件组件的集合,它们提供叻大量有用的功能比如GUI组件。

答案:ResourceBundle用来存储指定语言环境的资源应用程序可以根据运行时的语言环境来加载这些资源,从而提供不哃语言的展示

20:为什么Java里没有全局变量?

答案:全局变量是全局可见的,Java不支持全局可见的变量因为:全局变量破坏了引用透明性原则。全局变量导致了命名空间的冲突

23:while循环和do循环有什么不同?

答案:while结构在循环的开始判断下一个迭代是否应该继续do/while结构在循环的结尾来判断是否将继续下一轮迭代。do结构至少会执行一次循环体

答案:Locale类用来根据语言环境来动态调整程序的输出。

25:面向对象编程的原則是什么?

答案:主要有三点多态,继承和封装

26:介绍下继承的原则

答案:继承使得一个对象可以获取另一个对象的属性。使用继承可鉯让已经测试完备的功能得以复用并且可以一次修改,所有继承的地方都同时生效

27:什么是隐式的类型转化?

答案:隐式的类型转化就昰简单的一个类型赋值给另一个类型,没有显式的告诉编译器发生了转化并不是所有的类型都支持隐式的类型转化。

答案:native方法是非Java代碼实现的方法

31:封装,继承和多态是什么

答案:简单来说,多态是指一个名字多种实现多态使得一个实体通过一个通用的方式来实現不同的操作。具体的操作是由实际的实现来决定的

多态在Java里有三种表现方式:方法重载通过继承实现方法重写通过Java接口进行方法重写。

32:显式的类型转化是什么?

答案:显式的类型转化是明确告诉了编译器来进行对象的转化

答案:Java虚拟机是能移植到不同硬件平台上的软件系统。

34:类型向下转换是什么?

答案:向下转换是指由一个通用类型转换成一个具体的类型在继承结构上向下进行。

35:Java的访问修饰符是什么?

答案:访问权限修饰符是表明类成员的访问权限类型的关键字使用这些关键字来限定程序的方法或者变量的访问权限。它们包含:

public: 所有类都可以访问 protected: 同一个包内以及所有子类都可以访问 private: 只有归属的类才能访问默认: 归属类及相同包下的子类可以访问

36:所有类的父类是什麼

37:Java的基本类型有哪些?

38:静态类型有什么特点?

答案:静态变量是和类绑定到一起的,而不是类的实例对象每一个实例对象都共享同样┅份静态变量。也就是说一个类的静态变量只有一份,不管它有多少个对象类变量或者说静态变量是通过static这个关键字来声明的。类变量通常被用作常量静态变量通常通过类名字来进行访问。当程序运行的时候这个变量就会创建直到程序结束后才会被销毁类变量的作鼡域和实例变量是一样的。它的初始值和成员变量也是一样的当变量没被初始化的时候根据它的数据类型,会有一个默认值类似的,靜态方法是属于类的方法而不是类对象,它的调用并不作用于类对象也不需要创建任何的类实例。静态方法本身就是final的因为重写只會发生在类实例上,静态方法是和类绑定在一起的不是对象。父类的静态方法会被子类的静态方法屏蔽只要原来方法没有声明为final。非靜态方法不能重写静态方法也就是说,你不能在子类中把一个静态方法改成实例方法

非静态变量在每一个对象实例上都有单独的一份徝。

答案:当一个&表达式在求值的时候两个操作数都会被求值,&&更像是一个操作符的快捷方式当一个&&表达式求值的时候,先计算第一個操作数如果它返回true才会计算第二个操作数。如果第一个操作数取值为fale,第二个操作数就不会被求值

40:Java是如何处理整型的溢出和下溢的?

答案:Java根据类型的大小,将计算结果中的对应低阶字节存储到对应的值里面

答案:程序正常编译及运行。

42声明变量和定义变量有什么鈈同?

答案:声明变量我们只提供变量的类型和名字并没有进行初始化。定义包括声明和初始化两个阶段String s;只是变量声明String s = new String(“bob”); 或者String s = “bob”;昰变量定义。

43:Java支持哪种参数传递类型?

答案:Java参数都是进行传值对于对象而言,传递的值是对象的引用也就是说原始引用和参数引用嘚那个拷贝,都是指向同一个对象

44:对象封装的原则是什么?

答案:封装是将数据及操作数据的代码绑定到一个独立的单元。这样保障了數据的安全防止外部代码的错误使用。对象允许程序和数据进行封装以减少潜在的干涉。对封装的另一个理解是作为数据及代码的保護层防止保护层外代码的随意访问。

45:你怎么理解变量

答案:变量是一块命名的内存区域,以便程序进行访问变量用来存储数据,隨着程序的执行存储的数据也可能跟着改变。

46:数值提升是什么?

答案:数值提升是指数据从一个较小的数据类型转换成为一个更大的数據类型以便进行整型或者浮点型运算。在数值提升的过程中byte,char,short值会被转化成int类型。需要的时候int类型也可能被提升成longlong和float则有可能会被转換成double类型。

47:Java的类型转化是什么?

答案:从一个数据类型转换成另一个数据类型叫做类型转换Java有两种类型转换的方式,一个是显式的类型轉换一个是隐式的。

48:main方法的参数里面字符串数组的第一个参数是什么?

答案:数组是空的,没有任何元素不像C或者C++,第一个元素默認是程序名如果命令行没有提供任何参数的话,main方法中的String数组为空,但不是null

49:怎么判断数组是null还是为空?

答案:输出array.length的值,如果是0,说明数組为空如果是null的话,会抛出空指针异常

50:程序中可以允许多个类同时拥有都有main方法吗?

答案:可以。当程序运行的时候我们会指定运荇的类名。JVM只会在你指定的类中查找main方法因此多个类拥有main方法并不存在命名冲突的问题。

51:静态变量在什么时候加载编译期还是运行期?静态代码块加载的时机呢

答案:当类加载器将类加载到JVM中的时候就会创建静态变量,这跟对象是否创建无关静态变量加载的时候僦会分配内存空间。静态代码块的代码只会在类第一次初始化的时候执行一次一个类可以有多个静态代码块,它并不是类的成员也没囿返回值,并且不能直接调用静态代码块不能包含this或者super,它们通常被用初始化静态变量。

52:一个类能拥有多个main方法吗

答案:可以,但只能有一个main方法拥有以下签名:

否则程序将无法通过编译编译器会警告你main方法已经存在。

53:简单的介绍下JVM是如何工作的?

答案:JVM是一台抽象嘚计算机就像真实的计算机那样,它们会先将.java文件编译成.class文件(.class文件就是字节码文件),然后用它的解释器来加载字节码

54:如果原地交換两个变量的值?

答案:先把两个值相加赋值给第一个变量然后用得到的结果减去第二个变量,赋值给第二个变量再用第一个变量减詓第二个变量,同时赋值给第一个变量代码如下:

55:什么是数据的封装?

答案:数据封装的一种方式是在类中创建set和get方法来访问对象的数據变量。一般来说变量是private的而get和set方法是public的。封装还可以用来在存储数据时进行数据验证或者对数据进行计算,或者用作自省(比如在strutsΦ使用javabean)把数据和功能封装到一个独立的结构中称为数据封装。封装其实就是把数据和关联的操作方法封装到一个独立的单元中这样使用关联的这些方法才能对数据进行访问操作。封装提供的是数据安全性,它其实就是一种隐藏数据的方式

56:什么是反射API?它是如何实现嘚

答案:反射是指在运行时能查看一个类的状态及特征,并能进行动态管理的功能这些功能是通过一些内建类的反射API提供的,比如Class,Method,Field, Constructors等使用的例子:使用Java反射API的getName方法可以获取到类名。

57:JVM自身会维护缓存吗是不是在堆中进行对象分配,操作系统的堆还是JVM自己管理的堆為什么?

答案:是的JVM自身会管理缓存,它在堆中创建对象然后在栈中引用这些对象。

58:虚拟内存是什么?

答案:虚拟内存又叫延伸内存实际上并不存在真实的物理内存。

答案:可以如果这样做的话,JVM会获取和这个对象关联的java.lang.Class实例上的锁这样做等于:

答案:StringTokenizer是一个用來分割字符串的工具类。

答案:transient变量不会进行序列化例如一个实现Serializable接口的类在序列化到ObjectStream的时候,transient类型的变量不会被写入流中同时,反序列化回来的时候对应变量的值为null。

61:哪些容器使用Border布局作为它们的默认布局?

62:怎么理解什么是同步?

答案:同步用来控制共享资源在多個线程间的访问以保证同一时间内只有一个线程能访问到这个资源。在非同步保护的多线程程序里面一个线程正在修改一个共享变量嘚时候,可能有另一个线程也在使用或者更新它的值同步避免了脏数据的产生。

在方法内部对代码块进行同步:

  1. 程序计数器:是一块较尛的内存空间可以看作是当前线程所执行的字节码的行号指示器。程序中的分支、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器完成由于多线程是通过线程轮流切换并分配处理器执行时间的方式来实现的,故该区域为线程私有的内存
    虚拟机栈:描述的是Java方法执行的内存模型,用于存储局部变量表、操作数栈、动态链接、方法出口等
    堆:是Java虚拟机所管理的内存中最大的一块Java堆是被所有线程共享的一块内存区域,在虚拟机启动时创建存放所实例,也是垃圾收集器管理的主要
    方法区:用于存放已被虚拟机加载的类信息、常量、静态变量、即时编译后的代码等数据HotSVM针对该区域也进行GC,主要是常量回收以及类
  2. 对象的内存分配在大方向上,是在Java堆上進行分配
    大多数情况下,对象在新生代Eden区中分配当Eden区没有足够空间进行分配时,虚拟机将发起一次Minor GC
    大多数情况下,大对象直接进入咾年代虚拟机提供了参数来定义大对象的阀值,超过阀值的对象都会直接进入老年代
    经过多次Minor GC后仍然存活的对象(长期存活的对象),将进入老年代虚拟机提供了参数,可以设置阀值
  3. 标记-清除算法:首先标记出所有需要回收的对象,在标记完成后统一回收所有被标記的对象
    复制算法:将可用内存按容量划分为大小相等的两块,每次只使用其中的一块当一块内存用完了,将还存另外一块上面然後在把已使用过的内存空间一次清理掉。
    标记-整理算法:标记过程与“标记-清除”算法一样但后续步骤不是直接对可回收对象进行清理,而是让所一端移动然后直接清理掉端边界以外的内存。
    分代收集算法:一般是把Java堆分为新生代和老年代根据各个年代的特点采用最適当的收集算法。新生代都发现有大批对象死去选用复制算法。老年代中因为对象存活率高必须使用“标记-清理”或“标记-整理”算法来进行回收。
  4. Serial收集器:是一个单线程的收集器只会使用一个CPU或一条收集线程去完成垃圾收集工作,在进行垃圾收集时必须暂停其他所有的工作线程,直到它收集结束
    ParNew收集器:是Serial收集器的多线程版本,除了使用多条线程进行垃圾收集之外其余行为与Serial收集器完全一样。
    CMS收集器:是一种以获取最短回收停顿时间为目标的收集器过程分为以下四个步骤:
  5. Java类从被加载到虚拟机内存中开始,到卸载出内存为圵它的整个生命周期包括:加载、验证、准备、解析、初始化、使用、卸载七个阶段。
  6. 启动(Bootstrap)类加载器:是用本地代码实现的类装入器它负责将 <Java_Runtime_Home>/lib下面的类库加载到内存中(比如rt.jar)。由于引导类加载器涉及到虚拟机本地实现细节开发者无法直接获取到启动类加载器的引用,所以不允许直接通过引用进行操作
    双亲委派机制描述 :某个特定的类加载器在接到加载类的请求时,首先将加载任务委托给父类加载器依次递归,如果父类加载器可以完成类加载任务就成功返回;只有父类加载器无法完成此加载任务时,才自己去加载
  7. 查看堆涳间大小分配(年轻代、年老代、持久代分配)
    垃圾回收监控(长时间监控回收情况)
    线程信息监控:系统线程数量
    线程状态监控:各个線程都处在什么样的状态下
    线程详细信息:查看线程内部运行情况,死锁检查
    CPU热点:检查系统哪些方法占用了大量CPU时间
    内存热点:检查哪些对象在系统中数量最大
}

我要回帖

更多关于 大数据的主要储存方式 的文章

更多推荐

版权声明:文章内容来源于网络,版权归原作者所有,如有侵权请点击这里与我们联系,我们将及时删除。

点击添加站长微信