在现代大数据分析的时代,数据提取和处理是至关重要的一步。其中,如何从Oracle数据库中提取数据并将其转移到其他基于Hadoop的分布式计算系统中已成为数据工程师必备的技能之一。为了更好地满足这一需求,SQOOP成为了一款备受欢迎的数据提取工具。
什么是SQOOP
SQOOP是一款开源软件,是Apache Hadoop生态系统中的重要组成部分,其全称为“一款针对关系型数据库提供数据传递的工具”(The tool for transferring bulk>将oracle库的千万级数据导到postgres中,怎样配置dataX的参数才能达到更高效率?
在企业级大数据平台的建设中,从传统关系型数据库(如Oracle)向Hadoop平台汇聚数据是一个重要的课题。目前主流的工具有Sqoop、DataX、Oracle GoldenGate for Big>现在Oracle中有一张表,要使用sqoop实时增量导入,没有自增id,也没有对应时间,怎么办?
sqoop使用hsql来存储job信息,开启metastor service将job信息共享,所有node上的sqoop都可以运行同一个job

一、sqoop的码谈配置文件在sqoop.site.xml中:
1、sqoop.metastore.server.location
本地存储路径,默认在tmp下,改为其他路径
2、sqoop.metastore.server.port
metastore service端口号
3、sqoop.metastore.client.autoconnect.url
sqoop自动连接的metastore地址,默认是本地饥丛的metastore地址
4、sqoop.metastore.client.enable.autoconnect
开启自动连接。sqoop默认连接本地metastore。注释这个配置会开启自动连接。
二、开启metastore service
sqoop下,nohup bin/sqoop metastore
三、创建job
sqoop支持两种增量导入模式,
一种是 append,即通过指定一个递增的列,比如:
–incremental append –check-column num_iid –last-value 0
vArchar类型的check字段也可以通过这种方式增量导入(ID为varchar类型的递增数字):
–incremental append –check-column ID –last-value 8
另种是可以根据时间戳,比如:
–incremental lastmodified –check-column created –last-value ‘:0:00’
就是只导入created 比’:0:00’更大的数据。
bin/sqoop job –meta-connect jdbc:hsqldb: –create job_zyztest13 — import –connect jdbc:oracle:thin:@10.106.1.236:1521:orcl –username SQOOP –password sqoop –table LXC_TEST_HBASE_TO_ORACLE –columns NAME,SEX,AGE,CSRQ -m 1 –hbase-table SQOOP_IMPORT_TEST3 –column-family info –hbase-row-key NAME –split-by NAME –incremental lastmodified –check-column CSRQ –last-value ‘:0:00’ –verbose
nohup /opt/hadoopcluster/sqoop-1.4.2.bin__hadoop-2.0.0-alpha/bin/sqoop job –EXEc job_zyztest13 > job_zyztest13.out 2>&1 &
此时,在10.106.1.234上创建了job_zyztest13这个job,通过bin/sqoop job –meta-connect jdbc:hsqldb: –list可以查看所有job
四、定时执行
使用LINUX定时器:烂模樱crontab -e
编辑定时器,添加*/4 * * * * /opt/hadoopcluster/sqoop-1.4.2.bin__hadoop-2.0.0-alpha/bin/sqoop job –meta-connect jdbc:hsqldb: –exec job_zyztest13 > job_zyztest13.out 2>&1 & 任务将会每四分钟执行一次
关于sqoop抽取oracle数据库的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。
香港服务器首选树叶云,2H2G首月10元开通。树叶云(www.IDC.Net)提供简单好用,价格厚道的香港/美国云 服务器 和独立服务器。IDC+ISP+ICP资质。ARIN和APNIC会员。成熟技术团队15年行业经验。
怎么用sqoop把oracle的数据传输到hbase中
Sqoop除了能够将数据从关系型数据库导入到HDFS和Hive中,还能够导入到HBase表中。 --hbase-table:通过指定--hbase-table参数值,指明将数据导入到HBase表中,而不是HDFS上的一个目录。 输入表中的每一行将会被转换成一个HBase Put操作的输出表的一行。 --hbase-row-key:你可以使用--hbase-row-key参数,手动的指定row key。 默认的情况下,Sqoop会将split-by 列作为HBase rowkey列。 如果没有指定split-by值,它将会试图识别关系表的关键字。 如果源表是组合关键字,--hbase-row-key 参数后面值是用逗号分隔的组合关键字属性的列表,在这样种情况下,通过合并组合关键字属性的值来产生HBase的Row key,每个值之间使用下划线分隔开来。
怎样理解合作关系(partnership)和商业智能系统(business intelligence system)的关系
楼主你好!合作关系:全面建设合作关系/建设合作关系/全面战略合作关系/战略合作关系/战略协作关系商业智能,又称商务智能,英文为Business Intelligence,简写为BI。 商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。 这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商等来自企业所处行业和竞争对手的数据以及来自企业所处的其他外部环境中的各种数据。 而商业智能能够辅助的业务经营决策,既可以是操作层的,也可以是战术层和战略层的决策。 为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。 因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。 商业智能的概念于1996年最早由加特纳集团(Gartner Group)提出,加特纳集团将商业智能定义为:商业智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商业决策的制定。 商业智能技术提供使企业迅速分析数据的技术和方法,包括收集、管理和分析数据,将这些数据转化为有用的信息,然后分发到企业各处。 目前,学术界对商业智能的定义并不统一。 商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。 这里所谈的数据包括来自企业业务系统的订单、库存、交易账目、客户和供应商资料及来自企业所处行业和竞争对手的数据,以及来自企业所处的其他外部环境中的各种数据。 而商业智能能够辅助的业务经营决策既可以是操作层的,也可以是战术层和战略层的决策。 为了将数据转化为知识,需要利用数据仓库、联机分析处理(OLAP)工具和数据挖掘等技术。 因此,从技术层面上讲,商业智能不是什么新技术,它只是数据仓库、OLAP和数据挖掘等技术的综合运用。 可以认为,商业智能是对商业信息的搜集、管理和分析过程,目的是使企业的各级决策者获得知识或洞察力(insight),促使他们做出对企业更有利的决策。 商业智能一般由数据仓库、联机分析处理、数据挖掘、数据备份和恢复等部分组成。 商业智能的实现涉及到软件、硬件、咨询服务及应用,其基本体系结构包括数据仓库、联机分析处理和数据挖掘三个部分。 因此,把商业智能看成是一种解决方案应该比较恰当。 商业智能的关键是从许多来自不同的企业运作系统的数据中提取出有用的数据并进行清理,以保证数据的正确性,然后经过抽取(Extraction)、转换(Transformation)和装载(Load),即ETL过程,合并到一个企业级的数据仓库里,从而得到企业数据的一个全局视图,在此基础上利用合适的查询和分析工具、数据挖掘工具、OLAP工具等对其进行分析和处理(这时信息变为辅助决策的知识),最后将知识呈现给管理者,为管理者的决策过程提供支持。 提供商业智能解决方案的著名IT厂商包括微软、ibm、Oracle、Microstrategy、Business Objects、Cognos、SAS等。 希望能够对你有所帮助```
从事工厂物料稽查应具备怎样的个人条件?
1.对制造业(机电行业)生产工艺、制程、品质了解,有熟练使用ERP经验2.沟通能力强,工作认真、细心、责任心强,学习能力强,能吃苦耐劳3、物料计划、执行、稽查能力强并有成功经验4.生产物料协调能力及生产物料异常处理能力5.大专或以上学历,英文读写熟练,CET-4以上岗位职责:1.检查生产现场,统计用工的用料及报废情况2.检查统计员的每日生产报表并向上级领导汇报3.对ERP系统中所有数据进行核对并对二级审核4.与物流部门紧密合作,检查跟踪合格材料的到货日期5.协助Oracle主管培训6.所有物料管控文件的执行并监督生产员工的执行7.每日,每周,每月生产材料的盘点,确保各工序材料数据的正确8.各类生产报告及数据
发表评论