Bei Apache Hive handelt es sich um eine Erweiterung für Hadoop, die es gestattet, unstrukturiert vorliegende Daten mit der SQL-ähnlichen Datenbanksprache HiveQL abzufragen, zusammenzufassen und zu analysieren.

Hive - Ansicht und Indizes - In diesem Kapitel wird das Erstellen und Ansichten zu verwalten. Ansichten werden basierend auf Benutzeranforderungen erzeugt. Sie können alle Ergebnissatz-D.

Data Warehousing mit Big Data-Technologien am Beispiel von Apache Hive Motivation und Zielsetzung Obwohl Hadoop-Umgebungen für das „Write once/read many times“-Paradigma ausgelegt sind, stellt die Hadoop-basierte Datenbank Hive seit einiger Zeit alle benötigten Funktionen zur Verfügung, um Daten flexibel und mehrfach zu überschreiben ACID-Eigenschaften.

Die Apache Software hat sich mittlerweile als Quasi-Standard zur Speicherung und Verarbeitung von Big Data etabliert. Verwaltung riesiger Datenmengen von strukturierten und unstrukturierten Daten Linear skarlierbarer Cluster Speicher & Performance von Standard-Servern Performance - Der Code wird zu den Daten auf die entsprechenden Knoten verteilt Ein großes Ökosystem an Tools rund um.

Wie Sie in dem Beispiel mit Content-bezogener Werbung in Apache Hive sehen, müssen Sie eine Hive-Sitzung auf einem Master-Knoten vorbereiten, bevor Sie eine Abfrage ausführen können. Erst dann.

Prior to Hive 0.6.0, lateral view did not support the predicate push-down optimization. In Hive 0.5.0 and earlier, if you used a WHERE clause your query may not have compiled. A workaround was to add set hive.optimize.ppd=false; before your query.

Diesem Problem begegnete Hortonworks 2013 mit der Stinger-Initiative, die das Ziel hatte, Hive-Queries zu beschleunigen und HiveQL um weitere essentielle SQL-Konstrukte zu erweitern. 2014 kündigte Hortonworks die Folgeinitiative Stinger.next an, um Hive-Anfragen durch die Nutzung von Apache Spark in den meisten Fällen unter einer Sekunde beantworten zu können.

Code-Beispiel. Die spark-shell dient hauptsächlich dem explorativen Arbeiten. Wenn wir Jobs von einem Spark-Cluster ausführen lassen möchten, entweder ad-hoc oder regelmäßig, kann der Job per spark-submit gestartet werden. Alternativ kann auch innerhalb.

Apache Pig ist ein Zusatz für Hadoop, mit dem Entwickler umfassende Analysen erstellen können, die trotz ihrer Komplexität relativ leicht nachvollziehbar sind. Mit der High-Level Sprache Pig Latin lassen sich außerdem Aktionen optimieren oder Abfragen erweitern. Das Erstellen von MapReduce-Aufgaben wird deutlich erleichtert.

Juli wurde Apache Kudu 1.10 veröffentlicht. Nur wenige Wochen später hat Cloudera diese Kudu-Version in die neue Hadoop-Distribution CDH 6.3 integriert. Neben vielen Detailverbesserungen und Fehlerkorrekturen enthält Kudu jetzt einige, seit langem erwartete neue Features: Hive Metastore Integration "fine-grained authorization via integration with Apache Sentry" "full and incremental table.