Wat is Apache HBase in Azure HDInsight?

Apache HBase is een opensource NoSQL-database die is gebouwd op Apache Hadoop en gemodelleerd na Google BigTable. HBase biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden gegevens in een schemaloze database. De database is ingedeeld op kolomfamilies.

Vanuit gebruikersperspectief is HBase vergelijkbaar met een database. De gegevens worden opgeslagen in de rijen en kolommen van een tabel en de gegevens in een rij worden gegroepeerd op basis van de kolomfamilie. HBase is een schemaloze database. De kolommen en gegevenstypen kunnen niet worden gedefinieerd voordat ze worden gebruikt. De open-source code wordt lineair geschaald om petabytes aan gegevens op duizenden knooppunten te verwerken. Het kan afhankelijk zijn van gegevensredundantie, batchverwerking en andere functies die worden geleverd door gedistribueerde toepassingen in de Hadoop-omgeving.

Hoe wordt Apache HBase geïmplementeerd in Azure HDInsight?

HDInsight HBase wordt aangeboden als een beheerd cluster dat is geïntegreerd in de Azure-omgeving. De clusters zijn geconfigureerd voor het rechtstreeks opslaan van gegevens in Azure Storage, wat lage latentie en verbeterde elasticiteit biedt in de prestaties en kostenkeuzen. Met deze eigenschap kunnen klanten interactieve websites bouwen die werken met grote gegevenssets. Services bouwen die sensor- en telemetriegegevens van miljoenen eindpunten opslaan. En om deze gegevens te analyseren met Hadoop-taken. HBase en Hadoop zijn goede uitgangspunten voor big data-projecten in Azure. Met de services kunnen realtime-toepassingen werken met grote gegevenssets.

De HDInsight-implementatie maakt gebruik van de uitschaalarchitectuur van HBase om automatische sharding van tabellen te bieden. En sterke consistentie voor lees- en schrijfbewerkingen en automatische failover. De prestaties zijn verbeterd dankzij in-memory caching voor leesbewerkingen en streaming met hoge doorvoersnelheid voor schrijfbewerkingen. Een HBase-cluster kan worden gemaakt in het virtuele netwerk. Zie HDInsight-clusters maken in Azure Virtual Network voor meer informatie.

Hoe worden gegevens beheerd in HDInsight HBase?

Gegevens kunnen in HBase worden beheerd met behulp van de create, geten putscan opdrachten uit de HBase-shell. Gegevens worden naar de database geschreven met behulp van put en lezen met behulp van get. De scan opdracht wordt gebruikt om gegevens op te halen uit meerdere rijen in een tabel. Gegevens kunnen ook worden beheerd met behulp van de HBase C#-API, die een clientbibliotheek biedt boven op de HBase REST API. Een HBase-database kan ook worden opgevraagd met behulp van Apache Hive. Zie Aan de slag met Apache HBase met Apache Hadoop in HDInsight voor een inleiding tot deze programmeermodellen. Coprocessors zijn ook beschikbaar, waardoor gegevensverwerking is toegestaan in de knooppunten die de database hosten.

Notitie

Thrift wordt niet ondersteund door HBase in HDInsight.

Gebruiksvoorbeelden voor Apache HBase

De canonieke gebruikssituatie waarvoor BigTable (en bij uitbreiding HBase) is gecreëerd vanuit webzoekopdrachten. Zoekmachines bouwen indexen die termen toewijzen aan de webpagina's die deze bevatten. Maar er zijn veel andere gebruiksvoorbeelden waarvoor HBase geschikt is, waarvan er verschillende in deze sectie zijn opgenomen.

Scenariobeschrijving	Beschrijving
Sleutel-waardeopslag	HBase kan worden gebruikt als een sleutel-waardearchief en is geschikt voor het beheren van berichtsystemen. Facebook gebruikt HBase voor hun berichtensysteem en is ideaal voor het opslaan en beheren van internetcommunicatie. WebTable maakt gebruik van HBase om tabellen te zoeken en te beheren die zijn geëxtraheerd uit webpagina's.
Sensorgegevens	HBase is handig voor het vastleggen van gegevens die incrementeel uit verschillende bronnen worden verzameld. Deze gegevens omvatten sociale analyses en tijdreeksen. Het up-to-date houden van interactieve dashboards met trends en tellers, en het beheren van auditlogboeksystemen. Voorbeelden hiervan zijn bloomberg traders terminal en de Open Time Series Database (OpenTSDB). OpenTSDB slaat op en biedt toegang tot metrische gegevens die worden verzameld over de status van serversystemen.
Realtime query	Apache Phoenix is een SQL-query-engine voor Apache HBase. Deze is toegankelijk als een JDBC-stuurprogramma en maakt het uitvoeren van query's en beheren van HBase-tabellen SQL mogelijk.
HBase als een platform	Toepassingen kunnen worden uitgevoerd in HBase door HBase te gebruiken als gegevensopslag. Voorbeelden zijn Phoenix, OpenTSDB `Kiji`en Titan. Toepassingen kunnen ook worden geïntegreerd met HBase. Voorbeelden zijn: Apache Hive, Apache Pig, Solr, Apache Flume, Apache Impala, `Ganglia`Apache Spark en Apache Drill.

Volgende stappen

Feedback

Is deze pagina nuttig?

Last updated on 2025-04-02