31.08.2011, 00:00 Uhr
Hadoop für SQL Server und Parallel Data Warehouse
Microsoft hat eine CTP-Version eines Connectors zwischen dem SQL Server und dem Massendatenspeichersystem Hadoop veröffentlicht.
Hadoop ist ein freies in Java geschriebenes Framework zur parallelen Datenspeicherung und -verarbeitung sehr großer Datenmengen (Big Data), die verteilt in Clustern gespeichert sind. Das Frameworks basiert auf Googles MapReduce-Ansatz und nutzt ein eigenes Dateisystem (Hadoop Distributed File System, HDFS).
Der Hadoop Connector für SQL Server und für Microsofts Parallel Data Warehouse (PDW) erlaubt Kunden sehr große Datenmengen zwischen den beteiligten Speichersystemen hin- und herzuschieben. Mit PDW (fasst über 600 TByte Daten) können so unstrukturiert in Hadoop vorliegende Daten analysiert werden. Der Connector nutzt SQOOP (SQL to Hadoop) für den effizienten Datentransfer zwischen den Systemen. Die CTP des Hadoop-Connectors für PDW kann über Microsofts Customer Support bezogen werden.
Der Hadoop-Connector für SQL Server arbeitet sowohl mit der aktuellen Version 2008 R2 als auch mit der kommenden Version (Codename Denali). Wie bei der PDW-Version handelt es sich dabei um einen Zwei-Wege-Verbinder, der den Datentransfer in beide Richtungen erlaubt. Die CTP-Version dieses Connectors hat Microsoft zum Download bereitgestellt. [bl]