Τσιμπίρης, ΑλκιβιάδηςΝτόγαρης, Αθανάσιος2018-06-262024-09-272018-06-262018-06https://repository2024.ihu.gr/handle/123456789/3638Το πλήρες κείμενο της εργασίας ΔΕΝ είναι διαθέσιμοΣκοπός της διπλωματικής εργασίας είναι η μελέτη των δυνατοτήτων του οικοσυστήματος Hadoop και της HBase που είναι μία ανοιχτού λογισμικού NoSQL βάση δεδομένων ιδανική για αποθήκευση δεδομένων μεγάλου όγκου (Big Data). Το Hadoop αναπτύχθηκε από την Apache Software Foundation (ASF) και είναι μία πλατφόρμα λογισμικού (framework) γραμμένη σε JAVA για τη συγγραφή και την εκτέλεση κατανεμημένων εφαρμογών, οι οποίες επεξεργάζονται μεγάλου όγκου δεδομένα. Το Hadoop είναι μία παραλλαγή του MapReduce της Google και του File System της Google (GFS). Η πλατφόρμα Hadoop αποτελείται από πολλά συστατικά όπως: MapReduce, το Hadoop Distributed File System (HDFS), το Hive και την HBase μία NoSQL βάση δεδομένων τα οποία και θα μελετηθούν στη διπλωματική αυτή. Τα NoSQL συστήματα πλεονεκτούν έναντι των σχεσιακών συστημάτων, στις περιπτώσεις που απαιτείται διαχείριση μεγάλου όγκου δεδομένων σε παράλληλη επεξεργασία και δεν χρειάζεται να γίνει σχεσιακός σχεδιασμός της βάσης δεδομένων. Η HBase δεν υποστηρίζει μία δομημένη γλώσσα ερωτημάτων (SQL), αντίθετα διαθέτει δικές της εντολές ανάκτησης δεδομένων. Στα πλαίσια της διπλωματικής αυτής θα μελετηθεί η HBase Shell, μία script γλώσσα αλληλεπίδρασης με το σύστημα HBase που χρησιμοποιεί τη διεπαφή της γραμμής εντολών για τη δημιουργία, διαγραφή και τροποποίηση πινάκων (CRUD), για την καταχώρηση, μέτρηση, διαγραφή των δεδομένων στην HBase. Θα μελετηθεί επίσης και το Hue (Hadoop User Experience), το οποίο παρέχει ένα web interface για την εκτέλεση ερωτημάτων καθώς και τη δημιουργία, συντήρηση και εκτέλεση διαφόρων εργασιών στο Hadoop και κατ’επέκταση στην HBase. Θα δημιουργηθούν επίσης ευρετήρια στα δεδομένα με το ElasticSearch.The purpose of this diploma thesis is to study the potential of the Hadoop ecosystem and HBase, an open NoSQL database software ideal for large data storage (Big Data). Hadoop was developed by the Apache Software Foundation (ASF) and is a JAVA-based framework for writing and running distributed applications that process large volumes of data. Hadoop is a variation of Google MapReduce and Google File System (GFS). The Hadoop platform consists of many components such as: MapReduce, Hadoop Distributed File System (HDFS), Hive and HBase, a NoSQL database that will be studied in this diploma thesis. NoSQL systems benefit against relational systems in occasions where large volume data processing is required to be processed in parallel and no relational design of the database is required. HBase does not support a structured query language (SQL), but has its own data recovery commands. HBase Shell, which is a scripting language for interaction with the HBase system that uses the command-line interface to create, delete, and modify tables (CRUD) to record, measure, delete data in HBase, will be studied within this diploma thesis. Hue (Hadoop User Experience), which provides a web interface for querying as well as creating, maintaining and executing various tasks at Hadoop and hence at HBase, will also be studied. Finally, indexes will be created with the help of ElasticSearch.2108elΑναφορά Δημιουργού-Μη Εμπορική Χρήση-Όχι Παράγωγα Έργα 4.0 Διεθνέςhttp://creativecommons.org/licenses/by-nc-nd/4.0/deed.elTEICM::ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ::ΔΙΑΧΕΙΡΙΣΗ ΒΑΣΕΩΝ ΔΕΔΟΜΕΝΩΝTEICM::ΒΑΣΕΙΣ ΔΕΔΟΜΕΝΩΝ005.7565Διαχείριση μεγάλου όγκου δεδομένων με το οικοσύστημα Hadoop και τη NoSQL βάση δεδομένων HBaseBig Data management with Hadoop ecosystem and HBaseΔιπλωματική εργασίαΒάση δεδομένων ανοικτού λογισμικούΟικοσύστημα HadoopHBaseΑποθήκευση δεδομένων μεγάλου όγκου