Apl Web

45 Soalan Temuduga Apache Spark Teratas

2 Januari 2022

Kami faham bahawa memberi temu duga kadangkala boleh membuat anda gementar, terutamanya apabila anda perlu memberikan temu duga kerja data besar. Setiap calon merasakan keperluan untuk menyediakan diri mereka sebelum pergi untuk kerja data besar atau temu duga kerja pembangun.

Sukar untuk meramalkan jenis soalan yang anda akan ditanya dalam temu duga. Oleh itu, untuk membantu anda, kami telah menghasilkan senarai soalan dan jawapan temu duga Apache Spark teratas yang boleh anda sediakan sebelum pergi ke temu duga kerja pembangun percikan atau pemprosesan data besar anda. Semak ini artikel untuk soalan temu bual am.

Isi kandungan

Apa itu Apache Spark?

Sebelum meneruskan, mari kita fahami dahulu apa itu percikan apache. percikan Apache ialah rangka kerja pemprosesan data fleksibel yang agak mudah digunakan dan ia membolehkan pengguna profesional data besar melaksanakan penstriman dengan cekap. Apache spark ialah enjin platform pemprosesan data yang pantas dan lebih umum. Platform ini dibangunkan untuk pengiraan pantas dan dibangunkan di UC Berkeley pada tahun 2009. Dengan bantuan apache-spark, anda boleh mengedarkan data dalam sistem fail merentas kluster dan memproses data tersebut secara selari. Selain itu, anda boleh menulis aplikasi dengan mudah dalam Java, Python, atau Scala. Platform ini dibangunkan untuk mengatasi batasan paradigma pengkomputeran kluster Map-Reduce kerana percikan api mampu menyimpan data dalam ingatan. Walau bagaimanapun, MapReduce mengocok data masuk dan keluar dari cakera memori. Tambahan pula, spark menyokong pertanyaan SQL, data penstriman dan pemprosesan data graf. Dan yang paling penting, apache-spark tidak berjalan pada Hadoop kerana ia berjalan sendiri dengan menggunakan storan seperti data yang disimpan dalam Cassandra, S3, dari mana platform percikan boleh menulis dan membaca. Percikan Apache berjalan 100 kali lebih pantas daripada Hadoop MapReduce.

Soalan dan Jawapan Temuduga Apache Spark Teratas

Kami menyenaraikan soalan dan jawapan temu duga Apache Spark teratas yang boleh anda sediakan sebelum pergi ke temu duga kerja data besar anda.

satu. Apakah ciri utama apache spark?

Ciri-ciri utama apache spark adalah seperti berikut:

  • Penilaian malas- Konsep penilaian malas digunakan oleh apache spark untuk melambatkan penilaian sehingga ia menjadi wajib.
  • Sokongan untuk bahasa pengaturcaraan- Anda boleh menulis kod percikan dalam empat bahasa pengaturcaraan seperti Java, Python, R dan Scala. Selain itu, platform ini juga menyediakan API peringkat tinggi dalam bahasa pengaturcaraan ini. Spark menyediakan cengkerang dalam Python dan Scala. Anda boleh mengakses cangkerang python dan scala dengan mudah melalui direktori ./bin/pyspark dan direktori .bin/spark-shell, masing-masing.
  • Pembelajaran mesin- Ciri pembelajaran mesin percikan Apache berguna untuk pemprosesan data besar kerana ia menghilangkan keperluan untuk menggunakan enjin berasingan untuk pembelajaran dan pemprosesan mesin.
  • Sokongan berbilang format- Semua sumber data berbilang anda seperti JSON, Hive dan Parket disokong oleh percikan api. Selain itu, untuk mengakses data berstruktur melalui spark SQL, anda mendapat mekanisme boleh pasang yang ditawarkan oleh API sumber data.
  • Kelajuan- Percikan Apache berjalan 100 kali lebih pantas daripada Hadoop MapReduce. Percikan Apache mampu mencapai kelajuan ini melalui pembahagian terkawal. Ini bermakna bahawa apache-spark menguruskan data dengan cara pembahagian yang seterusnya membantu dalam menyelaraskan pemprosesan data teragih dengan trafik minimum pada rangkaian.
  • Penyepaduan Hadoop- Percikan Apache menyediakan sambungan yang cekap dengan Hadoop. Selain itu, menggunakan percikan adalah lebih baik apabila melibatkan Hadoop MapReduce.
  • Pemprosesan masa nyata- Terima kasih kepada pengiraan memori apache-spark, pengiraan dan pemprosesan dalam masa nyata dan mempunyai kependaman yang rendah.
Lihat juga Bolehkah iPhone Mendapat Virus: Cara Menyemak Dan Membuang Virus

dua. Apakah kelebihan apache spark berbanding Hadoop MapReduce?

Ini adalah salah satu soalan temuduga apache spark yang boleh ditanya dalam temuduga. Berikut ialah kelebihan apache spark berbanding Hadoop map-reduce.

  • Multitasking- Hadoop hanya menyokong pemprosesan kelompok melalui perpustakaan terbina. Sebaliknya, untuk melaksanakan pelbagai tugas, apache-spark dilengkapi dengan perpustakaan yang terbina dalam, dan anda boleh menggunakannya untuk pemprosesan kelompok, pertanyaan SQL interaktif, pembelajaran mesin dan penstriman.
  • Kelajuan dipertingkat- apabila anda menggunakan apache-spark, anda pasti perasan bahawa kelajuan pemprosesan memori percikan adalah 100 kali lebih cepat daripada Hadoop map-reduce.
  • Tiada pergantungan cakera- Hadoop MapReduce bergantung pada cakera, dan apache spark menggunakan storan data memori terbina dan caching.

3. Apakah fungsi Enjin percikan?

Seseorang boleh menggunakan enjin percikan untuk mengedar, menjadualkan dan memantau aplikasi data merentas kluster.

Empat. Apakah yang anda maksudkan dengan partition?

Partition bermaksud pembahagian maklumat atau data yang lebih kecil dan logik. Partition adalah serupa dengan split dalam MapReduce. Pembahagian boleh ditakrifkan sebagai satu proses untuk mempercepatkan pemprosesan data dengan memperoleh unit logik data. Semua data percikan adalah RDD terbahagi.

5. Apakah konsep Set Data teragih berdaya tahan? Juga, nyatakan kaedah untuk mencipta RDD baharu dalam percikan apache.

Pengumpulan toleransi kesalahan atau kumpulan elemen operasi, yang mampu berjalan secara selari, dikenali sebagai RDD (set data teragih berdaya tahan). Jadi, jika terdapat sebarang data terbahagi dalam RDD, maka ia diedarkan dan tidak boleh diubah.

Kita boleh mengatakan bahawa RDD ialah bahagian kecil data yang mungkin disimpan dalam ingatan, yang diedarkan pada banyak nod. Selain itu, percikan menggunakan penilaian malas, dan dengan itu RDD dinilai dengan malas, yang membantu percikan mencapai kelajuan yang luar biasa. Terdapat dua jenis RDD.

  1. Set data Hadoop- Jenis RDD ini melibatkan pelaksanaan fungsi pada setiap rekod fail disimpan dalam sistem fail teragih Hadoop (HDFS) atau sistem storan lain.
  2. Koleksi selari- Ini adalah RDD yang berjalan selari antara satu sama lain.

Sekarang, jika kita bercakap tentang mencipta RDD baharu dalam apache-spark, maka terdapat dua cara.

  • Anda boleh mencipta RDD dengan menyelaraskan koleksi dalam program pemacu. Kaedah ini menggunakan kaedah selari konteks percikan.
  • Melalui storan luaran dengan memuatkan set data luaran yang termasuk HBase, HDFS dan sistem fail kongsi.

6. Apakah operasi yang disokong oleh RDD?

Fungsi yang disokong oleh RDD ialah transformasi dan tindakan.

7. Apakah transformasi dalam percikan?

Transformasi dalam percikan bermaksud fungsi yang digunakan pada RDD, yang menghasilkan RDD baharu. Walau bagaimanapun, fungsi tidak dilaksanakan sehingga terdapat kejadian tindakan. Beberapa contoh transformasi ialah fungsi map() dan penapis (), di mana fungsi map() diulang merentasi setiap baris dalam RDD dan berpecah untuk membentuk RDD baharu. Sebaliknya, fungsi penapis() membantu dalam mencipta RDD baharu dengan memilih elemen daripada RDD percikan sekarang.

8. Apakah yang anda maksudkan dengan tindakan dalam percikan api?

Tindakan dalam percikan bermaksud membawa semula data daripada RDD ke mesin tempatan. Tindakan dalam percikan pada asasnya ialah operasi RDD yang memberikan nilai bukan RDD. Beberapa contoh tindakan ialah fungsi reduce(), yang merupakan tindakan yang boleh anda laksanakan berulang kali sehingga satu nilai kekal. Kemudian terdapat tindakan take() yang mengambil semua nilai dari RDD dan membawanya ke sistem fail tempatan.

9. Apakah fungsi teras percikan?

Beberapa fungsi teras percikan adalah seperti berikut:

  • Memantau kerja
  • Menyediakan toleransi kesalahan
  • Penjadualan kerja
  • Interaksi dengan sistem storan
  • Pengurusan ingatan

10. Apakah yang anda maksudkan dengan keturunan RDD?

Garis keturunan Spark RDD digunakan untuk membina semula data yang hilang kerana spark tidak menyokong replikasi data dalam ingatan. Oleh itu, garis keturunan RDD percikan membantu dalam membina semula partition data yang hilang.

11. Apakah yang anda maksudkan dengan pemandu percikan?

Program yang berjalan pada nod induk mesin dan mengisytiharkan tindakan dan transformasi pada RDD data dikenali sebagai program pemacu percikan. Dalam erti kata lain, pemacu percikan membantu dalam mencipta konteks percikan dan menyampaikan graf RDD untuk dikuasai, di mana pengurus kluster kendiri sedang berjalan.

12. Takrifkan istilah penstriman percikan.

Salah satu soalan temuduga percikan apache yang paling banyak ditanya ialah mentakrifkan istilah penstriman percikan. Spark streaming ialah sambungan kepada Spark API yang membolehkan pengguna menstrim strim data secara langsung. Data diproses daripada sumber data yang berbeza seperti flume, Kinesis dan Kafka . Data yang diproses ini kemudiannya disimpan pada sistem fail, papan pemuka langsung dan pangkalan data. Pemprosesan data adalah serupa dengan pemprosesan kelompok apabila ia datang kepada data input.

13. Apakah fungsi MLlib dalam Apache Spark?

MLlib ialah perpustakaan pembelajaran mesin yang disediakan oleh percikan. MLlib bertujuan untuk menjadikan pembelajaran mesin mudah dan berskala kerana ia melibatkan algoritma pembelajaran biasa, dan ia menggunakan kes seperti pengurus kluster untuk pengelompokan, penapisan regresi, pengurangan dimensi.

14. Apakah yang anda maksudkan dengan Spark SQL?

Spark SQL juga dikenali sebagai jerung, dan ia merupakan modul baru yang membantu dalam melaksanakan pemprosesan data berstruktur. Spark boleh melakukan pertanyaan SQL pada data melalui modul ini. Lebih-lebih lagi, percikan api SQL menyokong RDD berbeza yang dipanggil SchemaRDD, yang terdiri daripada objek baris dan objek skema yang mentakrifkan jenis data dalam lajur berbeza dalam setiap baris.

15. Apakah fungsi Spark SQL?

Fungsi spark SQL adalah seperti berikut:

  • Spark SQL boleh memuatkan data daripada beberapa sumber berstruktur.
  • Spark SQL boleh melakukan pertanyaan data dengan menggunakan pernyataan SQL, dalam kedua-dua program percikan dan melalui alat luaran yang disambungkan untuk mencetuskan SQL dengan bantuan penyambung pangkalan data standard, contohnya, menggunakan banyak alat data besar seperti tableau.
  • Ia menyediakan penyepaduan antara kod python/Java/Scala biasa dan SQL.

16. Apakah yang anda maksudkan dengan BENANG dalam Apache Spark?

Satu lagi soalan temu bual percikan apache biasa yang boleh ditanya dalam temu bual ialah mentakrifkan BENANG. Salah satu ciri utama percikan ialah YARN, ia serupa dengan Hadoop, dan ia menyediakan platform pengurusan sumber yang menyampaikan operasi berskala merentas kluster. Lebih-lebih lagi, jika anda menjalankan apache spark pada YARN, anda memerlukan pengedaran binari bunga api yang dibina di atas sokongan YARN.

Lihat juga Cara Menambah Seni Album ke MP3

17. Apakah yang anda maksudkan dengan Spark Executor?

Apabila anda menyambungkan konteks percikan kepada pengurus kluster, maka ia memperoleh pelaksana pada nod dalam kluster. Pelaksana Spark membantu dalam menjalankan pengiraan dan menyimpan data pada nod pekerja. Fungsi terakhir mengikut konteks percikan dialihkan kepada pelaksana untuk pelaksanaannya.

18. Sebutkan pelbagai jenis pengurus kluster dalam percikan?

Terdapat tiga jenis pengurus kluster yang disokong oleh rangka kerja Spark.

  1. Berdiri sendiri- ia adalah pengurus kluster asas yang membantu dalam menyediakan kluster.
  2. Apache Mesos- ini adalah pengurus kluster yang paling biasa digunakan dalam Hadoop MapReduce dan aplikasi percikan.
  3. YARN- ini ialah pengurus kluster yang bertanggungjawab untuk pengurusan sumber dalam Hadoop.

19. Apakah yang anda maksudkan dengan fail Parket?

Fail format kolumnar dikenali sebagai fail parket, yang disokong oleh beberapa sistem pemprosesan data lain. Dengan bantuan fail parket, Spark SQL melaksanakan operasi baca dan tulis dan menganggap fail parket sebagai format analitik data terbaik setakat ini.

20. Adakah perlu memasang percikan pada semua nod kluster YARN semasa anda menjalankan percikan apache pada YARN?

Ia tidak perlu memasang percikan pada semua nod kelompok YARN kerana percikan apache berjalan di atas BENANG.

21. Nyatakan komponen ekosistem percikan api?

Berikut adalah komponen ekosistem percikan api.

  1. MLib- Ia adalah perpustakaan pembelajaran mesin untuk pembelajaran mesin.
  2. GraphX- Ia adalah untuk melaksanakan graf dan pengiraan selari graf.
  3. Teras percikan- ia adalah enjin asas, yang digunakan untuk pemprosesan data selari dan teragih pada skala besar.
  4. Spark streaming- Spark streaming membantu dalam pemprosesan masa nyata data penstriman.
  5. Spark SQL- ia membantu dalam menyepadukan API pengaturcaraan berfungsi percikan bersama-sama dengan pemprosesan rasional.

22. Bolehkah anda menggunakan apache spark untuk menganalisis dan mengakses data yang disimpan pada pangkalan data Cassandra?

Menggunakan percikan untuk menganalisis dan mengakses data yang disimpan pada pangkalan data Cassandra adalah mungkin dengan menggunakan penyambung Cassandra percikan. Anda perlu menyambungkan Cassandra ke projek percikan. Oleh itu, apabila anda menyambungkan Cassandra dengan apache-spark, ia membolehkan anda membuat pertanyaan dengan lebih pantas dengan mengurangkan penggunaan rangkaian untuk menghantar data antara nod Cassandra dan pelaksana percikan.

23. Tentukan nod pekerja?

Nod pekerja ialah nod yang mampu menjalankan kod dalam kelompok. Oleh itu, program pemacu perlu mendengar dan menerima perkara yang sama daripada pelaksana untuk sambungan masuk. Lebih-lebih lagi, program pemacu mestilah boleh dialamatkan rangkaian daripada nod pekerja.

24. Apakah prosedur untuk menyambung apache spark dengan apache mesos?

Prosedur untuk menyambung apache spark dengan apache Mesos adalah seperti berikut:

  1. Langkah pertama ialah mesos mengkonfigurasi program pemacu percikan untuk menyambungkannya dengan apache mesos.
  2. Anda perlu meletakkan pakej binari percikan di lokasi yang boleh diakses oleh apache mesos.
  3. Sekarang pasang apache-spark di lokasi yang sama dengan apache mesos.
  4. Untuk menunjuk ke lokasi di mana percikan apache dipasang, anda perlu mengkonfigurasi harta rumah pelaksana Mesos percikan.

25. Apakah cara untuk meminimumkan pemindahan data semasa anda bekerja dengan percikan?

Untuk menulis program percikan yang mampu berjalan pantas dan boleh dipercayai, adalah penting untuk meminimumkan pemindahan data. Ini ialah cara untuk meminimumkan pemindahan data semasa anda bekerja dengan apache spark.

  • Gunakan penumpuk- untuk meminimumkan pemindahan data, anda boleh menggunakan penumpuk kerana ia menyediakan cara untuk mengemas kini nilai pembolehubah semasa anda melaksanakan perkara yang sama secara selari.
  • Mengelak- Anda boleh meminimumkan pemindahan data dengan mengelakkan partisi semula, operasi Bykey dan operasi lain yang bertanggungjawab untuk mencetuskan shuffle.
  • Gunakan pembolehubah siaran- anda boleh meningkatkan kecekapan penyambungan antara RDD kecil dan besar dengan menggunakan pembolehubah penyiaran.

26. Terangkan pembolehubah siaran dalam apache-spark dan apakah kegunaannya?

Salah satu soalan temu bual percikan apache yang paling banyak ditanya ialah mengenai pembolehubah siaran. Pembolehubah penyiaran dalam percikan apache cukup berguna kerana bukannya menghantar salinan pembolehubah dengan tugas; pembolehubah siaran membantu mengekalkan versi cache baca sahaja pembolehubah itu.

Selain itu, setiap nod mendapat salinan set data input yang besar kerana ia disediakan oleh pembolehubah siaran. Untuk mengurangkan kos komunikasi, apache-spark menggunakan algoritma penyiaran yang berkesan untuk mengedarkan pembolehubah penyiaran.

Satu lagi kegunaan pembolehubah siaran adalah untuk mengurangkan keperluan untuk menghantar salinan pembolehubah setiap tugas. Untuk meningkatkan kecekapan perolehan semula, pembolehubah siaran juga membantu menyimpan jadual carian di dalam memori berbanding dengan carian RDD().

27. Adakah pusat pemeriksaan disediakan oleh Apache Spark?

Pusat pemeriksaan disediakan oleh apache spark. Pusat pemeriksaan membolehkan program berjalan 24/7 dan menjadikannya berdaya tahan untuk kegagalan. Untuk memulihkan RDD daripada kegagalan, graf keturunan digunakan.

Selain itu, untuk menambah dan mengurus pusat pemeriksaan, apache-spark dilengkapi dengan API. Oleh itu, pengguna boleh memutuskan data yang hendak ditambahkan pada pusat pemeriksaan. Tambahan pula, pusat pemeriksaan lebih diutamakan berbanding graf keturunan kerana graf keturunan mempunyai kebergantungan yang lebih luas.

28. Sebutkan tahap kegigihan dalam Apache Spark?

Terdapat tahap kegigihan yang berbeza dalam percikan apache untuk menyimpan RDD pada cakera, memori, atau gabungan kedua-dua cakera dan memori dengan tahap replikasi yang berbeza. Berikut ialah tahap kegigihan dalam percikan:

  • Memori dan cakera- Memori dan cakera menyimpan RDD dalam JVM sebagai objek JAVA yang dinyahsiri. Sekiranya RDD tidak muat dalam memori, maka beberapa bahagian RDD disimpan pada cakera.
  • DISk sahaja- Seperti namanya, tahap kegigihan cakera sahaja menyimpan partition RDD pada cakera sahaja.
  • Memori sahaja ser- Memori hanya ser disimpan RDD bersama-sama dengan tatasusunan satu bait setiap partition dan sebagai objek JAVA bersiri.
  • Memori dan servis cakera- Tahap kegigihan INI hampir sama dengan ser memori sahaja dengan beberapa perbezaan sekatan yang disimpan pada cakera apabila mereka tidak dapat dimuatkan dalam ingatan.
  • Memori sahaja- Ia menyimpan RDD dalam JVM sebagai objek JAVA yang dinyahsiri. Sekiranya RDD tidak muat dalam ingatan, maka beberapa bahagian RDD tidak akan dicache dan perlu dikira semula dengan cepat.
  • Off timbunan- Tahap kegigihan ini serupa dengan ser memori sahaja, tetapi ia menyimpan data pada memori luar timbunan.
Lihat juga 11 Pembetulan Untuk Recaptcha Tidak Berfungsi Dalam Chrome, Firefox atau Mana-mana Pelayar

29. Apakah had penggunaan apache spark?

Beberapa had penggunaan apache spark adalah seperti berikut:

  • Apache spark tidak mempunyai sistem pengurusan fail terbina dalam. Oleh itu, anda perlu menyepadukan percikan dengan platform lain seperti Hadoop untuk sistem pengurusan fail.
  • Tiada sokongan untuk proses penstriman data masa nyata. Dalam apache-spark, aliran data langsung dibahagikan kepada kelompok dan, walaupun selepas pemprosesan, ditukar kepada kelompok. Oleh itu, kita boleh mengatakan bahawa penstriman percikan ialah pemprosesan kelompok mikro dan tidak menyokong pemprosesan data masa nyata.
  • Bilangan algoritma yang tersedia pada percikan adalah kurang.
  • Kriteria tetingkap berasaskan rekod tidak menyokong penstriman percikan.
  • Anda tidak boleh menjalankan semuanya pada satu nod, dan kerja itu perlu diedarkan ke beberapa kelompok.
  • Jika anda menggunakan percikan untuk pemprosesan data besar yang cekap kos, maka keupayaan memori terbina dalam menjadi mencabar.

30. Nyatakan cara untuk mencetuskan pembersihan automatik dalam percikan apache selain daripada 'spark.cleaner.ttl'?

Satu lagi cara untuk mencetuskan pembersihan automatik dalam percikan adalah untuk mengedarkan kerja yang telah lama dijalankan dalam kelompok yang berbeza dan menulis hasil perantara pada cakera.

31. Sebutkan peranan Akka dalam percikan api?

Akka melakukan proses penjadualan dalam percikan. Dengan bantuan proses penjadualan, pekerja dan atasan boleh menghantar atau menerima mesej untuk tugasan.

32. Terangkan schemaRDD dalam apache spark RDD?

RDD yang membawa beberapa objek baris seperti pembalut di sekeliling rentetan biasa atau tatasusunan integer dengan maklumat skema tentang jenis data dalam setiap lajur dikenali sebagai ShemaRDD. Walau bagaimanapun, ia dinamakan semula sebagai API DataFrame sekarang.

33. Apakah sebab untuk mereka bentuk skemaRDD?

Sebab untuk mereka bentuk SchemaRDD adalah untuk membantu pembangun dalam penyahpepijatan kod dan ujian unit pada modul teras sparkSQL.

34. Apakah prosedur untuk mengeluarkan elemen apabila kunci terdapat dalam mana-mana RDD lain?

Anda boleh mengalih keluar elemen dengan mudah apabila kunci terdapat dalam mana-mana RDD lain menggunakan fungsi kekunci tolak ().

35. Nyatakan perbezaan antara persist() dan cache()

Pengguna boleh menentukan tahap storan dengan bantuan persist (), dan sebaliknya, cache () menggunakan tahap storan lalai.

36. Apakah yang anda maksudkan dengan ingatan Pelaksana dalam aplikasi percikan?

Untuk pelaksana percikan, setiap aplikasi percikan mempunyai bilangan teras dan saiz timbunan yang tetap. Memori pelaksana percikan, yang sifat percikan.executor.memory bagi kawalan bendera -executor-memory, dirujuk sebagai saiz timbunan.

Setiap nod pekerja akan mempunyai satu pelaksana pada aplikasi percikan. Aplikasi ini menggunakan beberapa memori nod pekerja, dan memori pelaksana membantu dalam mengukur jumlah memori yang digunakan oleh aplikasi.

37. Apakah cara untuk mengenal pasti operasi yang diberikan untuk menjadi transformasi atau tindakan dalam program percikan?

Pengguna boleh dengan mudah mengenal pasti operasi untuk menjadi transformasi atau tindakan berdasarkan jenis pulangan.

  • Operasi ialah transformasi apabila jenis pulangan adalah sama dengan RDD.
  • Operasi ialah tindakan apabila jenis pemulangan tidak sama dengan RDD.

38. Pada pendapat anda, apakah kesilapan biasa yang dilakukan oleh pembangun percikan?

Beberapa kesilapan biasa yang dilakukan oleh pembangun percikan adalah seperti berikut:

  • Pembangun percikan mungkin membuat beberapa kesilapan semasa menguruskan graf asiklik terarah (DAG's).
  • Pembangun percikan juga mungkin membuat beberapa kesilapan sambil mengekalkan saiz yang diperlukan untuk blok shuffle.

39. Sebutkan beberapa syarikat yang menggunakan penstriman percikan?

Beberapa syarikat yang menggunakan penstriman percikan adalah seperti berikut:

  • Uber
  • Netflix
  • Pinterest
  • Alibaba
  • Amazon

40. Bolehkah kita menggunakan apache spark untuk pembelajaran pengukuhan?

Percikan Apache tidak diutamakan untuk pembelajaran pengukuhan kerana ia hanya sesuai untuk algoritma pembelajaran mesin mudah seperti pengelompokan, regresi dan pengelasan.

41. Bagaimanakah percikan mengendalikan pemantauan dan log masuk dalam mod kendiri?

Apache spark menggunakan antara muka pengguna berasaskan web untuk memantau kluster dalam mod kendiri, yang memaparkan kluster dan statistik pekerjaan. Selain itu, hasil log untuk setiap kerja ditulis ke direktori kerja nod hamba.

42. Nyatakan aliran kerja biasa program percikan.

Aliran kerja biasa program percikan adalah seperti berikut:

  1. Langkah pertama yang terlibat dalam program percikan adalah untuk mencipta input RDD daripada data luaran.
  2. Mencipta RDD diubah baharu berdasarkan logik perniagaan dengan menggunakan beberapa transformasi RDD seperti Penapis().
  3. Persist() setiap RDD perantaraan yang mungkin perlu digunakan semula pada masa hadapan.
  4. Untuk memulakan pengiraan selari, gunakan pelbagai tindakan RDD seperti first(), count(). Spark akan mengoptimumkan dan melaksanakan tindakan ini, dengan itu.

43. Apakah perbezaan antara spark SQL dan Hive?

Berikut ialah perbezaan antara spark SQL dan Hive.

  • Jika anda menggunakan spark SQL, maka anda mungkin tahu bahawa ia lebih pantas daripada Hive.
  • Anda boleh melaksanakan a sarang pertanyaan dalam spark SQL. Walau bagaimanapun, anda tidak boleh melaksanakan pertanyaan SQL dalam HIve.
  • Hive ialah rangka kerja, manakala Spark SQL ialah perpustakaan.
  • Ia tidak perlu untuk mencipta metastore dalam SQL. Walau bagaimanapun, adalah wajib untuk mencipta metastore dalam Hive.
  • Spark SQL boleh membuat kesimpulan skema secara automatik, tetapi dalam Hive, anda perlu melakukannya secara manual kerana skema itu perlu diisytiharkan secara eksplisit.

44. Apakah yang anda maksudkan dengan penerima dalam penstriman percikan?

Entiti khas dalam penstriman percikan dikenali sebagai penerima kerana mereka menggunakan data daripada beberapa sumber data dan menempatkannya dalam percikan apache. Konteks penstriman mencipta penerima kerana tugasan jangka panjang dijadualkan untuk dijalankan secara round-robin, dengan setiap penerima memperoleh satu teras.

45. Apakah yang anda maksudkan dengan tingkap gelongsor dalam percikan? Terangkan dengan contoh.

Tingkap gelongsor dalam percikan digunakan untuk menentukan setiap kelompok penstriman percikan, yang perlu melalui pemprosesan. Contohnya, dengan bantuan tetingkap gelongsor, anda boleh menetapkan selang pemprosesan kelompok dan kelompok tertentu akan diproses dalam selang tersebut.

Kesimpulan

Kami harap anda menikmati soalan dan jawapan temu duga apache spark yang disebutkan di atas. Kini, anda boleh memecahkan semua soalan temu duga kerja data besar anda dengan mudah. Semak semua soalan dan jawapan temu duga apache spark untuk mendapatkan idea tentang jenis soalan temu duga yang ditanya dalam temu duga kerja data besar.