用語集

データベースやデータストレージシステムにおけるトランザクションとは,1つの作業単位として扱われるあらゆる操作のことです。トランザクションは,完全に実行される,もしくは全く実行されないかのいずれかで,ストレージシステムを一貫した狀態に保ちます。{…}
機械學習や深層學習における最適化のための最も一般的なアルゴリズムの1つに,勾配降下法があります。勾配降下法は機械學習モデルのトレニングに使用されます。勾配降下法の種類には,{…}
オルタナティブデータ(代替データとも呼ばれる)とは,従來のソースではなく,他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで,業界標準のデータソースでは得ることができない洞察を取得することが可能です。{…}
アノマリ検知とは,定常狀態とは統計的に異なる不審なベントや観測値を特定する手法です。異常検知とも呼ばれます。このような”異常“な挙動は,多くの場合に,クレジットカードの不正使用,マシンの故障,サイバー攻撃といった問題の存在を意味します。{…}
Apache Hive™は,デ,タウェアハウス構築ソフトウェアです。Apache Hadoop上でSQLを使用し,分散ストレージにある大規模なデータセットの読み取り/書き込み,管理を容易にします。またApache Hiveは,大規模なHadoopエコシステムの一部です。{…}
Apache撚角羚とは,Apache Hadoop向けに開発された無料のオープンソースの列指向ストレージシステムです。造化データ用エンジンで,各行への低レイテンシでランダムなミリ秒スケールのアクセスに加えて,優れたアクセスパターン分析もサポートします。{…}
Apache麒麟とは,ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache麒麟は Hadoop や Spark で SQL インターフェイスと多次元分析(OLAP)を提供するよう設計されています。{…}
Apache火花とは,ビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタ。Apache火花は 2009 年にカリフォルニア大學バークレー校の研究プロジェクトとして開発されました。{…}
サビスとしてのApache Spark(Apache Spark as Spark as a- service)とは?Apache火花は、大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。Spark は、カリフォルニア大學バークレー校の AMPLab で 2009年に研究が開始されて以來、目覚ましい発展を遂げてきました。{…}
人工ニューロンネットワーク(安)とは,人間の脳のニューロンの動作を模したコンピューティングシステムです。人工ニュラルネットワクの仕組みは?安は,階層で構成される重み付き有向グラフにするとわかりやすく,{…}
自動化バアスとは,自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており,集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な狀況下での利用も一般的になりつつあります。{…}
ベイジアンニューラルネットワーク(BNN)とは,過學習の製禦を目的として,事後確率推定により標準ネットワークを拡張することを指します。広い視點からみると,ベイジアン手法は統計的方法論を使用して,モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む,あらゆるものがそれに付隨する確率分布を持つようにすることです。{…}
Hadoopが開発される以前は,最新のストレージと計算システムの基盤となる技術には限りがあり,企業での分析は”スモールデータ”に製限されていました。{…}
バイオインフォマティクスは,膨大な生物學のデータのコレクションから知識を抽出するために計算を使用する研究分野です。{…}
Catalystオプティマereplicationザとは,Spark SQLで主要な役割を果たす最適化機能です。Scalaのパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し,拡張可能なクエリオプティマイザを構築します。催化劑はScalaの関數型プログラミング構造に基づいており,次の2つの主要な目的を想定して設計されています。{…}
複合イベント処理(CEP)とは,イベント処理,ストリーム処理,あるいはイベントストリーム処理とも呼ばれ,データベースにデータを格納する前か,場合によっては格納せずに,データを照會する技術を使用した処理です。{…}
連続実行アプリケーションとは,データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は,このアプリケーションを活用することで,単一のプログラミングインターフェイスを使用して,クエリの提供やバッチジョブとの対話など,現在別々のシステムで処理されている連続実行アプリケーションの側麵をサポートすることができます。{…}
深層學習において,畳み込みニューラルネットワーク(CNNまたは事先)はディープニューラルネットワークの1つの手法です。畫像內のパターン認識に通常使用されますが,空間データ分析,コンピュータビジョン,自然言語処理,信號処理などさまざまな用途に対する導入事例もあります。{…}
データ分析プラットフォームとは,膨大で複雑な動的データの分析に必要なサービスとテクノロジーのエコシステムです。企業が所有する各種ソスからのデタの取得,結合,連動,検索,視覚化を可能にします。{…}
データガバナンスとは,データがビジネス戦略に沿った価値をもたらすよう,組織內のデータを統製することを意味します。単なるツールやプロセスにとどまらず,人,プロセス,技術,データを包括するフレームワークを用いてデータを統製し,ビジネスの目標達成を支援するものです。{…}
デタレクハウスとは?デタレとは、データレイクの柔軟性、経済性、スケーラビリティとデータウェアハウスのデータ管理や ACID トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャです。{…}
什麼是數據共享?數據共享是將相同的數據提供給一個或多個消費者的能力。如今,不斷增長的數據量已經成為任何公司的戰略資產。在你的組織內部或外部共享數據是一項使能技術{…}
什麼是數據倉庫?數據倉庫是一種數據管理係統,它以業務友好的方式存儲來自多個來源的當前和曆史數據,以便更容易地洞察和報告。數據倉庫通常用於商業智能(BI)、報告和數據存儲{…}
磚ランタイムは,データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。火花はもちろん,ビッグデータ分析の操作性やパフォーマンス,セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも數多く追加されています。數據庫ランタereplication ereplicationムが他のランタereplication ereplicationムよりも優れている點は次のとおりです。{…}
DataFrameとは,データをスプレッドシートのような行と列の2次元テーブルに編成するデータ構造のことです。DataFrameは、柔軟かつ直感的にデータの保存や操作ができるため、最新のデータ分析で最も一般的に使用されるデータ構造の 1 つです。{…}
數據集とは,JavaおよびScala用のタイプセーフな火花の構造化APIです。PythonおよびRは動的型付け言語であるため,このAPIの使用はできませんが,ScalaやJavaで大規模なアプリケーションを作成するための強力なツールです。DataFrameは,Row型のオブジェクトの分散型コレクションであり{…}
深層學習とは,人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械學習のサブセットです。そのため,深層學習モデルはディプニュラルネットワクと呼ばれます。{…}
需要予測とは,消費者の重要(すなわ將來の収益)を予測するプロセスです。具體的には,定量的および定性的デ,タを使用して,消費者が購入する商品の品揃えを予測します。{…}
高密度テンソルとは,全ての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は,多様な多次元デタ分析アプリケションで使用されます。テンソル計算を実行できるソフトウェア製品は數多くあります。{…}
DNAシーケンスとは,DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる4つの化學構成要素(アデニン,グアニン,シトシン,チミン)の順序のDNAシーケンシングは,DNA分子內で発生します。{…}
Elasticsearchとは,ドキュメント指向および半構造化データを格納,取得,管理するNoSQL分散データベースです。さらに,Elasticsearchは,Apache Lucene上に構築され,Apacheライセンスの條件下でリリースされた,オープンソースのRESTful検索エンジンでもあります。{…}
ゲノミクスとは,生物のゲノムのシケンシングと分析に関する遺伝學の一分野です。その主な役割は,DNAのシーケンス全體,またはDNAを構成する原子の組成,およびDNA原子間の化學結合を決定することです。ゲノミクスの分野は,{…}
Apache Hadoopとは,ビッグデータアプリケーションのデータ処理とストレージを管理するオープンソースのJavaベースのソフトウェアプラットフォームです。Hadoopは,コンピューティングクラスタ內のノード間で大規模なデータセットと分析ジョブを分散させ,それらを並列実行できる小さなワークロードに分割します。{…}
Hadoopクラスタとは?Apache Hadoopとは,オープンソースのJavaベースのソフトウェアフレームワークで,並列データ処理エンジンです。アルゴリズム(MapReduceアルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し,{…}
HDFSはHadoop分布式文件係統(Hadoop分散ファイルシステム)の頭文字を取った略語です。HDFSの機能は,コモディティハードウェア上で実行するように設計された分散ファイルシステムとして動作します。HDFSはフォルトトレラントで,低コストのハドウェアに導入できるように設計されています。{…}
Apache Hadoopエコシステムとは,Apache Hadoopソフトウェアライブラリのさまざまなコンポーネントを指します。オプンソスプロジェクトだけでなく,補足ルの全てが含まれます。{…}
コンピューティングにおけるハッシュテーブル[ハッシュマップ]とは,キー[一意の文字列または整數]に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは,バケットやスロットの配列にインデックス計算を行うために,ハッシュ関數を使用し,そこから目的の値をみつけます。{…}
ハ郵箱ブ日付関數とは?Hiveでは,デタの処理や照會を行う際に役立多くの組み込み関數を提供しています。これらの関數が提供する機能には,文字列操作,日付操作,型変換,條件演算子,數學関數などがあります。{…}
ホスト型の火花とは?Apache火花とは2009年にUCバークレーで,高速性,使いやすさ,高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache Sparkは,Scala, Java, Python, Rの高レベルAPIと,{…}
Jupyter筆記本はオープンソースで提供されたWebアプリケーションであり,プログラムや數式,その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で,主にデータサイエンティストに利用されます。{…}
Kerasモデルとは?Kerasとは,TheanoとTensorflow上に構築された深層學習のためのハイレベルのライブラリです。Kerasは,Pythonで記述され,深層學習モデルの範囲を作成するためのクリーンで便利な方法を提供します。{…}
リテル向けレereplicationクハウスは,Databricks初の,業界特化型レereplicationクハウスです。ソリュションアクセラレータ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。{…}
ラムダアキテクチャとは,膨大なデタ"ビッグデ"を処理するアプロ。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し,任意の関數を計算する問題を解決するために使用されます。{…}
Apache火花の機械學習ライブラリ(MLlib)とは,シンプルでスケーラビリティが高く,他のツールと容易に統合できるように設計された,機械學習を実裝するためのツールです。火花のスケーラビリティ,言語の互換性,高速性により,データサイエンティストは,分散データを取り巻く複雑さ(インフラストラクチャ,構成など)の解決ではなく,データの問題とモデルに集中できます。{…}
機械學習モデルとは,未知のデータセットからパターンを発見したり,判斷を導き出すプログラムのことです。例えば,自然言語処理では,機械學習モデルにより,これまで聞き取れなかった文章や単語の組み合わせの背後にある意図を解析し,正しく認識できます。{…}
マネージド火花とは,マネージド引發は,バッチ処理,クエリ,ストリーミング,機械學習などのオープンソースのデータツールを利用できるマネージドサービスです。ユザは,このような自動化を使用することで,オンデマンドでクラスタの迅速な作成や管理を容易し,{…}
Apache Hadoop MapReduceとは,エコシステム內のJavaベースの分散実行フレームワークです。開発者が実裝する2の処理ステップを公開することで,分散プログラミングの複雑さを解消します。{…}
什麼是獎章架構?大獎章體係結構是一種數據設計模式,用於邏輯地組織湖濱別墅中的數據,其目標是逐步地改進da的結構和質量{…}
通常,機械學習アルゴリズムを実行する際には,前処理,特徴抽出,モデル適合,検証など一連のステージのタスクが含まれます。例えば,テキスト文書を分類する場合,テキストのセグメンテーションやクリーニング,特徴量の抽出,交差検証での分類モデルのトレーニングなどがあります。{…}
MLOpsは,機器學習操作(機械學習オペレーション)の略語です。機械學習エンジニアリングの中核となる MLOps は、機械學習モデルを本番環境に移行し、維持・監視のプロセスを効率化することに重點を置いています。{…}
モデルリスク管理とは,モデルの誤りまたは誤用に基づく意思決定によって生じる潛在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。{…}
ニューラルネットワークとは,層狀構造が人間の脳內にあるニューロンのネットワーク構造に類似した數理モデルです。ニュロンと呼ばれる相互に結合する処理要素を特徴としており,出力機能を生成します。{…}
オーケストレーションとは,複數のコンピュータシステム,アプリケーション,サービスを調整および管理し,大規模なワークフローやプロセスを実行するために複數タスクをつなぎ合わせることです。これらのプロセスは,自動化された複數タスクで構成され,複數のシステムにまたがることもあります。{…}
熊貓とは,Pythonプログラミング言語。オプンソス(bsdラ)で公開されており,高速で適応性の高いデ。この使いやすいデータ操作ツールは,ウェス・マッキニー氏が開発したものでNumPyパッケージ上に構築されています。{…}
Apache鋪とは,効率的なデータの保存と検索のために設計された,オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符號化方式を提供し,パフォーマンスを向上させます。{…}
予測分析とは,新しいデータと過去のデータを活用してパターンを見つけ出し,將來の結果や傾向を予測する高度な分析手法です。予測分析では,{…}
PyCharmとは,コンピュタプログラミングで使用される統合開発環境(IDE)です。プログラミング言語Python用に作成されています。PyCharmをデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。{…}
PySparkとは?Apache Sparkは,プログラミング言語Scalaで記述されています。PySparkとは,Sparkを実行するためのPython APIです。Apache火花と Python のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)との、{…}
小売業におけるリアルタopenstackムデopenstackタとは,デopenstackタへのリアルタopenstackムなアクセスを意味します。バッチ式のアクセス,分析,コンピューティングから,リアルタイムアクセスに移行することで,データは常時稼働の狀態となり,正確でタイムリーな意思決定とビジネスインテリジェンスの推進が可能になります。{…}
レジリエントな分散データセット(抽樣)とは,火花のリリース以降,火花の最も基本的なユーザー向けAPIです。コアとなるRDDは,クラスタ內のノタ要素の不変の分散コレクションで,{…}
火花にはDataFrame,數據集,耐障害性分散データセット(抽樣)の3種のAPIがあります。耐障害性分散デタセット(rdd)は,分散コンピュドの集合體です。フォルトトレラントで不変な性質を有しています。{…}
火花アプリケーションとは,ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは,主要()関數を実行し,クラスタのノード上で動作します。また,3の役割があり{…}
多くのデータサイエンティスト,アナリスト,一般的なビジネスインテリジェンスユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLは,構造化デタ処理のためのSparkモジュ。數據幀と呼ばれるプログラミングの抽象化が可能で,{…}
Apache火花ストリーミングとは,スケーラブルで耐障害性に優れた特性を持つストリーミング処理システムです。バッチ処理とストリミング処理のワクロドをネ。Sparkストリミングは,コアのSpark APIを拡張したもので,{…}
火花パフォーマンスチューニングとは,システムが使用するメモリやコア,インスタンスなどを記録するための設定を調整する処理のことです。この処理により,Sparkは優れた性能を発揮し,リソスのボトルネックの防止も可能になります。{…}
SparklyrとはR言語とApache火花間のインターフェースを提供するオープンソースのパッケージです。火花では,分散データを低レイテンシで扱えるため,火花の機能を最新のR環境で活用することができるようになりました。{…}
SparkRとは,R言語をSpark上で動作させるためのルです。Sparkの他の言語バンディングと同じ原理に基づいています。SparkRを使用するには、環境にインポートしてコードを実行するだけです。Python ではなく R 言語の構文に従っていることを除けば、Python API と非常に類似しています。{…}
Pythonには,多次元配列を操作するNumPyと呼ばれるビルトesxiンラesxiブラリがあります。PyTensorラブラリを開発するには,NumPyを使用することが第一の要件となります。{…}
ストリーミング分析の仕組み:ストリーミング分析(イベントストリーム処理とも呼ばれる)とは,イベントストリームという連続クエリを使用して,現在のデータと移動中のデータの膨大なデータプールを分析することです。このベントストリムは,金融取引,設備故障,ソ{…}
構造化ストリミングとは,ストリタを処理するための高レベルAPIです。Spark 2.2で実運用が可能になりました。構造化ストリミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、{…}
TensorFlowとは,2015年11月に穀歌がリリースした機械學習用のオープンソースフレームワークです。CPU、GPUおよびGPUクラスターでの深層學習,ニューラルネットワーク,一般的な數値計算をサポートしています。{…}
估計は,完全な高位モデルを表しますが,多くのユーザーにとって直観的ではないようです。估計APIとは,モデルを訓練して,その精度を評価し,推論を作成するためのメソッドを提供する高レベルAPIです。{…}
トランスフォーメーションとは:火花では,コアとなるデータ構造は不変であり,一度作成したデータ構造は変更できないため,実際に使用する際に,最初はこの概念に疑問を抱くかもしれません。SparkでDataFrameを変更するためには,{…}
鎢は,Apache火花の実行エンジンを変更する包括プロジェクトのコードネームです。火花アプリケーション向けのメモリとCPUの効率を大幅に向上させることに重點を置き,性能を最新のハードウェアの限界に近づけます。{…}
統合人工知能(可用)は開発者カンファレンス“F8でFacebookによって発表されました。可用はFacebook主導で開発された,PyTorchと咖啡の2つの深層學習フレームワークを統合したもので,PyTorchは大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦點を當て,牛奶は,Androidや覆盆子πデバイスのモデル展開に焦點を當てています。{…}
統合デタ分析とは,デタ処理をai技術と統合する新しいカテゴリのソリュションです。企業組織にとってのaiの実現可能性を格段に高め,aiへの取り組みを加速化させます。統合デタ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、{…}
データブリックスの統合データ分析プラットフォームは,データサイエンスをエンジニアリングとビジネスに統合し,組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで,大規模なデータを製限なく迅速に準備し,クリーンアップすることができます。
{…}
統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は,業務に関わるあらゆるデータを保持し,エンタープライズ全體でのアクセスが可能な統合データベースです。今日,多くの企業においてデロ化されています。{…}
Baidu
map