跳到主要內容

術語表

無所不包的

ゲノミクスとは,生物のゲノムのシ,ケンシングと分析に関する遺伝學の一分野です。その主な役割は,DNAのシーケンス全體,またはDNAを構成する原子の組成,およびDNA原子間の化學結合を決定することです。ゲノミクスの分野は,全體構造としてのゲノムに重點を置いており,生物の完全な遺伝物質の研究として定義することができます。DNAは1869年に初めて単離されましたが,ゲノミクスは,科學者が単純な生物のDNAシーケンスを決定した1970年代に始まったばかりです。ゲノミクスの分野で最{…}
デジタルツインとはIBMによると,デジタルツインの従來の定義は,“物理オブジェクトを正確に反映するように設計された仮想モデル”です。デジタルンは、離散的または連続的な製造プロセスにおいて、さまざまな IoT センサー(OT:運用技術データ)やエンタープライズデータ(IT:情報技術)を用いてシステムやプロセスの狀態データを収集し、仮想モデルを形成します。このモデルは、シミュレーションの実行、性能の問題の調査、知見の抽出に使用できます。 デジタルツインの概念は、特に新しいものでは{…}
數據集とは,JavaおよびScala用のタプセフなSparkの構造化APIです。PythonおよびRは動的型付け言語であるため,このAPIの使用はできませんが,ScalaやJavaで大規模なアプリケーションを作成するためには強力なツールです。DataFrameは、行型のオブジェクトの分散型コレクションであり,さまざまなタイプの表形式データを保持できます。數據集APIを使用すると,データフレーム內のレコードにJavaクラスを割り當て,Jav{…}
データボルトとは數據金庫(データボルト)とは,データモデリングのデザインパターンで,エンタープライズ規模の分析向けのデータウェアハウスを構築する際に使用されます。デタボルトには,ハブ,リンク,サテラトの3種類のエンティティがあります。ハブは,ビジネスの中核となるコンセプトを,リンクは,ハブ間のリレ,ションシップを表します。サテラトは,ハブに屬する情報やハブ間のリレションシップに関するデタを格納します。デタボルトは,レクハウスのパラダムを採用{…}
データマートとはデータマートは,テーブルのセットを含むキュレートされたデータベースです。単一のデータチームやコミュニティ,マーケティングやエンジニアリング部門といった基幹業務の特定のニーズに対応できるよう設計されています。デ,タマ,トは通常,デ,タウェアハウスよりも小規模で,特定の目的に特化しています。一般的には,大規模なエンタープライズのデータウェアハウスのサブセットとして扱われ,分析やBI(ビジネスインテリジェンス),レポーティングに使用されます。デ,タマ,トは,中央デ,タウェアハ{…}
デ,タ共有とはデ,タ共有とは,同じデ,タを複數のユ,ザ,で利用できるようにすることです。増加し続けるデ,タは,あらゆる企業にとって重要な戦略的資産です。組織內外におけるデ,タ共有は,新たなビジネスチャンスを生み出すカギとなる技術です。外部データを利用するだけでなく,データを共有することで,パートナーとのコラボレーション,新たなパートナーシップの確立,データのマネタイズによる新たな収益源の確保が可能になります。従來のデ,タ共有ソリュ,ションSFTP(SSH File Tra . sh{…}
メダリオンアーキテクチャとはメダリオンアーキテクチャとは,レイクハウスのデータを論理的に整理するために用いられるデータ設計を意味します。データがアーキテクチャの3つのレイヤー(ブロンズ→シルバー→ゴールドのテーブル)を流れる際に,データの構造と品質を増分的かつ漸次的に向上させることを目的としています。メダリオンア,キテクチャは,“マルチホップ”ア,キテクチャとも呼ばれます。,レクハウスアキテクチャのメリットシンプルなデタモ{…}
金融サービスのパーソナライズとは金融商品やサービスのコモディティ化が進み,メディアや小売業界がパーソナライズされた體験を好むようになったことで,消費者の目は肥えてきています。消費者から求められるものが日々変化していく中で,銀行がこれからも必要とされ続けるためには,パーソナライズされた知見やレコメンド,財務目標の設定,レポート機能といった従來の銀行業務を超えた魅力的な銀行體験を提供する必要があり,これらは全て地理空間や自然言語処理(NLP)などの高度な分析機能によって実現されます。金融サ{…}
トランザクションとはデータベースやデータストレージシステムにおけるトランザクションとは,1つの作業単位として扱われるあらゆる操作のことです。トランザクションは,完全に実行される,もしくは全く実行されないかのいずれかで,ストレージシステムを一貫した狀態に保ちます。トランザクションの典型的な例として,銀行の預金口座から現金を引き出す処理が挙げられます。この場合,預金口座から現金を引き出したか,もしくは全く引き出さなかったか,どちらかの処理が発生し,中間の狀態はありません。酸{…}
機械學習や深層學習における最適化のための最も一般的なアルゴリズムの1つに,勾配降下法があります。勾配降下法は機械學習モデルのトレ,ニングに使用されます。勾配降下法の種類現在,機械學習や深層學習のアルゴリズムに使用されている勾配降下法は,主に3種類あります。バッチ勾配降下法3種類の勾配降下法の中で,バッチ勾配降下法は一番容易な手法です。トレーニングデータセットの各データの誤差を計算しますが,トレーニングデータの計算が全て終了するまでモデル{…}
Apache蜂巢とはApache蜂巢は,Apache Hadoop分散ファイルシステム,(HDFS),から抽出された大規模なデータセットの読み取り,書き込み,および管理を行うために設計されたオープンソースのデータウェアハウスソフトウェアで,より規模の大きい,Hadoopエコシステムの側麵も持ち合わせています。Apache蜂巢の豊富なドキュメントと継続的なアップデートにより,Apache蜂巢はアクセスしやすい方法{…}
Apache撚角羚とはApache撚角羚とは,Apache  Hadoop 向けに開発された無料のオープンソースの列指向ストレージシステムです。構造化データ用エンジンで,各行への低遅延でランダムなミリ秒スケールのアクセスに加えて,優れたアクセスパターン分析もサポートします。広く普及している,Hadoop分散ファイルシステム(HDFS)とNoSQLデータベースのHBase間をつなぐために作成されたビッグデータエンジンです。Hadoo{…}
Apache麒麟とはApache麒麟とは,ビッグデータの対話型分析のための分散型オープンソースのオンライン分析処理(OLAP)エンジンです。Apache麒麟は,Hadoop や火花でSQLインターフェイスと多次元分析(OLAP)を提供するよう設計されています。さらに、ODBCドライバ,JDBCドライバ,REST APIを介してBIツールと容易に統合します。2014年にeBayが構築したApache麒麟{…}
Apache火花とはApache火花はビッグデータのワークロードに使用するオープンソースの分析エンジンです。リアルタム分析とデタ処理のワクロドに加えて,両方のバッチ処理が可能です。Apache火花は 2009 年にカリフォルニア大學バークレー校の研究プロジェクトとして開発されました。それまで研究者は、Hadoop システムでのジョブ処理を高速化する方法を模索していました。Apache Spark は Hadoop MapRedu{…}
Catalystオプティマaapl . exeザとは,Spark SQLで主要な役割を果たす最適化機能です。年代cala のパターンマッチングや準クォートなどの高度なプログラミング言語の機能を斬新な方法で利用し、拡張可能なクエリオプティマイザを構築します。Catalyst は Scala の関數型プログラミング構造に基づいており、次の 2 つの主要な目的を想定して設計されています。 Spark SQLへの新しい最適化技術と機能の追加を容易にする 外部の開発者でもオプティマイザの拡張を実行できるよ{…}
深層學習において,畳み込みニューラルネットワーク(CNNまたは事先)はディープニューラルネットワークの1つの手法です。畫像內のパターン認識に通常使用されますが,空間データ分析,コンピュータビジョン,自然言語処理,信號処理などさまざまな用途に対する導入事例もあります。畳み込みネットワークのアーキテクチャは人間の脳內のニューロン結合パターンに類似し,視覚野の組織構造に著想を得ました。人工ニューラルネットワーク関連のこのタイプは,ネットワークの最も重要な操作の一つである”畳み込み”から名{…}
磚ランタイムは,データブリックスが管理するマシンのクラスタ上で実行されるソフトウェアアーティファクトのセットです。年代park はもちろん、ビッグデータ分析の操作性やパフォーマンス、セキュリティなどを大幅に向上させるコンポーネントや更新プログラムも數多く追加されています。Databricks ランタイムが他のランタイムよりも優れている點は次のとおりです。 優れたパフォーマンス:Databricks I/Oモジュール(DBIO)は、垂直統合スタックを活用してクラウドで{…}
DataFrameとはDataFrame の概念は,多くの言語やフレームワークで共通しています。DataFrameは,柔軟かつ直感的にデータの保存や操作ができるため,最新のデータ分析で最も一般的に使用されるデータ構造の1つです。DataFrameにはスキーマと呼ばれる青寫真が含まれており,各列の名前とデータタイプが定義されています。年代park DataFrame には、文字列型や整數型などの汎用的なデータタイプと、構造型などの Spark 固有のデータタイプを{…}
DNAシーケンスとはDNAシーケンスとは,DNA(デオキシリボ核酸)のヌクレオチドの正確な配列を決定するプロセスです。塩基としても知られる4つの化學構成要素(アデニン,グアニン,シトシン,チミン)の順序のDNAシーケンシングは,DNA分子內で発生します。DNAシーケンシングの最初の手法は,1970年代半ばにフレッド・サンガー(弗雷德·桑格)ウォルター・ギルバート(沃爾特·吉爾伯特)アラン・マクサム(Allan之一)によって開発されました。配列決定さ{…}
生活表δ生活表(DLT)はデータパイプラインの構築と管理を容易にし,信頼性を向上させて三角洲湖に高品質データをもたらします。,Databricks ETLの詳細 ETLとは組織におけるデータ,データソースの増加,データタイプの多様化に伴い,分析,データサイエンス,機械學習に取り組み,データを活用してビジネスの気づきを引き出{…}
特征工程,也稱為數據預處理,是將原始數據轉換為可用於開發機器學習模型的特征的過程。介紹f的基本概念{…}
Hadoopとは“Hadoop”とは何を意味するのでしょうか。“Hadoop”とは何の略なのでしょうか?Hadoopは、High Availability Distributed Object Oriented Platform の略です。そして、これこそが Hadoop テクノロジーが開発者に提供するものです。オブジェクト指向タスクの並列分散による高可用性を実現します。 Apache Hadoop とは、オープンソースの Java ベースのソフトウェアプラットフォームで、ビッ{…}
Hadoop エコシステムとはApache Hadoopエコシステムとは,Apache Hadoopソフトウェアライブラリのさまざまなコンポーネントを指します。オプンソスプロジェクトだけでなく,補足ルの全てが含まれます。Hadoopエコシステムの最もよく知られているツールには、HDFS、Hive、Pig、YARN、MapReduce、Spark、HBase Oozie、Sqoop、Zookeeper、などがあります。開発者が頻繁に使用する主要な Hadoop エコ{…}
HadoopクラスタとはApache  Hadoop とは,オープンソースのJavaベースのソフトウェアフレームワークで,並列データ処理エンジンです。アルゴリズム(MapReduce アルゴリズムなど)を使用してビッグデータ分析処理タスクを並列実行できる小さなタスクに分割し,Hadoopクラスタ全體に分散させることができます。Hadoopクラスタとは,ビッグデータセットに対してこのような並列計算を実行するためにネットワーク化された,ノードと呼ばれるコ{…}
HDFS HDFS (Hadoop分散ファイルシステム)は,Hadoopアプリケーションで使用される主要なストレージシステムです。このオ,プンソ,スのフレ,ムワ,クは,ノ,ド間のデ,タ転送を高速に行うことで動作します。ビッグデ,タを取り扱い,保存する必要のある企業でよく利用されています。HDFSは,ビッグデータを管理し,ビッグデータ解析をサポートする手段として,多くのHadoopシステムにおいて重要なコンポーネントとなっています。HDFSを利用している企業は世界中に{…}
ハイブ日付関數とは蜂巢では,データの処理や照會を行う際に役立つ多くの組み込み関數を提供しています。これらの関數が提供する機能には,文字列操作,日付操作,型変換,條件演算子、數學関數などがあります。蜂巢の組み込み関數の種類日付関數日付に日數を加算したり,他の類似の演算を追加するなど,日付データ型に対する操作を実行するために主に使用されます。數學関數主に數學的計算を実行するために使用されます。條件関數條件をテストするために使用{…}
Jupyter筆記本とはJupyter Notebook はオープンソースで提供されたWebアプリケーションであり,プログラムや數式,その他のマルチメディアリソースを含むドキュメントを作成・共有する目的で,主にデータサイエンティストに利用されています。Jupyter筆記本の用途Jupyter筆記本は探索的データ解析(EDA),データクレンジングとデータ変換,データ可視化,統計モデリング,機械學習,深層學習{…}
Kerasモデルとは?Kerasとは,Theanoと,Tensorflow 上に構築された深層學習のためのハイレベルのライブラリです。Kerasは,Pythonで記述され,深層學習モデルの範囲を作成するためのクリーンで便利な方法を提供します。Kerasは,ニューラルネットワークの開発とテストに関して最も使用されている高レベルのニューラルネットワークAPIの1つです。現在では,ニューラルネットワークのレイヤーの作成や複雑なアーキテクチャの設定が,柯{…}
Apache Hadoop MapReduceとはMapReduceは,エコシステムの一部であり,Javaベースの分散実行フレームワークです。開発者が実裝する地圖処理と減少処理の2つの処理ステップを公開することで,分散プログラミングの複雑さを解消します。地圖処理では,デ,タは並列処理するタスク間で分割されます。デ,タの各チャンクには,変換ロジックを適用できます。地圖処理が完了すると減少処理が行われ,地圖処理で分割されたデ,タの集約を実行{…}
MLOpsとはMLOpsは,機器學習操作(機械學習オペレーション)の略語です。機械學習エンジニアリングの中核となる MLOps は、機械學習モデルを本番環境に移行し、維持・監視のプロセスを効率化することに重點を置いています。MLOps は、多くの場合、データサイエンティスト、DevOps エンジニア、IT 部門で構成されるチーム間のコラボレーションを擔います。   MLOps の活用法 MLOps は、機械{…}
如果底層表是Databricks Delta Tables . , Databricks支持多語句事務。這意味著事務中的所有語句都是atomi的{…}
データサイエンスに関していうと,熊貓DataFrameを使いこなすことで,ビジネスのあり方そのものを変革できるといっても過言ではありません。ただし,そのためには適切なデ,タ構造が必要です。これらを上手く活用することで,デ,タの操作や分析を最大限効率的にできるようになります。この目的のために使える最も便利なデータストラクチャの1つが熊貓DataFrameです。熊貓とは,Pythonでデ,タ分析を行うためのオ,プンソ{…}
鑲木地板とはApache拚花は効率的なデータの保存と検索のために設計された,オープンソースの列指向データファイル形式です。複雑なデータを一括処理するための効率的なデータ圧縮と符號化方式を提供し,パフォーマンスを向上させます。Apache拚花はバッチとインタラクティブの両方のワークロードで共通の交換形式となるように設計されており,Hadoop で利用可能な他の列指向ストレージファイル形式であるRCFileや獸人に似ています。{…}
PyCharmとは,コンピュ,タプログラミングで使用される統合開発環境(IDE)です。プログラミング言語Python用に作成されています。PyCharmをデータブリックスで使用する場合、デフォルトでは PyCharm は Python の仮想環境を作成しますが、Conda 環境の作成や既存環境の使用設定が可能です。{…}
PySparkとはApache火花はプログラミング言語Scalaで記述されています。PySparkとは,Sparkを実行するためのPython APIです。Apache火花とPython のコラボレーションをサポートするためにリリースされました。PySpark は、Apache Spark とプログラミング言語 Python での Resilient Distributed Dataset(RDD)とのインターフェイスもサポートしており、これは Py4{…}
Sparkには,DataFrame, Dataset, RDDの3のAPIがあります。レジリエントな分散データセット(抽樣)とはレジリエントな分散データセットは(抽樣),分散コンピューティングを用いたレコードコレクションです。フォ,ルトトレラントで不変な性質を有しています。RDDは,低レベルAPIとの並列操作が可能で,遅延機能によりSparkの操作を迅速化します。また,rddは2の操作をサポトしています。トランスフォ,メ,ション-別のRDDを返す遅延操作{…}
火花Elasticsearchとは火花Elasticsearchとは,ドキュメント指向および半構造化データを格納,取得,管理するNoSQL分散データベースです。GitHubオープンソースであるElasticsearchは,Apache Luceneをベースに構築され,Apacheライセンスの條件下でリリースされたRESTfulな検索エンジンでもあります。ElasticsearchはJavaベ,スであるため,さまざまな形式のドキュメントフ{…}
多くのデータサイエンティスト,アナリスト,一般的なBIユーザーは,データの解析に対話型のSQLクエリに活用しています。Spark SQLとは,構造化デ,タ処理のためのSparkモジュ,ルです。DataFramesと呼ばれるプログラミングの抽象化が可能で、分散型 SQL クエリエンジンとしても機能します。これにより、既存のデプロイやデータで未修正の Hadoop Hive クエリを最大 100 倍の速さで実行できるようになりました。また、他の Spark エコシステ{…}
SparklyrとはSparklyrとはR言語とApache火花間のインターフェースを提供するオープンソースのパッケージです。火花では,分散データを低レイテンシで扱えるため,火花の機能を最新のR環境で活用することができるようになりました。Sparklyrは,インタラクティブな環境にある大規模なデータセットと連動するための有効なツールです。これにより,火花でデータを分析するために,Rの使い慣れたツールを使用することが可能となり,Rと石膏{…}
SparkRとは,R言語をSpark上で動作させるためのルです。Sparkの他の言語バescンディングと同じ原理に基づいています。SparkRを使用するには、環境にインポートしてコードを実行するだけです。Python ではなくR 言語の構文に従っていることを除けば、Python API と非常に類似しています。ほとんどの場合、Python で利用可能なものは、SparkR でも利用できます。{…}
火花アプリケーションとは,ドライバプロセスと一連のエグゼキュータプロセスで構成されるアプリケーションプログラムです。ドライバプロセスは,主要()関數を実行し,クラスタのノード上で動作します。また3つの役割があり,火花アプリケーションに関する情報管理,ユーザーのプログラムや入力への応答,およびエグゼキュータ(瞬間的に定義)全體におけるタスクの分析,分散,スケジューリングを行います。ドラ@ @バプロセスは必要不可欠です。Sparkアプリケ,ションの中心であり、アプリケーションの{…}
Apache火花ストリーミングは,Apache火花の前世代ストリーミングエンジンです。Sparkストリ,ミングの今後の更新はなく,レガシ,プロジェクトとなります。Apache火花には、「構造化ストリーミング」と呼ばれる新しくて使いやすいストリーミングエンジンがあります。ストリーミングアプリケーションとパイプラインには、Spark 構造化ストリーミングをご使用ください。構造化ストリーミングの詳細はこちらでご覧いただけます。 Sparkストリーミングとは{…}
火花パフォーマンスチューニングとは火花パフォーマンスチューニングとは,システムが使用するメモリやコア,インスタンスなどを記録するための設定を調整する処理のことです。この処理により,Sparkは優れた性能を発揮し,リソ,スのボトルネックの防止も可能になります。データのシリアライズとはメモリ使用量を削減するために,火花抽樣をシリアル化して格納する必要があります。また,デタのシリアラズは,ネットワクのパフォマンスにも影響します。Sparkの性能を向{…}
Pythonには,NumPy多次元配列を操作する。PyTensorラ,NumPyを使用することが第一の要件となります。Sptensorは,Sparse Tensorを表すクラスです。稀疏的張量とは、エントリの大部分がゼロであるデータセットです。例としては、大規模な対角行列(多くがゼロ要素)が挙げられます。Tensor オブジェクトの値全體を保存するのではなく、非ゼロ値とそれに対応する座標を保存します。S{…}
流分析是如何工作的?流分析,也稱為事件流處理,是通過使用連續查詢(稱為事件流)對大量當前和“動態”數據池進行分析。這些流是由{…}
穀歌は,2015年11月に機械學習のためのフレームワークをオープンソースで公開し,TensorFlow と名付けました。CPU、GPU GPUクラスタでの深層學習,ニューラルネットワーク,一般的な數値計算をサポートしています。TensorFlowの最大の利點はそのコミュニティにあり、多くの開発者、データサイエンティスト、データエンジニアがオープンソースの開発に貢獻しています。TensorFlow の現在のバージョンは、リリースノートとともに GitHub&nbs{…}
Tensorflow估計APIとは估計は,完全なモデルを表しますが,ユーザーの多くに複雑な印象を與える傾向があります。估計APIとは,モデルを訓練して,その精度を評価し,推論を作成するためのメソッドを提供する高レベルAPIです。下の図のように,TensorFlow は複數のAPI層からなるプログラミングスタックを提供します。Estimatorには,事前構築されたEstimatorと,獨自でカスタマescズする{…}
鎢プロジェクトとは鎢は、Apache火花の実行エンジンを変更する包括プロジェクトのコードネームです。火花アプリケーション向けのメモリとCPUの効率を大幅に向上させることに重點を置き,性能を最新のハードウェアの限界に近づけます。鎢プロジェクトに含まれるイニシアティブメモリ管理とバイナリ処理:アプリケーションのセマンティックスを活用してメモリを明示的に管理し,JVMオブジェクトモデルとガベージコレク{…}
アノマリ検知とは,定常狀態とは統計的に異なる不審なベントや観測値を特定する手法です。異常検知とも呼ばれます。このような”異常“な挙動は,多くの場合に,クレジットカードの不正使用,マシンの故障,サイバー攻撃といった問題の存在を意味します。例えば,膨大な數のトランザクションの監視が必要な金融業界では,アノマリー検知がエラーの発生場所の特定や原因の分析を支援し,問題への迅速な対応を可能にします。また,検知した異常値をもとにしたアラ,トの発行にも活用され,擔當者の行動を促します。そこから得られる情報{…}
オルタナティブ(代替)データとはオルタナティブデータ(代替データとも呼ばれる)とは,従來のソースではなく,他のユーザーによって使用されていない代替データソースから収集されたデータ情報です。オルタナティブデータを分析に活用することで,業界標準のデータソースでは得ることができない洞察を取得することが可能です。ただし,正確には何をオルタナティブデータとみなすかは業界によって異なり,自社や競合他社で既に使用されている従來のデータソースに依存されています。標準的なオルタナティブデタタプ{…}
オーケストレーションとはオーケストレーションとは,複數のコンピュータシステム,アプリケーション,サービスを調整および管理し,大規模なワークフローやプロセスを実行するために複數タスクをつなぎ合わせることです。これらのプロセスは,自動化された複數タスクで構成され,複數のシステムをまたぐこともあります。オーケストレーションは,頻繁に繰り返されるプロセスの実行を効率化および最適化し,データチームが複雑なタスクやワークフローを容易に管理できるようにします。プロセスはいでも繰り返しが可能で{…}
オープンバンキングとはオープンバンキングとは,消費者の事前同意のもとに,消費者の金融データへのアクセスをセキュアに共有する方法です²。規製や技術革新,競合の勢いに後押しされ,オープンバンキングは,銀行以外の第三者や消費者などが顧客データをさらに活用できるよう,顧客データの民主化を呼びかけています。この技術革新は,銀行業界を他業界との高い連攜性を持つプラットフォーム提供者へと進化させると同時に,銀行にエコシステムを拡大し,新規市場への參入機會を與えています。オ,プンバンキングを利用して,現{…}
サービスとしての阿帕奇(Apache火花Spark-as-a-Service)火花とはApache火花は,大規模なデータの高速リアルタイム処理を実現するオープンソースのクラスタコンピューティングフレームワークです。引發は,カリフォルニア大學バークレー校のAMPLabで2009年に研究が開始されて以來,目覚ましい発展を遂げてきました。Apache火花は現在50を超える組織から200名以上が參加する,ビッグデータの最{…}
スタースキーマとはスタースキーマとは,データベース內のデータを整理することで理解・分析しやすくなった多次元データモデルで,データウェアハウスやデータベース,データマート,その他のツールに適用できます。スタ,スキ,マの設計は,大規模なデ,タセットへのクエリを実行するために最適化されています。1990年代にラルフ・キンボールによって発表されたスタースキーマは,反復的なビジネス定義の重複を減らすことによってデータの保存や履歴の管理,データの更新を効率的に行い,データウェアハウスでのデ{…}
スノーフレークスキーマとはスノーフレークスキーマは,スタースキーマを拡張した多次元データモデルで,ディメンションテーブルがサブディメンションテーブルに細分化されたものです。スノ,フレ,クスキ,マは、データウェアハウスやデータマート、リレーショナルデータベースの多次元分析を使用した BI(ビジネスインテリジェンス)やレポーティングによく使用されています。 スノーフレークスキーマでは、エンジニアがそれぞれのディメンションテーブルを論理的なサブディメンションに細分化します。このため、デー{…}
デタウェアハウスとは?データウェアハウス(DWH)は複數のソースから得られた最新データや履歴データをビジネスに適した形で蓄積し,知見の取得やレポート作成を容易にするデータ管理システムです。主に,ビジネスンテリジェンス(bi),レポト作成,デタ分析に使用されます。データウェアハウスでは,POSシステム,インベントリ管理システム,マーケティングや販売データベースなどの業務システムに蓄積されたデータを,迅速かつ容易に分析可能です。デ,タは,オペレ,ショナルデ,タストアを中継{…}
データガバナンスとはデータガバナンスとは,データがビジネス戦略に沿った価値をもたらすよう,組織內のデータを統製することを意味します。単なるツールやプロセスにとどまらず,人,プロセス,技術,データを包括するフレームワークを用いてデータを統製し,ビジネスの目標達成を支援するものです。ビジネスにおけるデータガバナンスのメリットデータの量と複雑さの増大に伴い,コアビジネスの強化につながるデータガバナンスに注目しています。デ,タガバナンスはビジネスに次のようなメリットをもたらします{…}
デタレクハウスとは?データレイクハウスとは,データレイクの柔軟性,経済性,スケーラビリティとデータウェアハウスのデータ管理や酸トランザクションの機能を取り入れたオープンで新たなデータ管理アーキテクチャで,あらゆるデータにおけるビジネスインテリジェンス(BI)と機械學習(ML)を可能にします。シンプル,柔軟で低コストなデータレイクハウスデータレイクハウスは新たなオープンシステムデザインによって構築されており,データウェアハウスと類似のデータ構造とデータ管理機能{…}
データ分析プラットフォームとはデータ分析プラットフォームとは,膨大で複雑な動的データの分析に必要なサービスとテクノロジーのエコシステムです。企業が所有する各種ソ,スからのデ,タの取得,結合,連動,検索,視覚化を可能にします。包括的なデータ分析プラットフォームには,予測分析,データ視覚化,ロケーションインテリジェンス,自然言語,コンテンツ分析など,さまざまな機能を搭載した複數のツールが組み込まれています。その主な目的は,あらゆる種類のデタを実用的な洞察に変換し,真のビジネス成果になげる{…}
トランスフォーメーションとは:火花では,コアとなるデータ構造は不変であり,一度作成したデータ構造は変更できないため,実際に使用する際に,最初はこの概念に疑問を抱くかもしれません。火花でDataFrameを変更するためには,火花に対し,既存のDataFrameをどのように修正したいかを指示する必要があります。この指示をトランスフォ,メ,ションと呼びます。トランスフォ,メ,ションとは、Sparkを使用してビジネスロジックをどのように記述するかの中心となるものです。トランスフ{…}
ニューラルネットワークとはニューラルネットワークとは,層狀構造が人間の脳內にあるニューロンのネットワーク構造に類似した數理モデルです。ニュ,ロンと呼ばれる相互に結合する処理要素を特徴としており,出力機能を生成します。ニュ,ラルネットワ,クは、入力層と出力層で構成されており、その多くには隠れ層があります。この隠れ層は、入力を出力層で使用できるものに変換するユニットで構成されています。 ニューラルネットワークアーキテクチャのタイプ 人工ニューラルネットワークとしても知られるニュー{…}
コンピューティングにおけるハッシュテーブル[ハッシュマップ]とは,キー[一意の文字列または整數]に基づいてオブジェクトに事実上直接アクセスできるデータ構造です。ハッシュテーブルは,バケットやスロットの配列にインデックス計算を行うために,ハッシュ関數を使用し,そこから目的の値をみつけます。使用されるキ,の主な特徴は次のとおりです。社會保障番號,電話番號,口座番號などのキ,を使用します。キ,は一意である必要があります。各キ,は,値に関連付け(マッピング)されます。{…}
バイオインフォマティクスは,膨大な生物學のデータのコレクションから知識を抽出するために計算を使用する研究分野です。バイオインフォマティクスは,生物學のデータの保存、取得,整理,分析を行うバイオテクノロジーに它を活用することを指します。膨大なデータ量がゲノム配列決定プロジェクトや他の研究から生成されており,このデータ急増により,実に生物學における課題のほとんどは,膨大な計算の必要性に迫られています。バオンフォマティクスという用語は,1970{…}
データ分析とビッグデータ分析の違いHadoop が開発される以前は,最新のストレージと計算システムの基盤となる技術には限りがあり,企業での分析はスモールデータに製限されていました。しかし,このような比較的簡易な形式でも,特に新しいデータソースの統合においては,分析が困難なケースが生じていました。従來のデータ分析は構造化データのテーブルで構成されたリレーショナルデータベース(SQLデータベースなど)の使用に依存しています。デ,タを分析用のデ,タベ,スに取り込む前に,未加工デ,タ{…}
ベイジアンニューラルネットワークとはベイジアンニューラルネットワーク(BNN)とは,過學習の製禦を目的として,事後確率推定により標準ネットワークを拡張することを指します。広い視點からみると,ベイジアン手法は統計的方法論を使用して,モデルパラメータ(ニューラルネットワークの重みとバイアス)を含む,あらゆるものがそれに付隨する確率分布を持つようにすることです。プログラミング言語において,特定の値を取得できる変數は,その特定の変數にアクセスする度に同じ結果になります。まず,一連の入力特徴量の加{…}
ホスト型の火花とはApache火花とは,2009年にUCバークレーで,高速性,使いやすさ,高度な分析を中心として構築されたビッグデータ用の高速で汎用的なクラスタコンピューティングシステムです。Apache火花は,Scala、Java、Python、Rの高レベルAPIとデータ分析用の一般的な計算グラフをサポートする最適化されたエンジンを提供します。さらに、SQLとデータフレーム用の火花SQL,機械學習用のMLlib,グラフ処理用のG{…}
データブリックスの三角洲パイプラインとマテリアライズドビュー概要三角洲パイプラインは,データパイプラインのライフサイクルを管理するAPIとUIを提供します。オープンソースのフレームワークがデータエンジニアリングチームによるETLの開発をシンプルにし,データの信頼性を向上させ,運用の拡張を支援します。データ変換のコーディングやジョブのスケジューリングを行う代わりに,宣言型パイプラインを構築することで,データの最終狀態を容易に定義できます。さまざまなタスク間{…}
マネージド火花とはマネージド引發は,バッチ処理,クエリ,ストリーミング,機械學習などのオープンソースのデータツールを利用できるマネージドサービスです。ユーザーは,このような自動化を使用することで,オンデマンドでクラスタの迅速な作成や管理を容易し,タスクが完了したときにクラスタをオフにすることができます。ワークロード,パフォーマンス要件,または既存のリソースに基づいてクラスタのサイズを設定することも可能です。さらに,ほんの數秒で動的にスケ,ルアップおよびスケ,ルダウンできる{…}
モデルリスク管理とは,モデルの誤りまたは誤用に基づく意思決定によって生じる潛在的な悪影響がもたらすリスクを管理することです。モデルリスク管理は、モデルリスク、すなわちモデルの誤りや誤用の可能性を特定、測定、軽減する技術や手法を取り入れることを目的にしています。金融サービスにおけるモデルリスクとは、精度が低いモデルを使用して意思決定を行うことで生じる損失リスクを意味します。多くの場合は金融証券の評価に使用され、消費者信用スコアの付與、クレジットカードの不正取引のリアルタイムな確率予測、マネーロンダ{…}
ラムダアーキテクチャとはラムダアーキテクチャとは,膨大なデータ”ビッグデータ”を処理するアプローチです。ハイブリッドアプローチを使用してバッチ処理やストリーム処理メソッドへのアクセスを提供し,任意の関數を計算する問題を解決するために使用されます。ラムダアキテクチャは3のレヤから構成されています。バッチレヤ新しいデタは,デタシステムへのフィドとして継続的に提供されます。デタはバッチレヤとスピドレヤに同時に供給されます。全てのデ,タを一度に調べ,{…}
小売業におけるリアルタイムデータ小売業におけるリアルタイムデータとは,データへのリアルタイムなアクセスを意味します。バッチ式のアクセス,分析,コンピューティングからリアルタイムアクセスに移行することで,データは常時稼働の狀態となり,正確でタイムリーな意思決定とビジネスインテリジェンス(BI)の推進が可能になります。需要予測,パーソナライゼーション,店頭在庫の可用性,到著時間予測,オーダーピッキングとコンソリデーションといったリアルタイムのユースケースは,サプライチェーンのアジリティ{…}
リテール向けレイクハウスリテール向けレイクハウスは,磚初の業界特化型レイクハウスです。ソリュ,ションアクセラレ,タ、データ共有のケイパビリティ、パートナーエコシステムを通じて、小売業者の迅速な業務遂行を支援します。 リテール向けレイクハウスは、テクノロジー、パートナー、ツール、業界イニシアチブの集大成であり、データと AI における強力なコラボレーションを推進します。リテール向けレイクハウスの主要な構成要素は、次の 4 つです。 データと AI{…}
予測分析とは予測分析とは,新しいデータと過去のデータを活用してパターンを見つけ出し,將來の結果や傾向を予測する高度な分析手法です。予測分析の仕組み予測分析では,統計分析技術,分析クエリ,データマイニング,予測モデリング,自動機械學習アルゴリズムなどの多くの技術をデータセットに使用して,特定の事象が発生する可能性を數値化し,假設シナリオやリスク評価などを含む予測モデルを作成します。予測分析により,組織はデ,タに含まれるパタ,ンを見,けて利用することで,リスクと機{…}
予測型メンテナンスとは予測型メンテナンスとは,一言でいうと,予め定められたスケジュールだけでなく,設備の実際の狀態や狀況に基づき,いつ頃,具體的にどのようなメンテナンスを行うべきかを判斷し,設備の稼働時間と生産性を最大化するためのものです。故障を予測や予防し,適切な定期メンテナンスを実施することで,コストのかかる機器のダウンタイムを削減できます。物聯網とセンサーデータが機器からストリーミングされることで,予測型メンテナンスは,製造業者が効率的に機械が停止するタイミングを予測する{…}
人工ニューラルネットワークとは人工ニューラルネットワーク(安)とは,人間の脳內にある神経細胞(ニューロン)の動作を模したコンピューティングシステムです。人工ニューラルネットワークの仕組み人工ニューラルネットワーク(安)は階層で構成される重み付き有向グラフにするとわかりやすく,これらの階層は人間の脳の生體ニューロンを模した多數のノードを特徴とし,相互に接続され,活性化関數を含みます。第1層は,外部から未処理の入力信號を受信します。人間の視覚処理における視神経に類似{…}
構造化ストリ,ミングとは,ストリ,ミングデ,タを処理するための高レベルAPIです。Spark 2.2で実運用が可能になりました。構造化ストリ,ミングでは、Spark の構造化 API を使用してバッチモードで実行するのと同じ操作が、ストリーミング形式で実行可能です。これにより、レイテンシの短縮、インクリメンタル処理が可能になります。構造化ストリーミングの最大のメリットは、事実上コードを変更することなく、ストリーミングシステムから迅速に価値を引き出すことができることです。また、バッチジョブを{…}
通常,機械學習アルゴリズムを実行する際には,前処理,特徴抽出,モデル適合,検証など一連のステージのタスクが含まれます。例えば,テキスト文書を分類する場合,テキストのセグメンテーションやクリーニング,特徴量の抽出,交差検証での分類モデルのトレーニングなどがあります。各ステージに利用できるライブラリは多數ありますが,特に大規模なデータセットを使用する場合,それぞれのライブラリを全體につなげる作業は容易ではありません。また,ほとんどの機械學習ラaapl,ブラリは,分散計算用には設計されていないか,パaapl,プラaapl,ン{…}
機械學習モデルとは機械學習モデルとは,未知のデータセットからパターンを発見したり,判斷を導き出すプログラムのことです。例えば,自然言語処理では,機械學習モデルにより,これまで聞き取れなかった文章や単語の組み合わせの背後にある意図を解析し,正しく認識できます。また,畫像認識では,機械學習モデルを學習させることで,車や犬などのオブジェクトを認識できます機械學習モデルは、大規模なデータセットを用いて「トレーニング」することで、上述のようなタスクの実行が可能になります。トレーニングでは、機械學{…}
Apache火花の機械學習ライブラリ(MLlib)とは,シンプルでスケーラビリティが高く,他のツールと容易に統合できるように設計された,機械學習を実裝するためのツールです。年代parkのスケーラビリティ、言語の互換性、高速性により、データサイエンティストは、分散データを取り巻く複雑さ(インフラストラクチャ、構成など)の解決ではなく、データの問題とモデルに集中できます。Spark 上に構築されたMLlibは、分類、回帰、クラスタリング、協調フィルタリング、次元削減、基になる最適化プリミティ{…}
深層學習とは深層學習とは,人間の脳の構造と機能にインスパイアされたアルゴリズムを用いて膨大なデータを扱う機械學習のサブセットです。そのため,深層學習モデルはディ,プニュ,ラルネットワ,クと呼ばれます。深層學習は、データ表現の學習に基づく機械學習手法の1つで、従來のタスク固有のアルゴリズムとは異なります。 深層學習の仕組み 深層學習では、コンピュータモデルが、畫像、言語、または音聲から直接分類タスクを実行できるように學習します。タスクを繰り返し実行して、結果改善のための微調整を{…}
総合人工知能(可用)は開発者カンファレンス“F8でFacebookによって発表されました。可用はFacebook主導で開発された,PyTorchと咖啡の2つの深層學習フレームワークを統合したもので,PyTorchは大規模なコンピューティングリソースへのアクセスを想定したリサーチに焦點を當て,牛奶は,Androidや覆盆子πデバイスのモデル展開に焦點を當てています。スコ,プが狹いFacebookの統合AIとは異なり,統合{…}
統合データウェアハウスとは統合データウェアハウス(エンタープライズデータウェアハウスとも呼ばれる)は,業務に関わるあらゆるデータを保持し,エンタープライズ全體でのアクセスが可能な統合データベースです。今日,多くの企業においてデ,タはサ,ロ化されています。データの品質,統合,ガバナンスの保守や,メタやマスターデータ,B2Bデータ交換,データベース,アーキテクチャの管理など,同じ組織內の異なるそれぞれの部門で,多様なデータをさまざまなツールで管理しています。大企業におけるデ,タウェアハウス{…}
統合デ,タ分析とは,デ,タ処理をai技術と統合する新しいカテゴリのソリュ,ションです。企業組織にとってのaiの実現可能性を格段に高め,aiへの取り組みを加速化させます。統合デ,タ分析により、企業におけるサイロ化されたデータストレージシステム間でのデータパイプラインの構築や、モデル構築のラベル付きデータセットの準備が容易になるため、組織は既存のデータに AI を実行したり、大規模なデータセットに対して AI を繰り返し実行したりできるようになります。 また、統合データ分析では、幅広い{…}
データブリックスの統合データ分析プラットフォーム,は,データサイエンスをエンジニアリングとビジネスに統合し,組織のイノベーションを加速させます。データブリックスを統合データ分析プラットフォームとして使用することで,大規模なデータを製限なく迅速に準備し,クリーンアップすることができます。また,このプラットフォームでは,あらゆる人工知能アプリケーションに対して毫升モデルを継続的にトレーニングしてデプロイすることも可能です。統合デタ分析プラットフォムを使用するメリットのトップ3は{…}
耐障害性分散データセット(抽樣)とは,火花のリリース以降,火花の主要なユーザー向けAPIとして利用されてきました。抽樣は,クラスタ內の複數のノードに配置されたデータ要素の不変の集合體であり,変換その他の操作のための基礎的なAPIと並行して使用することが可能です。抽樣の使用が適した5つのケースデータセットに対し,低レベルの変換やアクション,管理を実行する場合所有データがメディアストリームやテキストストリームなどの非構造化データである場合{…}
自動化バイアスとは自動化バイアスとは,自動化支援システムや意思決定支援システムに過度に依存することを意味します。自動化された意思決定支援システムの利用可能性は高まっており,集中治療室や航空機のコックピットなど重大な影響を及ぼす意思決定が必要な狀況下での利用も一般的になりつつあります。認知的努力を最小限に抑え,“自動化バイアス”に依存しがちなのは,人間の傾向性ですが,大規模なデータからの學習をベースとするAIや自動化機能にも同様の傾向性が當てはまる懸念があります。このタプのコンピュテ{…}
複合イベント処理(CEP)とは複合イベント処理(CEP)とは,イベント処理,ストリーム処理,あるいはイベントストリーム処理とも呼ばれ,データベースにデータを格納する前か,場合によっては格納せずに,データを照會する技術を使用した処理です。複合イベント処理は,多くの異なる情報を集約するのに有用で,イベント間の因果関係をリアルタイムで特定,分析する整理ツールです。CEPでは連続的に収集されるイベントをパターンと照合し,イベント內容についての洞察の提供,効果的なアクションの積極的な実行を可能にし{…}
設備総合効率(OEE)とは設備総合効率(,OEE )は,製造,におけるオペレーションが,予定されている期間中に,その潛在的な能力(設備,時間,材料)に対して,どれだけ利用されているかを示す指標です。製造時間のう,実際の稼働時間の割合を特定することができます。Oeeは,離散的または連続的なプロセスの総合的な性能を示すダッシュボ,ドです。OEEは100%で最大となり,良い部品だけが(100%,品質),最高速度で(100%{…}
連続実行アプリケーションとは,データにリアルタイムで反応するエンドツーエンドのアプリケーションです。特に開発者は,このアプリケーションを活用することで,単一のプログラミングインターフェイスを使用して,クエリの提供やバッチジョブとの対話など,現在別々のシステムで処理されている連続実行アプリケーションの側麵をサポートすることができます。連続実行アプリケ,ションが処理できるユ,スケ,スは次のとおりです。リアルタムで提供されるデタの更新:開発者は,更新と提供(SparkのJDBCサバ{…}
需要予測とは需要予測とは,消費者の需要(將來収益)を予測するプロセスです。具體的には,定量的および定性的デ,タを使用して,消費者が購入する商品の品揃えを予測します。小売業者は,消費者が求めるタイミングで商品を提供できないことで,1兆円規模の収益機會を逃しています。低精度の需要予測は,需要に即していない商品の陳列につながり,さらには,店頭の在庫切れなどの大きな問題を引き起こします。リテ,ル向けレ,クハウスによる需要予測リテ,ル向けレ,クハウスは,{…}
高密度テンソルとは,全ての値が示される連続したメモリのブロックに値を格納する幾何概念です。テンソルまたは多次元配列は,多様な多次元デ,タ分析アプリケ,ションで使用されます。さまざまなオープンソースのサードパーティツールボックスによって拡張されたMATLAB套件など,テンソル計算を実行できるソフトウェア製品は數多くあります。Matlab単體でも,さまざまな要素ごとおよびバ,ナリの密なテンソル演算をサポ,トしています。各ニュ,ロンが前の層の全てニュ,ロンからの入力を受け取り,高密度で接{…}
Baidu
map