術語表
無所不包的
DNA서열이란무엇입니까?DNA서열은DNA(脫氧核糖核酸,디옥시리보핵산)의뉴클레오타이드(核苷酸)의정확한순서를판별하는과정입니다。, DNA서열은네가지화학적기본요소인아데닌,구아닌,사이토신,타이민등DNA분자내에서발생하는화학물질의순서를말합니다。이것을‘염기’라고도합니다。DNA서열을정하는첫번째방식은1970년대중반弗雷德·桑格{…}
Hive날짜함수란무엇입니까?Hive는수많은기본내장함수를제공하여데이터처리와쿼리에도움이됩니다。이런함수가제공하는기능중에는문자열조작,날짜조작,타입변환,조건연산,자수학적함수등이있으며이외에도여러가지가있습니다。蜂巢기본내장함수의유형날짜함수주로날짜에일수를더하는등이와비슷한연산의날짜데이터타입을대상으로한연산을수행하는데쓰입니다。수학{…}
Lambda아키텍처란무엇입니까?λ아키텍처는엄청난대량의데이터(즉”빅데이터”)를처리하는방식의일종으로,하이브리드방식으로일괄처리나스트림처리방식을이용할수있게해줍니다。Lambda아키텍처는임의함수연산문제를해결하는데쓰입니다。Lambda아키텍처자체는3개의계층으로이루어져있습니다。배치계층새로운데이터는데이터시스템에일종의피드형태로끊임없이유입됩니다。이것을{…}
大獎章아키텍처란무엇입니까?메달리온아키텍처는,레이크하우스에논리적으로데이터를정리하는데사용하는데이터설계패턴입니다。이아키텍처의목표는데이터가아키텍처의각레이어를통과하는동안(브론즈⇒실버⇒골드레이어테이블)데이터의구조와품질을증분적,점진적으로개선하는것입니다。메달리온아키텍처는“멀티홉”아키텍처라고부르기도합니다。,레이크하우스아키텍처의장점{…}
統一人工智能,즉UAI는Facebook에서올해F8중에발한개념입니다。이개념은Facebook이제작하고아웃소싱2한가지딥러닝프레임워크를합친것입니다。하나는대규모컴퓨팅리소스에액세스를보유한리서치중점적PyTorch이고,다른하나는Android와覆盆子π디바이스에서의모델배포에주력하는咖啡입니다。Facebook의統一AI는범위{…}
데이터웨어하우스란무엇입니까?데이터웨어하우스는여러소스의현재및과거데이터를비즈니스에서쉽게인사이트와보고서를얻을수있도록저장하는데이터관리시스템입니다。일반적으로데이터웨어하우스는비즈니스인텔리전스(BI),보고및데이터분석에사용합니다。데이터웨어하우스를사용하면운영시스템(예:POS시스템,재고관리시스템,마케팅/영업데이터베이스)에서업로드된비즈니스데이터를빠르고쉽게분석할수있{…}
딥러닝이란무엇입니까?딥러닝은머신러닝의하위집합으로,특히사람의뇌구조와기능에서영감을얻은,알고리즘을포함한대량의데이터를다룹니다。그래서딥러닝모델을종종심층신경망이라고부르는것입니다。이는일반적인작업별알고리즘이아니라학습데이터표현을기반으로한넓은의미의머신러닝방식에속합니다。딥러닝의작용원리는무엇입니까?딥러닝에서는컴퓨터모델이이미지,텍스트나소리에서직접분류작업을{…}
예측분석이란무엇입니까?예측분석(預測分析)은지능형분석의한가지형태입니다。새로운데이터와과거데이터를둘다사용하여패턴을파악하고향후결과와추세를예측합니다。예측분석은어떻게동작합니까?예측분석은통계분석기법,분석쿼리,데이터마이닝,예측모델링과자동머신러닝알고리즘과같은다양한기법을활용가해數據集예측형모델을만들게한다음특정이벤트의발{…}
공신경망이란무엇입니까?인공신경망(人工神經網絡ANN)은사람의뇌속뉴런의작용을본떠패턴을구성한컴퓨팅시스템의일종입니다。공신경망은어떻게작동합니까?공신경망(ann)은가중치를적용한방향성그래프라고보면가장적당합니다。이를보통여러계층으로구조화합니다。이러한계층에는사람의뇌속에있는생물학적뉴런을모방한수많은노드가있고,이들이서로연결되{…}
지속형애플리케이션(連續應用程序)은실시간으로데이터에반응하는종단간(E2E)애플리케이션입니다。특히개발자의경우별도의시스템에서현재처리중인지속형애플리케이션의여러측면(예를들어쿼리제공,배치작업과의상호작용)등을지원하기위해단한가지프로그래밍인터페이스를사용하고자합니다。아래에다음과같은사용사례를처리할수있는지속형애플리케이션의예를소개하였습니다。실시간으{…}
하둡클러스터란무엇입니까?Apache Hadoop은오픈소스,Java기반소프트웨어프레임워크이자병렬식데이터처리엔진입니다。하둡을이용하면빅데이터분석처리작업을작은크기의작업으로분해하여알고리즘(예를들어,MapReduce 알고리즘같은)을사용하여병렬식으로수행할수있고,그런다음하둡클러스터에배포하면됩니다。하둡클러스터란네트워크로서로연결된일련의컴퓨터('노드'라고.{…}
컴퓨팅에서해시테이블[해시맵)은키(고유한문자열이나정수)를기반으로개체에사실상직접적인액세스를제공하는데이터구조를말합니다。해시테이블은해시함수를사용해인덱스를버킷이나슬롯어레이로연산하는데,여기에서원하는값을찾을수있습니다。여기에사용되는키의주된특징을소개합니다。사용되는키는SSN,전화번호,계좌번호등무엇이든가능반드시고유한키가있어야함각각의키가값과연결됨({…}
트랜잭션이란무엇입니까?데이터베이스와데이터스토리지시스템이라는맥락에서,트랜잭션이란한단위의작업으로취급되는모든작업을말합니다。트랜잭션은완전히완료되기도하고전혀완료되지않을수도있으며,스토리지시스템을한결같은상태로둡니다。트랜잭션의전형적예는은행계좌에서현금을출할때일어나는일입니다。현금이계좌에서인출되거나,인출되지않거나둘중의하나일뿐그중간어딘가의상태란없습니다.&nb{…}
용어집으로돌아가기경사하강법(梯度下降)은머신러닝과딥러닝알고리즘에서가장보편적으로쓰이는최적화방식입니다。머신러닝모델을트레이닝하는데쓰입니다。경사하강법의유형최신머신러닝및딥러닝알고리즘에쓰이는경사하강법은크게세가지유형으로나눌수있습니다。배치경사하강법배치경사하강법(批處理梯度下降)이그중가장간단한유형입니다。{…}
Apache Hive란무엇입니까?Apache蜂巢는광범위한,Hadoop에코시스템에속하는Apache Hadoop分布式文件係統(HDFS)에서추출한대용량데이터세트를읽고,쓰고,관리하도록설계된오픈소스데이터웨어하우스소프트웨어입니다。Apache蜂巢는광범위한Apache蜂巢문서및지속적업데이트를통해쉽게액세스할수있는방식으로계속해서데이터{…}
Apache Kudu란무엇입니까?Apache撚角羚는Apache Hadoop용으로개발한무료,오픈소스컬럼기반스토리지시스템입니다隻각각의행에낮은레이턴시(低延遲)랜덤액세스,밀리초급의액세스를지원하며우수한분석액세스패턴을제공하는구조적데이터용엔진이며,널리보급된Hadoop分布式文件係統(HDFS)및HBase NoSQL Databas{…}
Apache Kylin이란무엇입니까?Apache麒麟은인터랙티브분석빅데이터에적합한분산형오픈소스온라인분석처리在線分析處理(OLAP)엔진입니다。Apache麒麟은,하둡/火花에서SQL인터페이스와다차원분석(OLAP)을제공하기위해고안되었습니다。또한ODBC드라이버、JDBC드라이버및REST API를사용해BI툴과손쉽게통합할수도{…}
Apache Spark란?Apache Spark는빅데이터워크로드에쓰이는오픈소스분석엔진입니다。배치는물론실시간분석과데이터처리워크로드도처리할수있습니다隻Apache火花는2009년캘리포니아대학교버클리캠퍼스에서연구프로젝트로시작되었습니다。연구진은,하둡,시스템에서처리작업의속도를높일방법을강구하고있었습니다。이엔진은하둡;MapReduce {…}
Apache Spark as a Service란무엇입니까?Apache火花는고속실시간대규모데이터처리를위한오픈소스클러스터컴퓨팅프레임워크입니다。火花는2009년UC버클리AMPLab에서탄생한이래큰성장을이루었습니다。지금은빅데이터부문에서가장큰오픈소스커뮤니티로평가되며50여개조직과단체에서200여명이기여하고있습니다。Databricks는자사Apache Spark최적화버{…}
Spark SQL의핵심은Catalyst Optimizer입니다。이것은지능형프로그래밍언어기능(예:Scala의패턴매칭과擬引用등)을참신한방식으로활용해확장할수있는쿼리최적화프로그램을구축합니다。催化劑Scala로는쓴기능성프로그래밍구조를기반으로하며다음과같은두가지용도를염두에두고고안하였습니다。Spark SQL에새로운최적화기법과특징을손쉽게추가최적{…}
運行時은磚磚에서관리하는머신클러스터에서실행되는소프트웨어아티팩트세트입니다。여기에는火花도포함하지만이외에도여러구성요소와업데이트를추가하여빅데이터분석의사용성,성능과보안을대폭개선해줍니다。주된차별점은다음과같습니다。DBIO로성능개선:磚I / O모듈,즉DBIO는수직으로통합된스택을활용해클라우드내火花의성능을{…}
DataFrame이란무엇입니까?DataFrame이란데이터를행과열로구성차된2원표(스프레드시트와비슷)로정리하는데이터구조입니다。DataFrame은최신데이터분석에서가장보편적으로쓰이는데이터구조중하나입니다。유연하고직관적방식으로데이터를저장하고작업이가능하기때문입니다。각DataFrame에는,스키마라고하는블루프린트가있어서,각열의이름과데이터유형을정의합니다。火花{…}
數據集는Spark의Java및Scala용구조적API의type-safe버전입니다。이Python API는과R에서는이용할수없는데,이둘은동적타이핑(動態)언어이기때문입니다。하지만Scala와Java에서대형애플리케이션을쓰는데에는아주강력한툴입니다。DataFrame이유형行개체로구성된분산형컬렉션이라고언급한적이있습니다。여기에다양한유형의테이블형식데이{…}
유전체학(基因組)은유기체의유전체(게놈)서열,분석과관련된유전학의한분야입니다。이학문의주된목적은DNA의전체서열,DNA를구성하는원자의구성이나여러DNA원자사이의화학적결합형태를알아내는데있습니다。유전체학은유전체를하나의완전한구조로보는학문입니다。따라서어떤유기체의전체적유전형질을연구하는학문이라고정의할수있겠습니다。Dna를사상최초로분리한것은1869년의일이지만,{…}
HDFS HDFS (Hadoop Distributed File System)是Hadoop應用的主存儲係統。這個開源框架的工作原理是在節點之間快速傳輸數據。它經常被需要處理和存儲大數據的公司使用。{…}
托管Spark란무엇입니까?Apache火花는속도,사용편이성과고급분석을중심으로구축된빅데이터용고속,일반클러스터컴퓨팅시스템입니다。2009년에uc버클리에서처음구축되었습니다。Scala、Java、Python과R에서고수준API를제공하며데이터분석에적합한범용연산그래프를지원하는최적화엔진도있습니다。이외에도SQL과DataFrame용Spark SQL,머신러닝용MLlib,{…}
木星筆記本이란무엇입니까?Jupyter筆記本은오픈소스웹애플리케이션으로,데이터사이언티스트가라이브코드,식,기타멀티미디어리소스를포함하여문서를생성및공유하는데사용할수있습니다。Jupyter Notebook은어떤용도로사용하나?Jupyter筆記本은탐색적데이터분석(EDA),데이터정리및변환,데이터시각,화통계적모델링,머신러닝,{…}
Keras모델이란무엇입니까?Keras는Theano와,Tensorflow 기반의딥러닝용고차원라이브러리입니다。Python언어로쓰여광범위한딥러닝모델을깔끔하고편리하게제작할수있습니다隻Keras는신경망개발,테스트에관한한가장애용되는고수준신경망API중하나로자리잡았습니다。Keras고수준API덕분에요즘은신경망계층을생성하고복잡한아키텍처를설정하는것쯤은간{…}
管理Spark란무엇입니까?管理火花서비스를이용하면일괄처리,쿼리,스트리밍과머신러닝등을위한오픈소스데이터툴을유리하게활용할수있습니다。이러한자동화기능을이용하면필요에따라신속하게클러스터를만들어간편하게관리하고,작업이완료되면끌수있습니다。또한워크로드,성능요구사항에따라서나기존리소스를바탕으로클러스터크기를조정할수도있습니다。뿐만아니라완전한魔法{…}
什麼是MapReduce?MapReduce是Apache Hadoop生態係統中的一個基於java的分布式執行框架。它通過公開開發人員實現的兩個處理步驟來消除分布式編程的複雜性:1)映射和{…}
일반적으로머신러닝알고리즘을실행할때는전처리,기능추출,적합한모델찾기(模型擬合)과검증단계로구성된시퀀스를거쳐야합니다。예를들어텍스트문서를분류하는경우,텍스트조각화와정리,특징추출,교차검증을통한분류모델교육등의작업을거치게됩니다。각단계에사용할수있는라이브러리는많지만,단편적인정보를연결해결론을내기란보기보다어려울수있습니다。특히대규모數據集경우{…}
MLOps란무엇입니까?MLOps는머신러닝작업(機器學習操作)을뜻합니다。MLOps는머신러닝모델을프로덕션으로전환하는프로세스를간소화하고,뒤이어이를유지관리하고모니터링하는데주안점을둔머신러닝엔지니어링의핵심기능입니다。MLOps는협업기능이며,주로데이터사이언티스트,DevOps엔지니어,它로구성됩니다。,MLOps의용도는무엇입{…}
데이터사이언스분야에서熊貓DataFrame으로데이터사이언스의모든잠재력을이끌어낸다면기업의업무방식을혁신할수있다는말은과장이아닙니다。이를위해서는적합한데이터구조가필요하며적합한데이터구조를사용하면데이터를조작하고분석하면서효율성을극대화할수있습니다。이러한목적을위해사용가능한가장유용한데이터구조중하나가熊貓DataFrame입니다。pandas는Pyth{…}
拚花란무엇입니까?Apache鋪는효율적인데이터스토리지와검색을지원하도록설계되었으며,컬럼중심의오픈소스데이터파일형식입니다。복잡한데이터를일괄적으로처리하는기능을더욱향상하여효율적인데이터압축및인코딩방식을제공합니다。Apache鋪는배치및인터랙티브워크로드에공통적인상호교환형식을제공하도록설계되었습니다隻하둡에서제공하는다른컬럼형스토리지파일형{…}
PyCharm은컴퓨터프로그래밍에쓰이는통합형개발환경IDE(集成開發環境)으로Python프로그래밍언어에맞게제작되었습니다。磚에서PyCharm을사용하는경우,PyCharm이기본적으로Python가장환경을만들지만사용자가구성을통해Conda환경을만들도록할수도있고기존환경을사용해도됩니다。{…}
PySpark란무엇입니까?Apache火花는Scala프로그래밍언어로작성되었습니다PySpark는Apache火花와Python의공동작업을지원하기위해릴리스되었으며,사실상용火花Python API의일종입니다。또한PySpark를사용하면Apache火花와Python프로그래밍언어로抽樣(彈性分布式數據集)에접속하는데도움이됩니다。이를위해p{…}
抽樣는처음생겼을때부터晶石의기본사용자대상(麵向用戶)API였습니다。抽樣는본질적으로데이터의여러요소를모은변경불가능한(不可變的)분산형컬렉션입니다。클러스터내여러노드에걸쳐분할된형태로변환이나작업을제공하는저수준API와동시에작업할수있습니다。抽樣를사용해야할때를결정짓5는가지이유數據集에서저수준변환,작업과제어를원하는경우。데이터{…}
Spark를다루다보면다음과같은세가지API를접하게됩니다。DataFrame, Dataset그리고RDD의세가지입니다。Rdd란무엇입니까?抽樣,즉彈性分布式數據集란분산형컴퓨팅을포함한레코드컬렉션으로본질적으로내결함성이있고변경불가능합니다。저수준API와병력방식으로운영할수있는데,이경우지연기능때문에火花작업이빠른속도로수행됩니다。{…}
Spark Elasticsearch이란무엇입니까?火花Elasticsearch는NoSQL분산형데이터베이스의일종으로문서중심적반정형데이터를저장하고검색하고관리합니다。이데이터베이스Apache Lucene기는반GitHub오픈소스RESTful검색엔진이며Apache許可약관에따라릴리스되었습니다。Elasticsearch Java기는반이기때문에여러가지다양한형식으로문서파일을검색{…}
대다수의데이터사이언티스트,애널리스트,일반비즈니스인텔리전스사용자는데이터를탐색할때인터랙티브SQL쿼리에의존합니다。Spark SQL은구조적데이터처리를위한 Spark 모듈입니다。이모듈은일명DataFrames라는프로그래밍추상화를제공하며분산형SQL쿼리엔진역할도할수있습니다。이것을이용하면수정되지않은,하둡,蜂巢쿼리를기존배포와데이터에서최대100배{…}
Apache Spark Streaming은Apache Spark스트리밍엔진의이전세대입니다。Spark Streaming은더이상업데이트되지않는레거시프로젝트입니다。Apache火花에는結構化流이라는새롭고간편한스트리밍엔진이있습니다。애플리케이션과파이프라인스트리밍을위해서는火花結構化流을사용해야합니다。結構化流媒體을참조{…}
火花애플리케이션은,driver 프로세스하나와일련의,executor 프로세스로구성됩니다。司機프로세스는main()함수를실행하고클러스터내노드에위치하며세가지작업을담당합니다。하나는火花애플리케이션관련정보를유지하는것,사용자의프로그램이나입력에대응하는것,그리고나머지하나는執行人(잠시후정의함)작업을분석,배포,예약하는것입니다。dri{…}
Spark성능튜닝이란무엇입니까?火花성능튜닝은시스템이사용하는메모리,코어와인스턴스를대상으로기록할설정을조정하는프로세스를가리킵니다。이프로세스를거치면火花에서흠잡을데없는성능을보장할수있으며,火花에서리소스병목현상을예방하는효과도있습니다。데이터직렬화란무엇입니까?메모리사용량을줄이기위해火花抽樣를직렬화형식으로저장해야할수도있습니다。데이터 직{…}
Sparklyr이란무엇입니까?R Sparklyr은사과Apache火花이에서인터페이스를제공하는오픈소스패키지입니다。이제Spark기능을최신R환경에서도활용할수있습니다。Spark는분산된데이터와상호작용할수있으면서도레이턴시가짧기때문입니다。Sparklyr은인터랙티브환경에서대규모數據集와상호작용을주고받는데효과적인툴입니다。이렇게하면R의친숙한툴을이용해Spark데이터를{…}
SparkR은Spark에서R을실행하는데쓰는툴입니다。이것도Spark의다른모든언어바遠程服務器딩과마찬가지로같은원칙을따릅니다。SparkR을사용하려면환경에가져와코드를실행하기만하면됩니다。Python API전반적으로와아주비슷한데,Python이아니라R의구문을따른다는점만다릅니다。Python에대체로서이용가능한것은거의모두SparkR에서도이용할수있다고보면됩니다。{…}
Python은일명numpy라는기본내장라이브러리를제공하여다차원배열을조작합니다。pytensor라이브러리를개발하려면기본적으로이라이브러리부터구성하고사용해야합니다隻Sptensor는희소텐서를나타내는클래스입니다。희소텐서란대부분의입력항목이0透視圖數據集입니다。대형대각선행렬(對角線矩陣)이대적예입니다。(값이0원소가많음)。이것은텐서개체의전체값을저장하지{…}
結構化流은스트림처리용고차API원의일종으로,火花2.2에서는바로프로덕션에적용할수있게되었습니다。結構化流을사용하면火花의구조적API를사용해배치모드로수행하는것과같은연산을스트리밍방식으로실행할수있습니다。이렇게하면레이턴시를줄이고분식으로처리할수있게됩니다。結構化流媒體의가장좋은점은코드를사실상{…}
2015年11月,穀歌發布了用於機器學習的開源框架,並將其命名為TensorFlow。它支持深度學習、神經網絡和cpu、gpu和gpu集群上的一般數值計算。最大的進步之一{…}
Tensorflow Estimator API란무엇입니까?估計器는완전한모델이지만적은사용자에게는충분히직관적으로보입니다。估計API를사용하면모델을교육할방식,모델의정확도를판단할방식,예측을생성할방식을얻을수있습니다隻TensorFlow는아래이미지와같이여러개의API계층으로구성된프로그래밍스택을제공합니다隻估計는두가지유형이있어사전에{…}
鎢項目란무엇입니까?鎢은Apache火花의실행엔진에변경사항을적용하여메모리및CPU를火花애플리케이션에적합하게효율성을개선하는데중점을두어성능을최신하드웨어한도에더가깝게밀어붙이고자추진한엄브렐라프로젝트의코드명입니다。鎢項目의이니셔티브:메모리관리와이진수처리:,애플리케이션의미체계를활용하여메모리를{…}
統一數據分析는새로운솔루션카테고리입니다。데이터처리를AI기술과통합하여기업에서AI를한결쉽게완성할수있게지원하여각자의AI이니셔티브진행속도를빠르게해줍니다。統一數據分析는기업에서다양한사일로형데이터스토리지시스템을아우르는데이터파이프라인을구축하는데도움이되며모델구축을위해레이블이지정된數據集를준비하는데유익합니다。이렇게하면{…}
磚의,統一數據分析平台을이용하면,데이터사이언스를엔지니어링,비즈니스와통합하여Beplay体育安卓版本혁신의속도를높여줍니다。磚를統一數據分析平台으로활용하면아무런한계없이엄청난규모로데이터를신속Beplay体育安卓版本하게준비하고정리할수있습니다。또한이플랫폼을이용하면각종인공지능애플리케이션전체에毫升모델을지속해서교육하고{…}
統一數據倉庫란무엇입니까?기업의통합데이터베이스인엔터프라이즈데이터웨어하우스에는한기업조직의각종비즈니스정보가모두보관되어있어회사전체에서액세스할수있게해줍니다。오늘날대부분기업에서는데이터를서로격리된사일로에서관리하고,동시에같은조직에소속된여러팀에서도다양한데이터관리툴을사용해여러가지유형의데이터를관리합니다。예를들어데이터품질,데이터통합,데이터{…}
磚의δ파이프라인/구체화뷰介紹三角洲파이프라인은데이터파이프라인수명주기를관리할수있도록일련의API와UI를제공합니다。이것은오픈소스프레임워크로데이터엔지니어링팀에서ETL개발을간소화하고데이터안정성을개선하며운영을확장하는데도움이됩니다隻데이터변환을위해코딩하고작업을예약하는방식이아니라,선언적파이프라인을구축하여여러분이원하는{…}
대체데이터란무엇입니까?대체데이터(替代數據)는남들이사용하지않는,비일반적인정보출처를가리키는대안적(替代)데이터소스를사용해수집한정보입니다。대체데이터를분석하면업계의평범한데이터소스가제공할수있는범위를벗어난인사이트를얻을수있습니다。다만정확히무엇을대체데이터로간주해야하는지는업종마다다릅니다。이개념의정의는우리회사나경쟁사가이미사용중기{…}
데이터거버넌스란무엇가?데이터거버넌스는,데이터가가치를창출하는지확인하는,감독행위이며,,비즈니스전략을지원하는활동입니다隻데이터거버넌스는단순한도구나프로세스가아닙니다。사람,프로세스,기술,데이터와관련하여비즈니스목표와목적을지원하는문화에초점을맞추고,프레임워크를통해비즈니스전략에데이터관련요구사항을일치시킵니다。데이터거버넌스는비즈니스에어떤장점{…}
데이터공유란무엇가?數據共享은하나또는여러명의고객에게같은데이터를제공할수있는기능입니다。요즘들어서는어느회사에서나지속적으로늘어나는방대한데이터자체가전략적자산이되었습니다。조직안팎으로데이터를공유하는것은새로운사업기회를발견할수있도록,도와주는기술이기도합니다。외부소스에서데이터를사용하는것은물론이고,데이터를공유하면파트너와협업할수있으며,새로운{…}
데이터레이크하우스란무엇입니까?데이터레이크하우스는,데이터레이크가가지고있는유연성,비용효율성,그리고대용량지원기능에더해,데이터웨어하우스의데이터관리기능과酸트랜잭션을통합한새로운형태의오픈데이터관리아키텍처로,모든데이터를대상으로비즈니스인텔리전스(BI)와머신러닝(ML)을지원합니다。데이터레이크하우스:단순함,유연함그리고저렴한비용데이터레이크하우스는새로운{…}
데이터볼트란무엇입니까?데이터볼트는엔터프라이즈급분석을위한데이터웨어하우스를구축하는데사용되는데이터모델링설계패턴입니다。데이터볼트는허브,링크,위성,이렇게세가지유형의엔터티가있습니다허브는핵심비즈니스개념을대표하며,링크는허브간의관계를대표하고,위성은허브와허브간관계에대한정보를저장합니다。데이터볼트는레이크하우스패러다임을채택하고있는조직에게매우적합한데이터{…}
데이터분석플랫폼이란무엇입니까?데이터분석플랫폼은용량이크고복잡한동적데이터를대상으로분석을수행해야하는서비스와기술로구성된에코시스템입니다。이것을통해회사에속한다양한출처로부터얻은데이터를검색,조합,데이터와상호작용을주고받기도하고탐색,표시할수있습니다。종합적인데이터분석플랫폼에는다양한기능을내장한여러가지툴이포함되어있습니다。예측분석과데이터시각화부터로케이션텔리전스(Lo{…}
디지털트윈이란무엇입니까?기존에는디지털트윈을”“물리적개체를정확히반영하도록설계된가상모델”“로정의했습니다。——IBM [KVK4]디지털트윈은분리또는지속적인제조프로세스를위해다양한物聯網센서를통해시스템및프로세스상태데이터(운영기술데이터(OT))를수집하고,엔터프라이즈데이터(정보기술(IT))를수집하여가상모델을형성합니다。이가상모델은그다음시뮬레이션을실행하고성능문제를조사하여{…}
리테일용레이크하우스란무엇가?리테일용레이크하우스은磚에서첫번째로출시한업종별레이크하우스입니다。솔루션액셀러레이터,데이터공유기능과파트너에코시스템을통해소매업체가빨리운영을정상화하도록돕습니다。리테일용레이크하우스는기술,파트너,도구,산업이니셔티브의정점으로서,데이터+人工智能를중심으로협업을강화합니다。리테일용레이크하우스는4가지로구성됩니다。통합 데{…}
Apache火花의머신러닝라이브러리(機器學習庫,MLlib)는단순성,확장성,다른툴과의통합을염두에두고고안하였습니다。데이터사이언티스트는火花의확장성,언어호환성과속도를활용하여데이터문제점과모델에만집중할수있습니다。즉분산형데이터를둘러싼복잡한문제(인프라,구성등)를해결하는데시간을뺏기지않아도됩니다。MLlib은Spark기반으로구축된확장할수{…}
머신러닝모델이란무엇입니까?머신러닝모델이란이전에접한적없는데이터세트에서패턴을찾거나이를근거로결정을내릴수있는프로그램입니다。예를들어자연어처리의경우,머신러닝모델은파싱을통해이전에접한적없는문장이나단어조합의배후의도를올바로인식할수있습니다。이미지인식의경우,머신러닝모델이자동차나개등사물을인식하도록교육할수있습니다。머신러닝모델은대규모데이터세트로'교육'{…}
모델리스크관리란잘못된모델이나잘못사용된모델을근거로한의사결정으로인한잠재적인나쁜결과에서발생하는리스크를감독관리하는것을말합니다。모델리스크관리의목표는모델리스크를파악,계측하여완화할기법과관행을동원하는데있습니다。예를들어모델오류나잘못된모델사용가능성을알아내는것입니다。금융서비스의경우,모델리스크는정확도가충분하지않은모델을사용해의사결정을내려발생하는손실위험입니다。{…}
밀집텐서는인접한순차적메모리블록에값을저장하는데,이곳에모든값이표시됩니다。텐서,즉다차원어레이는매우다양한다차원데이터분석애플리케이션에서사용됩니다。텐서연산을수행할줄아는소프트웨어제품은많습니다。예를들어MATLAB스위트의경우,다양한오픈소스타사툴박스로보강되기까지했습니다。Matlab단독으로다양한소관련이진수밀집텐서연산을지원할수있습니다。密集계층은완전히연결된{…}
베이지신경망이란무엇입니까?베이지안신경망(貝葉斯神經網絡(BNN)은과적합(過度擬合)을제어하기위해사후추론을사용해표준네트워크를연장한것을가리킵니다。넓은의미에서보면베이지안방식은통계적인방법론을사용해모델매개변수(신경망의가중치와편향)를비롯한모든것에확률분포가수반된다고볼수있습니다。프로그래밍언어에서특정값을취할수있는변수는해당변수에액세{…}
변환이란무엇입니까?火花에서코어데이터구조가,변경불가능(不可變的)하다는것은일단생성하면변경할수없다는뜻입니다。이것은처음에는조금기이한개념으로여겨질수있습니다。변경할수없다면어떻게사용합니까?DataFrame을”변경”하려면火花에지금가지고있는DataFrame을원하는버전으로수정할방법을지시해야합니다。이런지침을 변환(轉換)이라고{…}
磚三角洲테이블의복수문트랜잭션磚는기본테이블이磚三角洲테이블인경우복수문(multi-statement)트랜잭션을지원합니다又是;다시말해트랜잭션내에속한모든문이원자성(原子)입니다(모두성공또는모두실패)。두가지스레드/사용자를예로든다음타임라인을보겠습니다隻線程1은更新스레드이고線程2{…}
복합이벤트처리(cep)란무엇입니까?복합이벤트처리(複雜事件處理(CEP))는다른말로이벤트,스트림또는이벤트스트림처리라하며기술을사용해데이터를쿼리한다음데이터베이스내에저장하거나,경우에따라서는애초에전혀저장하지않고쿼리하는것을말합니다。복합이벤트처리는구성툴의일종으로,대량의서로다른정보를집계하며실시간으로여러이벤트사이의인과관계를식별및분석{…}
데이터분석과빅데이터분석의차이하둡이발명되기전에는현대식스토리지와컴퓨팅시스템의기저를이루는기술이비교적기본적이어서,기업에서는대부분”스몰데이터”분석만가능한한계가있었습니다。다만이렇게비교적기본적형태의분석도어려울수있습니다。특히새로운데이터소스를통합하는경우분석이쉽지않습니다。기존데이터분석의경우,주로관계형데이터베이스(예:SQL데이터베이스)를사용하고구조적데이터테이블{…}
(生物信息學)생물정보학이란생물학데이터를모은대규모컬렉션에서연산을통해지식을추출하는학문분야를말합니다。생물정보학은생물학적데이터를저장,검색,구성하고분석하는데생물공학它를사용하는분야를일컫습니다。유전체서열(基因組測序)프로젝트나여타연구에서엄청난양의데이터가생성되었는데,이데이터웨이브의결과생물학분야의난제는대부분컴퓨팅쪽문제로바뀌게되었{…}
설비종합효율이란무엇입니까?설비종합효율(整體設備效率,OEE)은제조작업장이운영되도록예약된기간동안최대잠재력대비얼마나활용되는지(시설,시간및자재)를측정한것입니다。Oee는실제생산적제조시간의백분율을파악합니다。Oee는분리되거나연속적프로세스의전체성과를보여주는대시보드입니다。Oee의최대값은100%이며,100%의Oee는최대속도(10{…}
수예측이란무엇가?수예측은소비자수(=미래의수익)를예측하는과정입니다。특히,쇼핑객이구매할제품군을정량적데이터와정성적데이터를사용하여예측합니다。소매업체는소비자가원하는시점에제품을제공하지못해1조달러규모에이르는수익을놓치고있습니다。수요예측에실패한기업은매장에잘못된제품을공급하거나심지어는재고가동이나기도합니다。리테일용레이크하우스는수예측을어떻게지{…}
스노우플레이크스키마란무엇입니까?스노우플레이크스키마는스타스키마를확장한다차원적데이터모델로,차원테이블을하위차원으로나눕니다。스노우플레이크스키마는OLAP웨어하우스에대한비즈니스인텔리전스및보고,데이터마트,관계형데이터베이스에흔히사용됩니다。스노우플레이크스키마에서엔지니어는개별차원테이블을논리적하위차원으로나눕니다。이렇게하면데이터모델이더복잡해지만,애널리스트가작업하기는더{…}
스타스키마란무엇입니까?스타스키마는데이터베이스에서데이터를정리하는데사용하는다차원적데이터모델로,쉽게이해하고분석할수있습니다。스타스키마는데이터웨어하우스,데이터베이스,데이터마트등의툴에적용할수있습니다。스타스키마는대규모데이터세트에대한쿼리를최적화하도록설계되었습니다。拉爾夫·金伯爾1990년이대에도입한스타스키마는반복적비즈니스정의의복제를줄여데이터웨어하우스에서{…}
신경망이란무엇입니까?신경망이란뇌속뉴런의망형구조를닮은다층형구조의컴퓨팅모델입니다。여기에는서로연결된처리소자,일명”뉴런“이라는것이있으며이들이서로협력하여출력함수를도출합니다。신경망은입력및출력계층/차원으로구성되며대부분은숨겨진계층도있습니다。숨겨진계층은입력을출력계층에서사용할수있는무언가로변환해주는단위로구성됩니다。신경망아키텍처의유형:신경망,다른말로ree{…}
소매업에서실시간데이터는무엇가?실시간리테일(實時零售)이란데이터에실시간액세스하는것을말합니다隻배치중심액세스,분석,컴퓨팅에서벗어나면데이터를”언제든“사용할수있어정확하고시기적절하게의사결정을내리고비즈니스인텔리전스를얻을수있습니다。수요예측,개인화,진열상품가용성,도착시간예측,주문수령과통합등의실시간사용사례는공급망민첩성을개선하고서비스{…}
예측적유지관리란무엇입니까?예요컨대,측적유지관리는가동시간과생산성을극대화하기위해고정된일정을따르는대신자산의실제상태를기반으로자산의유지관리가필요한시기와수행해야하는특정유지관리활동을알아내는것입니다。이는많은비용을초래하는장비다운타임을줄이기위해장애를예측및예방하고적절한유지관리루틴을수행하는것입니다。장비로부터IoT및센서데이터가스트리밍되므로예측적유지관리를{…}
오케스트레이션이란무엇입니까?오케스트레이션은여러개의컴퓨터시스템,애플리케이션및/또는서비스를조율하고관리하는것으로,여러개의작업을함께연결하여크기가큰워크플로나프로세스를실행하는방식을취합니다。이러한프로세스는여러개의자동화된작업으로구성될수있으며관련되는시스템도여러개일수있습니다。오케스트레이션의목표는빈도가높고반복할수있는프로세스의실행을간소화및최적화하여데이터팀이복잡{…}
오픈뱅킹이란무엇입니까?오픈뱅킹은소비자의금융데이터에대한액세스권한을안전하게제공하는수단이며,모든것에고객의동의가필요합니다。²규,제기술및동적경쟁환경이라는요인때문에오픈뱅킹은은행이아닌타사,소비자등에고객데이터를민주화할것을요구합니다。혁신은관련성이매우높은플랫폼기반배포를목표로산업을진화시키면서은행에는에코시스템과신규시장진출범위를확장할수있는다양한기회를제공합니{…}
이상치탐지(異常檢測)은나머지관측결과와는통계적으로달라의심을유발할수있는드문이벤트나관측결과를알아보는기법입니다。그러한”변칙”행동은보통신용카드사기행위,시스템오류나사이버공격등일종의문제점으로해석될때가많습니다。금융계의경우,감시해야할트랜잭션이수천건에서수백만건에달하므로변칙검색을이용하면오류가발생하는위치를짚어내어근본원인분석을강화하고,문제에신속히{…}
자동화편향이란무엇입니까?자동화편향(自動化偏見)은자동보조도구나의사결정지원시스템에지나치게의존하는것을말합니다。자동의사결정보조도구가널리보급되면서중환자실이나항공기조종석과같이중대한의사결정을내려야하는상황에서이런도구를이용하는사례가점점흔해지고있습니다。사람은인지적인노력이가장적게필요한길을택하여“자동화편향”으로기우는경향이있습니다。같은개념을ai와{…}
三角洲住테이블三角洲生活表(DLT)을사용하면三角洲湖에서고품질데이터를제공하는안정적인데이터파이프라인을손쉽게구축하고관리할수있습니다。,數據庫의ETL자세히알아보기 Etl이란무엇입니까?기업에서다루는데이터,데이터소스와데이터유형의양이늘어나면서분석,데이터사이언스와머신러닝{…}
딥러닝에서컨볼루셔널신경망(卷積神經網絡,CNN또는事先)이란심층신경망의한등급으로,보통이미지속에존재하는패턴을인지하는데쓰이지만이외에공간데이터분석,컴퓨터비,전자연어처리,신호처리및여타다양한용도에도쓰입니다。컨볼루셔널신경망의구조는사람의뇌속뉴런의연결패턴과닮은형태를취하며시각피질(視覺皮層)조직에서영감을얻었습니다。{…}
머신러닝을위한피처엔지니어링(工程)的特性데이터처리라고도불리는피처엔지니어링은가공되지않은데이터를머신러닝모델개발사용할수있는기능으로전환하는프로세스입니다。이항목에서는피처엔지니어링의주요개념과피처엔지니어링이毫升수명주기관리에서수행하는역할을설명합니다。머신러닝에서특성은모델트레이닝에사용되는입력데이터입니다。특성은모델이학습할어떤엔터티의속성입니다{…}
하둡이란무엇입니까?“하둡”이란무엇을의미할까?더중한것은,“하둡”은무엇의약자일까?사실,고가용성분산형객체지향적플랫폼(高可用性分布式麵向對象平台)을뜻합니다。Beplay体育安卓版本하둡기술은바로이런장점을개발자에게제공합니다。즉,객체지향적작업을병렬분산하여고가용성을확보할수있습니다。Apache Hadoop은오픈소스,Java기반{…}