データマイニング: 基礎と応用
By Fouad Sabry
()
About this ebook
データ マイニングとは
データ マイニングは、機械学習、統計分析、 およびデータベース管理システム。 データ マイニングは、データ セットから情報を抽出し、その情報をその後の応用のために理解可能な構造に変換するという包括的な目標を持つ、コンピューター サイエンスと統計の学際的な主題です。 「データベースにおける知識発見」(「KDD」としても知られる)方法には、「データマイニング」として知られる分析ステップが含まれています。 生の分析のフェーズに加えて、データベース管理とデータ管理、データの前処理、モデルと推論の考慮事項、面白さの尺度、複雑さの考慮事項、新しく発見された構造の後処理、視覚化、オンライン更新の側面も含まれます。
どのようなメリットが得られるか
(I) 次のトピックに関する洞察と検証:
第 1 章: データ マイニング
第 2 章: 機械学習
第 3 章: テキスト マイニング
第 4 章: 相関ルール学習
第 5 章: コンセプト ドリフト
第 6 章: Weka (ソフトウェア)
第 7 章: 知識発見とデータ マイニングに関する特別関心グループ
第 8 章: 教育データ マイニング
第 9 章: ソーシャル メディア マイニング
第 10 章: 機械学習の概要
(II) データ マイニングに関する一般のよくある質問に答える。
(III) 多くの分野でのデータ マイニングの実際の使用例。
(IV) データ マイニング テクノロジーを 360 度完全に理解できるように、各業界の 266 の新興テクノロジーを簡潔に説明する 17 の付録。
この本の対象者
専門家、学部生、大学院生、愛好家、愛好家、あらゆる種類の基本的な知識や情報を超えたい人 データマイニングの概要。
Read more from Fouad Sabry
コンピュータビジョン [Japanese]
Related to データマイニング
Titles in the series (100)
フィードフォワード ニューラル ネットワーク: 思考機械とニューラルウェブのアーキテクチャの基礎と応用 Rating: 0 out of 5 stars0 ratings放射状基底ネットワーク: 人工ニューラルネットワークの活性化機能の基礎と応用 Rating: 0 out of 5 stars0 ratings制限付きボルツマンマシン: 人工知能の隠れた層を解明するための基礎と応用 Rating: 0 out of 5 stars0 ratingsパーセプトロン: 神経ビルディングブロックの基礎と応用 Rating: 0 out of 5 stars0 ratings競争学習: 競争による強化学習の基礎と応用 Rating: 0 out of 5 stars0 ratingsアトラクターネットワーク: 計算神経科学の基礎と応用 Rating: 0 out of 5 stars0 ratings単純ベイズ分類器: 基礎と応用 Rating: 0 out of 5 stars0 ratingsヌーベル人工知能: 昆虫と同等の知能を持つロボットを作るための基礎と応用 Rating: 0 out of 5 stars0 ratingsヘビアン学習: 記憶と学習を統合するための基礎と応用 Rating: 0 out of 5 stars0 ratings畳み込みニューラル ネットワーク: 視覚的な画像を分析するための基礎と応用 Rating: 0 out of 5 stars0 ratings身体化された認知科学: 基礎と応用 Rating: 0 out of 5 stars0 ratingsホップフィールドネットワークス: 記憶を保存するニューラルネットワークの基礎と応用 Rating: 0 out of 5 stars0 ratings誤差逆伝播法: 深層学習のトレーニング用データを準備するための基礎と応用 Rating: 0 out of 5 stars0 ratingsハイブリッド ニューラル ネットワーク: 生物学的ニューラルネットワークと人工ニューロンモデルの相互作用の基礎と応用 Rating: 0 out of 5 stars0 ratingsサポートベクターマシン: 基礎と応用 Rating: 0 out of 5 stars0 ratings人工ニューラルネットワーク: 神経計算の謎を解読するための基礎と応用 Rating: 0 out of 5 stars0 ratings統計的分類: 基礎と応用 Rating: 0 out of 5 stars0 ratingsリカレント ニューラル ネットワーク: シンプルなアーキテクチャからゲート付きアーキテクチャまでの基礎と応用 Rating: 0 out of 5 stars0 ratingsバイオにインスピレーションを得たコンピューティング: デジタル世界での生物学的インスピレーションの基礎と応用 Rating: 0 out of 5 stars0 ratings多層パーセプトロン: ニューラル ネットワークをデコードするための基礎と応用 Rating: 0 out of 5 stars0 ratings神経進化: 神経進化で人間の知性を超えるための基礎と応用 Rating: 0 out of 5 stars0 ratings包含アーキテクチャ: 行動ベースのロボティクスと反応制御の基礎と応用 Rating: 0 out of 5 stars0 ratingsカーネルメソッド: 基礎と応用 Rating: 0 out of 5 stars0 ratingsデータ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用 Rating: 0 out of 5 stars0 ratings位置特定型人工知能: インテリジェンスとアクションを統合するための基礎と応用 Rating: 0 out of 5 stars0 ratings長短期記憶: シーケンス予測の基礎と応用 Rating: 0 out of 5 stars0 ratings交互決定ツリー: 基礎と応用 Rating: 0 out of 5 stars0 ratingsK最近隣アルゴリズム: 基礎と応用 Rating: 0 out of 5 stars0 ratings人工免疫システム: 基礎と応用 Rating: 0 out of 5 stars0 ratings身体化された認知: 基礎と応用 Rating: 0 out of 5 stars0 ratings
Related ebooks
情報抽出: 基礎と応用 Rating: 0 out of 5 stars0 ratings知識推論: 基礎と応用 Rating: 0 out of 5 stars0 ratingsサイバネティクス: 基礎と応用 Rating: 0 out of 5 stars0 ratingsディープラーニング: 基礎と応用 Rating: 0 out of 5 stars0 ratingsプロセスマイニング: 基礎と応用 Rating: 0 out of 5 stars0 ratingsヒューリスティック: 基礎と応用 Rating: 0 out of 5 stars0 ratings数学的最適化: 基礎と応用 Rating: 0 out of 5 stars0 ratings質問への回答: 基礎と応用 Rating: 0 out of 5 stars0 ratingsメタヒューリスティック: 基礎と応用 Rating: 0 out of 5 stars0 ratings関係性の抽出: 基礎と応用 Rating: 0 out of 5 stars0 ratings資格問題: 基礎と応用 Rating: 0 out of 5 stars0 ratingsハイブマインド: 基礎と応用 Rating: 0 out of 5 stars0 ratings逆方向連鎖: 基礎と応用 Rating: 0 out of 5 stars0 ratings自動推論: 基礎と応用 Rating: 0 out of 5 stars0 ratings状況計算: 基礎と応用 Rating: 0 out of 5 stars0 ratings因果微積分: 基礎と応用 Rating: 0 out of 5 stars0 ratingsデータ処理のグループ方法: 予測モデリングとデータ分析の基礎と応用 Rating: 0 out of 5 stars0 ratingsパターン認識: 基礎と応用 Rating: 0 out of 5 stars0 ratings計算主義: 基礎と応用 Rating: 0 out of 5 stars0 ratings機能主義: 基礎と応用 Rating: 0 out of 5 stars0 ratings意思決定理論: 基礎と応用 Rating: 0 out of 5 stars0 ratings前方連鎖: 基礎と応用 Rating: 0 out of 5 stars0 ratingsランダムな最適化: 基礎と応用 Rating: 0 out of 5 stars0 ratingsダートマスの提案: 基礎と応用 Rating: 0 out of 5 stars0 ratings汎用人工知能: 基礎と応用 Rating: 0 out of 5 stars0 ratings相互参照: 基礎と応用 Rating: 0 out of 5 stars0 ratingsベストファーストサーチ: 基礎と応用 Rating: 0 out of 5 stars0 ratingsユーザーの錯覚: 基礎と応用 Rating: 0 out of 5 stars0 ratings合成知能: 基礎と応用 Rating: 0 out of 5 stars0 ratingsビームサーチ: 基礎と応用 Rating: 0 out of 5 stars0 ratings
Reviews for データマイニング
0 ratings0 reviews
Book preview
データマイニング - Fouad Sabry
第 1 章: データ マイニング
データ マイニングは、機械学習、統計、およびデータベース管理システムの手法を使用して、ビッグ データ セットのパターンを抽出して明らかにする方法です。特定のアプローチに言及する場合、人工知能と機械学習というフレーズは、より一般的な(大規模な)データ分析と分析よりも適切であることがよくあります。
クラスター分析、異常識別、依存関係分析はすべて、データ マイニングの実際の作業の例であり、隠れた分析情報を発見するための大規模なデータセットの半自動または完全自動探索 (アソシエーション ルール マイニング、シーケンシャル パターン マイニング) です。この目的のために、地理的指標および他のデータベースアプローチがしばしば使用される。結果として得られるパターンは、さらなる分析や機械学習や予測分析などのアプリケーションで、元のデータの省略形として利用することができます。データマイニングは、データのパターンを見つけ、意思決定支援システムがより良い予測を行うために利用できる意味のあるグループに整理するのに役立ちます。データ収集、データ準備、結果の解釈とレポート作成はすべて KDD プロセス全体の重要な部分ですが、特にデータ マイニング ステージの一部ではありません。
データマイニングとは対照的に、仮説とモデルを評価するために、任意のサイズのデータセット(マーケティングキャンペーンの結果など)に対してデータ分析を実行できます。一方、データマイニングは、機械学習と統計モデルを利用して、膨大なデータセットの隠れたパターンや秘密のパターンを明らかにします。
データスパイ、データフィッシング、およびデータ浚渫はすべて、データマイニング手法を使用して、統計的に有意であるには小さすぎる(または小さい可能性がある)母集団データセットのサンプルから結論を引き出すという同じ方法を指します。これらの手法を使用して新しい仮説を生成し、より大きなデータセットでテストすることができます。
アプリオリ仮説なしでデータを評価する不適切な習慣は、1960年代に統計学者や経済学者によって「データフィッシング」または「データ浚渫」と呼ばれていました。 経済学者のマイケル・ラベルは、1983年のReview of Economic Studiesの論文で、「データマイニング」というフレーズを同様に批判的な方法で使用しました。Lovellによると、この動作は「実験」(良いラベル)から「釣り」または「詮索」(悪いラベル)(ネガティブ)に至るまで、多くのエイリアスの下でマスクされます。
1990年頃、データベースコミュニティは「データマイニング」というフレーズを使い始めました。
1980年代初頭、「データベースマイニング」™というフレーズが使用されましたが、HNCは、サンディエゴにルーツを持つこの表現を商標登録しているため、データマイニングソフトウェアを販売できます。現在、参照条件としてのデータマイニングとナレッジ検出の間に違いはありません。
何年もの間、人々はデータからパターンを手動で抽出してきました。ベイズの定理(1700年代から)と回帰分析(1900年代)は、データのパターンを発見するための初期の手法(1800年代)の2つの例です。広範なデータベースで。データをデータベースに保存およびインデックス化して、実際の学習および発見アルゴリズムをより効率的に実行することにより、応用統計と人工知能(通常は数学的背景を提供する)およびデータベース管理の間のギャップを埋めます。これにより、このような方法をこれまで以上に大きなデータセットに適用することができます。
KDD プロセスの一般的な定義には、以下のステップが含まれます。
選定
前処理
変換
データマイニング
解釈/評価。
ただし、合理化された 6 ステップの手順を概説するデータ マイニングの業界間標準プロセス (CRISP-DM) など、この概念にはいくつかの反復があります。
ビジネス理解
データの理解
データ準備
モデリング
評価
配備
または、「前処理」、「データマイニング」、「結果の検証」などの合理化された方法。
CRISP-DMアプローチは、2002年、2004年、2007年、および2014年に行われた世論調査で最も人気のあるデータマイニング手法であることが示されています。
データ マイニング メソッドを使用する前に、ターゲット データ コレクションを構築する必要があります。ターゲットデータセットは、マイニングするパターンを含めるのに十分な大きさである必要がありますが、妥当な時間内にマイニングするのに十分な管理可能である必要があります。データ ウェアハウスとデータ マートは、有用な情報を入手するための頻繁な場所です。データマイニングは、最初に多変量データセットを前処理しないと開始できません。クリーニングされたターゲットセットが使用されます。ノイズで満たされた空白の観測値は、データクリーニングプロセス全体で除外されます。
データ マイニング作業には、主に次の 6 つのカテゴリがあります。
異常スポッティング (変化/偏差/外れ値スポッティングとも呼ばれます) - 関心のある、または追加の調査が必要なデータの問題を示す可能性のある、通常とは異なるデータレコードの検出。
「アソシエーションルール学習」(依存関係モデリング)を使用して変数間のリンクを検索します。購入パターンは、食料品店が収集できる情報の一種です。スーパーマーケットは、アソシエーションルール学習を利用して、通常一緒に購入されるアイテムを確認し、それらの組み合わせに合わせて広告を調整することができます。マーケットバスケット分析はこれの別名です。
「クラスタリング」という用語は、データ内の既存の構造に依存することなく、データ内の「類似」するグループと構造を識別するプロセスを指します。
新しいデータに適用される場合、分類は以前に確立された構造を一般化するプロセスです。たとえば、電子メールクライアントは、メッセージがスパムであるかどうかを判断しようとする場合があります。
異なるデータセット間の接続を予測するために、回帰はそれらを最もよく表す関数を探します。
データの視覚化とレポートの作成は、要約によるデータ収集の簡潔な表現の例です。
誤ってデータマイニングを誤用すると、将来の動作を真に予測せず、新しいデータサンプルで繰り返すことができない一見重要な結果につながる可能性があり、結果は役に立たなくなります。これは、研究者が適切な統計的手法を使用せずにあまりにも多くの仮説を調べようとするときに発生することがあります。機械学習におけるこの問題の最も単純な形式はオーバーフィットとして知られていますが、プロセスのどの時点でも発生する可能性があるため、トレーニング/テストの分割では回避できない場合があります。
データからの知識発見は、データマイニング技術によって発見されたパターンがデータセット全体に実際に存在するかどうかを確認することで最高潮に達します。アルゴリズムは時々不正なパターンを見つけるかもしれません。データ マイニング アルゴリズムは、多くの場合、テスト セットにないトレーニング セット内のパターンを検出します。オーバーフィットはこの状況を説明します。これを回避するために、データ マイニング アルゴリズムは、トレーニングされていないテスト セットのデータを使用して評価されます。テストセットは、学習したパターンを適用し、実際の結果と期待される結果を比較するために使用されます。たとえば、実際の電子メールからスパムを識別することを目的としたデータマイニングシステムでは、代表的なメッセージで構成されるデータセットのトレーニングが必要になります。教えられた後、システムは電子メールのテストバッチを使用して、学習したパターンを適用します。したがって、正常に分類された電子メールの数は、パターンの有効性の良い指標です。アルゴリズムの有効性は、ROC曲線を含む様々な統計的手法を用いて決定され得る。
結果のパターンが必要な基準を満たさない場合は、前処理とデータマイニングの手順を再評価して変更することが重要です。最後の段階は、取得したパターンを分析し、実際に適切な要件に適合している場合は知識に変換することです。
コンピューティング機械協会(ACM)のナレッジディスカバリーおよびデータマイニングSIGは、この地域で最も権威のある専門組織(SIGKDD)です。
データマイニングに焦点を当てたコンピュータサイエンスの会議:
情報知識マネジメント会議(CIKM)
データベースにおける知識発見:原則と実践、および機械学習に関する欧州会議
Knowledge Discovery and Data Mining Conference (KDD): 年次 ACM SIGKDD カンファレンス
ICDE Conference、SIGMOD Conference、International Conference on Very Large Data Basesなどの多くのデータ管理およびデータベース会議には、データマイニングに関するセッションも含まれています。
データマイニング標準は、1999年の欧州クロスインダストリー標準データマイニングプロセス(CRISP-DM 1.0)や2004年のJavaデータマイニング標準など、さまざまなコンテキストで定義されています。(JDM 1.0) を参照してください。2006年に、CRISP-DMとJDMの両方の次のバージョンの作業が開始されましたが、それ以来、進歩は鈍化しています。JDM 2.0の最終バージョンはキャンセルされました。
予測モデル マークアップ言語