Discover millions of ebooks, audiobooks, and so much more with a free trial

Only $11.99/month after trial. Cancel anytime.

データマイニング: 基礎と応用
データマイニング: 基礎と応用
データマイニング: 基礎と応用
Ebook85 pages8 minutes

データマイニング: 基礎と応用

Rating: 0 out of 5 stars

()

Read preview

About this ebook

データ マイニングとは


データ マイニングは、機械学習、統計分析、 およびデータベース管理システム。 データ マイニングは、データ セットから情報を抽出し、その情報をその後の応用のために理解可能な構造に変換するという包括的な目標を持つ、コンピューター サイエンスと統計の学際的な主題です。 「データベースにおける知識発見」(「KDD」としても知られる)方法には、「データマイニング」として知られる分析ステップが含まれています。 生の分析のフェーズに加えて、データベース管理とデータ管理、データの前処理、モデルと推論の考慮事項、面白さの尺度、複雑さの考慮事項、新しく発見された構造の後処理、視覚化、オンライン更新の側面も含まれます。


どのようなメリットが得られるか


(I) 次のトピックに関する洞察と検証:


第 1 章: データ マイニング


第 2 章: 機械学習


第 3 章: テキスト マイニング


第 4 章: 相関ルール学習


第 5 章: コンセプト ドリフト


第 6 章: Weka (ソフトウェア)


第 7 章: 知識発見とデータ マイニングに関する特別関心グループ


第 8 章: 教育データ マイニング


第 9 章: ソーシャル メディア マイニング


第 10 章: 機械学習の概要


(II) データ マイニングに関する一般のよくある質問に答える。


(III) 多くの分野でのデータ マイニングの実際の使用例。


(IV) データ マイニング テクノロジーを 360 度完全に理解できるように、各業界の 266 の新興テクノロジーを簡潔に説明する 17 の付録。


この本の対象者


専門家、学部生、大学院生、愛好家、愛好家、あらゆる種類の基本的な知識や情報を超えたい人 データマイニングの概要。


 

Language日本語
Release dateJul 5, 2023
データマイニング: 基礎と応用

Read more from Fouad Sabry

Related to データマイニング

Titles in the series (100)

View More

Related ebooks

Reviews for データマイニング

Rating: 0 out of 5 stars
0 ratings

0 ratings0 reviews

What did you think?

Tap to rate

Review must be at least 10 words

    Book preview

    データマイニング - Fouad Sabry

    第 1 章: データ マイニング

    データ マイニングは、機械学習、統計、およびデータベース管理システムの手法を使用して、ビッグ データ セットのパターンを抽出して明らかにする方法です。特定のアプローチに言及する場合、人工知能と機械学習というフレーズは、より一般的な(大規模な)データ分析と分析よりも適切であることがよくあります。

    クラスター分析、異常識別、依存関係分析はすべて、データ マイニングの実際の作業の例であり、隠れた分析情報を発見するための大規模なデータセットの半自動または完全自動探索 (アソシエーション ルール マイニング、シーケンシャル パターン マイニング) です。この目的のために、地理的指標および他のデータベースアプローチがしばしば使用される。結果として得られるパターンは、さらなる分析や機械学習や予測分析などのアプリケーションで、元のデータの省略形として利用することができます。データマイニングは、データのパターンを見つけ、意思決定支援システムがより良い予測を行うために利用できる意味のあるグループに整理するのに役立ちます。データ収集、データ準備、結果の解釈とレポート作成はすべて KDD プロセス全体の重要な部分ですが、特にデータ マイニング ステージの一部ではありません。

    データマイニングとは対照的に、仮説とモデルを評価するために、任意のサイズのデータセット(マーケティングキャンペーンの結果など)に対してデータ分析を実行できます。一方、データマイニングは、機械学習と統計モデルを利用して、膨大なデータセットの隠れたパターンや秘密のパターンを明らかにします。

    データスパイ、データフィッシング、およびデータ浚渫はすべて、データマイニング手法を使用して、統計的に有意であるには小さすぎる(または小さい可能性がある)母集団データセットのサンプルから結論を引き出すという同じ方法を指します。これらの手法を使用して新しい仮説を生成し、より大きなデータセットでテストすることができます。

    アプリオリ仮説なしでデータを評価する不適切な習慣は、1960年代に統計学者や経済学者によって「データフィッシング」または「データ浚渫」と呼ばれていました。 経済学者のマイケル・ラベルは、1983年のReview of Economic Studiesの論文で、「データマイニング」というフレーズを同様に批判的な方法で使用しました。Lovellによると、この動作は「実験」(良いラベル)から「釣り」または「詮索」(悪いラベル)(ネガティブ)に至るまで、多くのエイリアスの下でマスクされます。

    1990年頃、データベースコミュニティは「データマイニング」というフレーズを使い始めました。

    1980年代初頭、「データベースマイニング」™というフレーズが使用されましたが、HNCは、サンディエゴにルーツを持つこの表現を商標登録しているため、データマイニングソフトウェアを販売できます。現在、参照条件としてのデータマイニングとナレッジ検出の間に違いはありません。

    何年もの間、人々はデータからパターンを手動で抽出してきました。ベイズの定理(1700年代から)と回帰分析(1900年代)は、データのパターンを発見するための初期の手法(1800年代)の2つの例です。広範なデータベースで。データをデータベースに保存およびインデックス化して、実際の学習および発見アルゴリズムをより効率的に実行することにより、応用統計と人工知能(通常は数学的背景を提供する)およびデータベース管理の間のギャップを埋めます。これにより、このような方法をこれまで以上に大きなデータセットに適用することができます。

    KDD プロセスの一般的な定義には、以下のステップが含まれます。

    選定

    前処理

    変換

    データマイニング

    解釈/評価。

    ただし、合理化された 6 ステップの手順を概説するデータ マイニングの業界間標準プロセス (CRISP-DM) など、この概念にはいくつかの反復があります。

    ビジネス理解

    データの理解

    データ準備

    モデリング

    評価

    配備

    または、「前処理」、「データマイニング」、「結果の検証」などの合理化された方法。

    CRISP-DMアプローチは、2002年、2004年、2007年、および2014年に行われた世論調査で最も人気のあるデータマイニング手法であることが示されています。

    データ マイニング メソッドを使用する前に、ターゲット データ コレクションを構築する必要があります。ターゲットデータセットは、マイニングするパターンを含めるのに十分な大きさである必要がありますが、妥当な時間内にマイニングするのに十分な管理可能である必要があります。データ ウェアハウスとデータ マートは、有用な情報を入手するための頻繁な場所です。データマイニングは、最初に多変量データセットを前処理しないと開始できません。クリーニングされたターゲットセットが使用されます。ノイズで満たされた空白の観測値は、データクリーニングプロセス全体で除外されます。

    データ マイニング作業には、主に次の 6 つのカテゴリがあります。

    異常スポッティング (変化/偏差/外れ値スポッティングとも呼ばれます) - 関心のある、または追加の調査が必要なデータの問題を示す可能性のある、通常とは異なるデータレコードの検出。

    「アソシエーションルール学習」(依存関係モデリング)を使用して変数間のリンクを検索します。購入パターンは、食料品店が収集できる情報の一種です。スーパーマーケットは、アソシエーションルール学習を利用して、通常一緒に購入されるアイテムを確認し、それらの組み合わせに合わせて広告を調整することができます。マーケットバスケット分析はこれの別名です。

    「クラスタリング」という用語は、データ内の既存の構造に依存することなく、データ内の「類似」するグループと構造を識別するプロセスを指します。

    新しいデータに適用される場合、分類は以前に確立された構造を一般化するプロセスです。たとえば、電子メールクライアントは、メッセージがスパムであるかどうかを判断しようとする場合があります。

    異なるデータセット間の接続を予測するために、回帰はそれらを最もよく表す関数を探します。

    データの視覚化とレポートの作成は、要約によるデータ収集の簡潔な表現の例です。

    誤ってデータマイニングを誤用すると、将来の動作を真に予測せず、新しいデータサンプルで繰り返すことができない一見重要な結果につながる可能性があり、結果は役に立たなくなります。これは、研究者が適切な統計的手法を使用せずにあまりにも多くの仮説を調べようとするときに発生することがあります。機械学習におけるこの問題の最も単純な形式はオーバーフィットとして知られていますが、プロセスのどの時点でも発生する可能性があるため、トレーニング/テストの分割では回避できない場合があります。

    データからの知識発見は、データマイニング技術によって発見されたパターンがデータセット全体に実際に存在するかどうかを確認することで最高潮に達します。アルゴリズムは時々不正なパターンを見つけるかもしれません。データ マイニング アルゴリズムは、多くの場合、テスト セットにないトレーニング セット内のパターンを検出します。オーバーフィットはこの状況を説明します。これを回避するために、データ マイニング アルゴリズムは、トレーニングされていないテスト セットのデータを使用して評価されます。テストセットは、学習したパターンを適用し、実際の結果と期待される結果を比較するために使用されます。たとえば、実際の電子メールからスパムを識別することを目的としたデータマイニングシステムでは、代表的なメッセージで構成されるデータセットのトレーニングが必要になります。教えられた後、システムは電子メールのテストバッチを使用して、学習したパターンを適用します。したがって、正常に分類された電子メールの数は、パターンの有効性の良い指標です。アルゴリズムの有効性は、ROC曲線を含む様々な統計的手法を用いて決定され得る。

    結果のパターンが必要な基準を満たさない場合は、前処理とデータマイニングの手順を再評価して変更することが重要です。最後の段階は、取得したパターンを分析し、実際に適切な要件に適合している場合は知識に変換することです。

    コンピューティング機械協会(ACM)のナレッジディスカバリーおよびデータマイニングSIGは、この地域で最も権威のある専門組織(SIGKDD)です。

    データマイニングに焦点を当てたコンピュータサイエンスの会議:

    情報知識マネジメント会議(CIKM)

    データベースにおける知識発見:原則と実践、および機械学習に関する欧州会議

    Knowledge Discovery and Data Mining Conference (KDD): 年次 ACM SIGKDD カンファレンス

    ICDE Conference、SIGMOD Conference、International Conference on Very Large Data Basesなどの多くのデータ管理およびデータベース会議には、データマイニングに関するセッションも含まれています。

    データマイニング標準は、1999年の欧州クロスインダストリー標準データマイニングプロセス(CRISP-DM 1.0)や2004年のJavaデータマイニング標準など、さまざまなコンテキストで定義されています。(JDM 1.0) を参照してください。2006年に、CRISP-DMとJDMの両方の次のバージョンの作業が開始されましたが、それ以来、進歩は鈍化しています。JDM 2.0の最終バージョンはキャンセルされました。

    予測モデル マークアップ言語

    Enjoying the preview?
    Page 1 of 1