통계 텍스트 분석.

완료됨

비고

자세한 내용은 텍스트 및 이미지 탭을 참조하세요.

텍스트 모음을 해당 구성 토큰으로 세분화하고 분석을 위해 준비했습니다. 텍스트에서 의미를 유추하는 데 사용할 수 있는 몇 가지 일반적인 통계 분석 기술이 있습니다.

빈도 분석

문서에서 설명하는 항목을 확인하는 가장 확실한 방법은 정규화된 각 토큰이 표시되는 횟수를 계산하는 것입니다. 문서에서 더 자주 사용되는 용어는 논의된 주제 또는 테마를 식별하는 데 도움이 될 수 있다고 가정합니다. 간단히 말해서, 지정된 문서에서 가장 일반적으로 사용되는 단어를 확인할 수 있는 경우 문서의 내용을 잘 파악할 수 있습니다.

예를 들어 다음 텍스트를 고려합니다.

AI in modern business delivers transformative benefits by enhancing efficiency, decision-making, and customer experiences. Businesses can leverage AI to automate repetitive tasks, freeing employees to focus on strategic work, while predictive analytics and machine learning models enable data-driven decisions that improve accuracy and speed. AI-powered tools like Copilot streamline workflows across marketing, finance, and operations, reducing costs and boosting productivity. Additionally, intelligent applications personalize customer interactions, driving engagement and loyalty. By embedding AI into core processes, businesses benefit from the ability to innovate faster, adapt to market changes, and maintain a competitive edge in an increasingly digital economy.

텍스트에 토큰화, 정규화 및 적용 후 각 용어의 빈도를 계산하고 표로 지정할 수 있습니다. 다음과 같은 부분 결과를 생성합니다.

용어 빈도
ai 4
business 3
benefit 2
customer 2
decision 2
market 2
ability 1
accuracy 1
... ...

이러한 결과에서 가장 자주 발생하는 용어는 텍스트가 AI 및 비즈니스 이점에 대해 설명함을 나타냅니다.

용어 빈도 - 역 문서 빈도(TF-IDF)

각 토큰의 발생 횟수를 계산하는 간단한 빈도 분석은 단일 문서를 분석하는 효과적인 방법이 될 수 있지만, 동일한 모음 내의 여러 문서를 구분해야 하는 경우 각 개별 문서에서 가장 관련성이 큰 토큰을 확인하는 방법이 필요합니다.

예를 들어 다음 두 텍스트 샘플을 고려합니다.

샘플 A:

Microsoft Copilot Studio enables declarative AI agent creation using natural language, prompts, and templates. With this declarative approach, an AI agent is configured rather than programmed: makers define intents, actions, and data connections, then publish the agent to channels. Microsoft Copilot Studio simplifies agent orchestration, governance, and lifecycles so an AI agent can be iterated quickly. Using Microsoft Copilot Studio helps modern businesses deploy Microsoft AI agent solutions fast.

샘플 B:

Microsoft Foundry enables code‑based AI agent development with SDKs and APIs. Developers write code to implement agent conversations, tool calling, state management, and custom pipelines. In Microsoft Foundry, engineers can use Python or Microsoft C#, integrate Microsoft AI services, and manage CI/CD to deploy the AI agent. This code-first development model supports extensibility and performance while building Microsoft Foundry AI agent applications.

이러한 샘플에서 가장 자주 사용하는 상위 3개 용어는 다음 표에 나와 있습니다.

샘플 A:

용어 빈도
agent 6
ai 4
microsoft 4

샘플 B:

용어 빈도
microsoft 5
agent 4
ai 4

결과에서 볼 수 있듯이 두 샘플에서 가장 일반적인 단어는 동일합니다("agent""Microsoft""AI"). 이는 두 문서 모두 비슷한 전체 테마를 다루지만 개별 문서를 구분하는 데 도움이 되지 않는다는 것을 알려줍니다. 자주 사용되지 않는 용어의 개수를 검토하면 도움이 될 수 있지만 Microsoft의 AI 설명서를 기반으로 하는 모음의 분석을 쉽게 상상할 수 있습니다. 그러면 모든 문서에서 공통되는 용어가 많이 생성됩니다. 각 문서에서 다루는 특정 항목을 확인하기가 어렵습니다.

이 문제를 해결하기 위해 용어 빈도 - 역 문서 빈도 (TF-IDF)는 전체 문서 컬렉션에서 보다 일반적인 빈도에 비해 단어 또는 용어가 한 문서에 나타나는 빈도를 기준으로 점수를 계산하는 기술입니다. 이 기법을 사용하면 특정 문서에 자주 표시되지만 다른 문서의 범위에서 상대적으로 드물게 나타나는 단어에 대해 높은 수준의 관련성이 있다고 가정합니다. 개별 문서의 용어에 대한 TF-IDF 계산하려면 다음 3단계 프로세스를 사용할 수 있습니다.

  1. TF(용어 빈도) 계산: 문서에 단어가 표시되는 횟수입니다. 예를 들어, 문서에서 "agent" 단어가 6번 나타나면 tf(agent) = 6.

  2. IDF(역 문서 빈도) 계산: 모든 문서에서 단어가 얼마나 일반적이거나 드문지 확인합니다. 모든 문서에 단어가 나타나면 특별한 것은 아닙니다. IDF를 계산하는 데 사용되는 수식은 idf(t) = log(N / df(t))이며, 여기서 N는 총 문서 수이고 t단어를 포함하는 문서의 수는 df(t)입니다.

  3. 이를 결합하여 TF-IDF를 계산합니다. TF 및 IDF를 곱하여 점수를 가져옵니다. tfidf(t, d) = tf(t, d) * log(N / df(t))

높은 TF-IDF 점수는 단어가 한 문서에 자주 나타나지만 다른 문서에는 거의 나타나지 않는다는 것을 나타냅니다. 낮은 점수는 단어가 많은 문서에서 일반적임을 나타냅니다. AI 에이전트 "AI""Microsoft""agent" 와 관련된 두 가지 샘플에서, 이 요소들이 두 샘플(N = 2, df(t) = 2)에 모두 나타나므로 해당 IDF는 log(2/2) = 0이며, 따라서 TF‑IDF에서 차별적인 가중치를 갖지 않게 됩니다. 샘플의 상위 3개 TF-IDF 결과는 다음과 같습니다.

샘플 A:

용어 TF-IDF
copilot 2.0794
studio 2.0794
declarative 1.3863

샘플 B:

용어 TF-IDF
code 2.0794
develop 2.0794
foundry 2.0794

이러한 결과에서 샘플 A는 Copilot Studio를 사용한 선언적 에이전트 생성에 관한 것이고 샘플 B는 Microsoft Foundry를 사용한 코드 기반 에이전트 개발에 관한 것이 분명합니다.

"단어 모음" 기계 학습 기술

단어 모음 은 텍스트 토큰을 단어 빈도 또는 항목의 벡터로 나타내며 문법 및 단어 순서를 무시하는 기능 추출 기술에 지정된 이름입니다. 이 표현은 단어 빈도를 기반으로 문서의 가능한 클래스를 예측하기 위해 Bayes의 정리를 적용하는 확률적 분류자인 Naive Bayes와 같은 기계 학습 알고리즘에 대한 입력이 됩니다.

예를 들어 이 기술을 사용하여 전자 메일 스팸 필터링을 수행하는 기계 학습 모델을 학습시킬 수 있습니다. 일반 이메일보다 모호한 건강 제품에 대한 스팸 전자 메일에 ''노화 방지'라는 단어가 "miracle cure""lose weight fast"더 자주 표시될 수 있으며, 학습된 모델은 이러한 단어가 포함된 메시지에 잠재적 스팸으로 플래그를 지정할 수 있습니다.

동일한 방법을 사용하여 감정 분석을 구현하여 텍스트를 감정적 톤으로 분류할 수 있습니다. 단어 모음은 기능을 제공하며, 모델은 이러한 기능을 사용하여 확률을 예측하고 "긍정" 또는 "부정"과 같은 감정 레이블을 할당합니다.

TextRank

TextRank는 텍스트를 연결된 노드의 네트워크로 모델하는 감독되지 않는 그래프 기반 알고리즘 입니다. 예를 들어 문서의 각 문장은 노드로 간주될 수 있으며, 이들 사이의 연결(가장자리)은 포함된 단어의 유사성에 따라 점수가 매깁니다. TextRank는 일반적으로 문서 내에서 전체 제목을 가장 잘 나타내는 문장의 하위 집합을 식별하여 텍스트를 요약하는 데 사용됩니다.

TextRank 알고리즘은 Google의 PageRank 알고리즘(웹 페이지 간 링크에 따라 순위 지정)과 동일한 원칙을 텍스트에 적용합니다. 핵심 개념은 문장이 다른 많은 중요한 문장과 유사한 경우 중요하다는 것입니다. 알고리즘은 다음 단계를 통해 작동합니다.

  1. 그래프 작성: 각 문장은 노드가 되고, 이를 연결하는 가장자리는 유사성에 따라 가중치가 적용됩니다(종종 문장 벡터 간의 단어 겹침 또는 코사인 유사성을 사용하여 측정됨).

  2. 순위를 반복적으로 계산합니다. 각 노드의 점수는 연결된 노드의 점수를 기준으로 계산됩니다. 수식은 다음과 TextRank(Sᵢ) = (1-d) + d * Σ(wⱼᵢ / Σwⱼₖ) * TextRank(Sⱼ) 같습니다.(여기서 d 감쇠 계수는 일반적으로 0.85 wⱼᵢ 이며 문장에서 문장 ji까지 가장자리의 가중치이며 합계는 연결된 i모든 문장에서 반복됩니다).

  3. 최상위 문장 추출: 수렴 후 점수가 가장 높은 문장이 요약으로 선택됩니다.

예를 들어 클라우드 컴퓨팅에 대한 다음 문서를 고려해 보세요.

Cloud computing provides on-demand access to computing resources. Computing resources include servers, storage, and networking. Azure is Microsoft's cloud computing platform. Organizations use cloud platforms to reduce infrastructure costs. Cloud computing enables scalability and flexibility.

이 문서의 요약을 생성하기 위해 TextRank 프로세스는 이 문서를 문장으로 분할하여 시작합니다.

  1. Cloud computing provides on-demand access to computing resources.
  2. Computing resources include servers, storage, and networking.
  3. Azure is Microsoft's cloud computing platform.
  4. Organizations use cloud platforms to reduce infrastructure costs.
  5. Cloud computing enables scalability and flexibility.

다음으로, 유사성(단어 겹침)을 기반으로 가중치가 있는 문장 사이에 가장자리가 만들어집니다. 이 예제의 경우 에지 가중치는 다음과 같습니다.

  • 문장 1 <-> 문장 2: 0.5(공유 "computing resources")
  • 문장 1 <-> 문장 3: 0.6(공유 "cloud computing")
  • 문장 1 <-> 문장 4: 0.2(공유 "cloud")
  • 문장 1 <-> 문장 5: 0.7(공유 "cloud computing")
  • 문장 2 <-> 문장 3: 0.2(제한된 겹침)
  • 문장 2 <-> 문장 4: 0.1(겹침 제한)
  • 문장 2 <-> 문장 5: 0.1(공유 "computing")
  • 문장 3 <-> 문장 4: 0.5(공유 "cloud platforms")
  • 문장 3 <-> 문장 5: 0.4(공유 "cloud computing")
  • 문장 4 <-> 문장 5: 0.3(제한된 겹침)

연결된 문장 노드의 다이어그램.

이러한 가중치를 사용하여 TextRank 점수를 반복적으로 계산한 후 문장 1, 3 및 5는 공유 용어 및 개념을 통해 다른 문장에 잘 연결되므로 가장 높은 점수를 받을 수 있습니다. 이러한 문장은 간결한 요약을 구성하기 위해 선택됩니다. "Cloud computing provides on-demand access to computing resources. Azure is Microsoft's cloud computing platform. Cloud computing enables scalability and flexibility."

비고

가장 관련성이 큰 문장을 선택하여 문서 요약을 생성하는 것은 추출 요약 의 한 형태입니다. 이 방법에서는 새 텍스트가 생성되지 않습니다. 요약은 원래 텍스트의 하위 집합으로 구성됩니다. 의미 체계 모델링의 최신 개발은 또한 원본 문서의 주요 테마를 요약하는 새 언어가 생성되는 추상적 요약을 가능하게 합니다.

워드 추출을 위해 단어 수준에서 TextRank을 적용할 수도 있습니다. 여기서 단어(문장이 아닌)는 노드가 되고 가장자리는 고정 창 내에서 공동 발생을 나타냅니다. 가장 높은 순위의 단어는 문서의 주요 항목을 나타내는 주요 용어로 추출됩니다.