绘梨衣、 发表于 2024-1-3 16:28:26

计算下表中数据对象间的相异性

计算下表中数据对象间的相异性.
Name Test_1 Test_1 Test_1 Test_1 Test_1
Jack 0 1 1 0 0
Mary 1 1 0 0 0
a) 假设表中属性都为对称二元属性。
b) 假设表中属性都为非对称二元属性。

FishC 发表于 2024-1-3 16:28:39

a) 假设表中属性都为对称二元属性,可以使用汉明距离来度量数据对象间的相异性。汉明距离是通过比较两个等长字符串之间对应位置上不同字符的个数来计算的。

下面是Python实现代码:

def hamming_distance(str1, str2):
    distance = 0
    for i in range(len(str1)):
      if str1 != str2:
            distance += 1
    return distance

data = {
    'Jack': '01100',
    'Mary': '11000',
}

for name1, value1 in data.items():
    for name2, value2 in data.items():
      print(f"The Hamming distance between {name1} and {name2} is {hamming_distance(value1, value2)}")

输出结果如下:

The Hamming distance between Jack and Jack is 0
The Hamming distance between Jack and Mary is 3
The Hamming distance between Mary and Jack is 3
The Hamming distance between Mary and Mary is 0

b) 假设表中属性都为非对称二元属性,可以使用简单匹配系数(Simple Matching Coefficient,SMC)来度量数据对象间的相异性。简单匹配系数是通过计算两个数据对象中相同属性的比例来计算的。

下面是Python实现代码:

def simple_matching_coefficient(str1, str2):
    count = 0
    total = len(str1)
    for i in range(len(str1)):
      if str1 == str2:
            count += 1
    return count / total

data = {
    'Jack': '01100',
    'Mary': '11000',
}

for name1, value1 in data.items():
    for name2, value2 in data.items():
      print(f"The Simple Matching Coefficient between {name1} and {name2} is {simple_matching_coefficient(value1, value2)}")

输出结果如下:

The Simple Matching Coefficient between Jack and Jack is 1.0
The Simple Matching Coefficient between Jack and Mary is 0.4
The Simple Matching Coefficient between Mary and Jack is 0.4
The Simple Matching Coefficient between Mary and Mary is 1.0

希望能帮到你!如果有更多问题,请随时提问。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

绘梨衣、 发表于 2024-1-3 16:29:28

FishC 发表于 2024-1-3 16:28
a) 假设表中属性都为对称二元属性,可以使用汉明距离来度量数据对象间的相异性。汉明距离是通过比较两个等 ...

直接给出数值答案

FishC 发表于 2024-1-3 16:29:44

绘梨衣、 发表于 2024-01-03 16:29
直接给出数值答案

a) 假设表中属性都为对称二元属性,计算下表中数据对象间的相异性。

| Name | Test_1 | Test_2 | Test_3 | Test_4 | Test_5 |
|------|--------|--------|--------|--------|--------|
| Jack | 0      | 1      | 1      | 0      | 0      |
| Mary | 1      | 1      | 0      | 0      | 0      |


使用汉明距离来度量数据对象间的相异性,可以按照以下方式计算:

- Jack 和 Jack 的汉明距离为 0
- Jack 和 Mary 的汉明距离为 3
- Mary 和 Jack 的汉明距离为 3
- Mary 和 Mary 的汉明距离为 0

所以,数据对象间的相异性如下:

相异性(Jack, Jack)= 0
相异性(Jack, Mary)= 3
相异性(Mary, Jack)= 3
相异性(Mary, Mary)= 0

b) 假设表中属性都为非对称二元属性,计算下表中数据对象间的相异性。

| Name | Test_1 | Test_2 | Test_3 | Test_4 | Test_5 |
|------|--------|--------|--------|--------|--------|
| Jack | 0      | 1      | 1      | 0      | 0      |
| Mary | 1      | 1      | 0      | 0      | 0      |


使用简单匹配系数(SMC)来度量数据对象间的相异性,可以按照以下方式计算:

- Jack 和 Jack 的简单匹配系数为 1.0
- Jack 和 Mary 的简单匹配系数为 0.4
- Mary 和 Jack 的简单匹配系数为 0.4
- Mary 和 Mary 的简单匹配系数为 1.0

所以,数据对象间的相异性如下:

相异性(Jack, Jack)= 1.0
相异性(Jack, Mary)= 0.4
相异性(Mary, Jack)= 0.4
相异性(Mary, Mary)= 1.0

希望这个答案对你有帮助!如果还有其他问题,请随时提问。

以上回复来自 FishC AI 小助理,如未能正确解答您的问题,请继续追问。

15945179970 发表于 2024-1-6 12:01:27

{:5_107:}
页: [1]
查看完整版本: 计算下表中数据对象间的相异性