vectorize_sentences
描述
将两个句子转换为词频向量。 生成的向量长度相同,等于两个句子中不同单词的总数。 向量中的每个位置对应一个单词,值表示该单词在句子中出现的次数。
函数签名
vectorize_sentences(sentence1, sentence2) -> None
参数
sentence1
(str)
第一个输入句子
sentence2
(str)
第二个输入句子
返回值
tuple 返回一个元组(vector1, vector2),其中: - vector1: 第一个句子的词频向量 - vector2: 第二个句子的词频向量 两个向量长度相同,每个位置对应词表中的一个单词
Python调用示例: ```python from rust_pyfunc import vectorize_sentences
准备两个测试句子
s1 = "The quick brown fox" s2 = "The lazy brown dog"
转换为词频向量
v1, v2 = vectorize_sentences(s1, s2) print(f"句子1的词频向量: {v1}") # 例如:[1, 1, 1, 1, 0] print(f"句子2的词频向量: {v2}") # 例如:[1, 0, 1, 0, 1]
解释结果:
假设合并的词表为 ["brown", "fox", "quick", "the", "lazy"]
v1 = [1, 1, 1, 1, 0] 表示 brown, fox, quick, the 各出现一次,lazy未出现
v2 = [1, 0, 0, 1, 1] 表示 brown, the, lazy 各出现一次,fox和quick未出现
```
示例
输入:
vectorize_sentences(
"这是第一个句子",
"这是第二个句子"
)
输出:
([0, 1], [1, 0])
输入:
vectorize_sentences(
"机器学习很有趣",
"深度学习也很有趣"
)
输出:
([1, 0], [0, 1])
Python使用示例
import numpy as np
from rust_pyfunc import vectorize_sentences
# 使用示例
result = vectorize_sentences("这是第一个句子", "这是第二个句子")
print(f"结果: {result}")