vectorize_sentences_list

描述

将多个句子转换为词频向量列表。 生成的所有向量长度相同,等于所有句子中不同单词的总数。 每个向量中的每个位置对应一个单词,值表示该单词在对应句子中出现的次数。

函数签名

vectorize_sentences_list(sentences) -> None

参数

sentences (list[str])

输入句子列表,每个元素是一个字符串

返回值


list[list[int]] 返回词频向量列表,其中: - 每个向量对应一个输入句子 - 所有向量长度相同,等于所有句子中不同单词的总数 - 向量中的每个值表示对应单词在该句子中的出现次数

Python调用示例: ```python from rust_pyfunc import vectorize_sentences_list

准备测试句子列表

sentences = [ "The quick brown fox", "The lazy brown dog", "A quick brown fox jumps" ]

转换为词频向量列表

vectors = vectorize_sentences_list(sentences)

打印每个句子的词频向量

for i, vec in enumerate(vectors): print(f"句子{i+1}的词频向量: {vec}")

示例输出解释:

假设合并后的词表为 ["a", "brown", "dog", "fox", "jumps", "lazy", "quick", "the"]

第一个句子: [0, 1, 0, 1, 0, 0, 1, 1] # "The quick brown fox"

第二个句子: [0, 1, 1, 0, 0, 1, 0, 1] # "The lazy brown dog"

第三个句子: [1, 1, 0, 1, 1, 0, 1, 0] # "A quick brown fox jumps"

```

示例

输入:

vectorize_sentences_list( ['这是第一个句子', '这是第二个句子', '这是第三个句子'] )

输出:

[[0, 1, 0], [1, 0, 0], [0, 0, 1]]

Python使用示例

import numpy as np
from rust_pyfunc import vectorize_sentences_list

# 使用示例


result = vectorize_sentences_list(['这是第一个句子', '这是第二个句子', '这是第三个句子'])
print(f"结果: {result}")